Kullanılacak en iyi mesafe ölçüsü


12

bağlam

Karşılaştırmak istediğim iki veri setim var. Her iki kümedeki her veri elemanı 22 açı içeren bir vektördür (hepsi π ve arasında π). Açılar belirli bir insan poz konfigürasyonuyla ilgilidir, bu nedenle poz 22 eklem açısı ile tanımlanır.

Nihayetinde yapmaya çalıştığım iki veri kümesinin "yakınlığını" belirlemektir. Bir setteki her poz (22D vektörü) için, diğer sette en yakın komşusunu bulmak ve en yakın çiftlerin her biri için bir mesafe grafiği oluşturmak istiyorum.

Sorular

  • Sadece Öklid mesafesini kullanabilir miyim?
    • Anlamlı olmak için, mesafe metriğinin şu şekilde tanımlanması gerektiğini varsayıyorum: θ=|θ1θ2|modπ , nerede|...|mutlak değer ve mod modülodur. Daha sonra elde edilen 22 teta'yı kullanarak standart Öklid uzaklık hesaplamasını yapabilirim,t12+t22++t222 .
    • Bu doğru mu?
  • Ki-kare, Bhattacharyya veya başka bir metrik gibi başka bir mesafe metriği daha yararlı olur mu? Eğer öyleyse, lütfen neden olduğuna dair bir fikir verebilir misiniz?

3
Bir yan not olarak: . Bunun yerine . |θ1θ2|modπmin{|θ1θ2|,2π|θ1θ2|}
Erik P.

4
Açılarla çalışmak yerine, önce birim daire üzerinde (x, y) koordinatlarına dönüştürmenizi öneririm. Daha sonra normal olarak (mesafeler ve benzerleri) hesaplayabilirsiniz ve ortalamalar açılarda olduğu gibi bir sorun değildir.
caracal

2
Josh Erik P.'nin önerisi iyi. Alternatif olarak, her açıyı birim çember üzerinde bir nokta düşünün ve normal (Pisagor) formülünü kullanarak aralarındaki Öklid mesafelerini hesaplayın. Bu mesafeler ile açısal mesafeler arasındaki fark önemli olmamalıdır. (Bu θ(cos(θ),sin(θ))
Caracal'ın da önerebileceğine

2
@Josh Örneğin ve ortalaması . Çoğu durumda, bu bir anlam ifade etmez ve bunun yerine olmalıdır . Özel durumunuzda, bu bir sorun olmayabilir çünkü belki insan eklemlerinde geçmiş bir hareket aralığı yoktur . Ayrıca, sizin durumunuzda, belki de eklem hareketi tek yönlü olduğundan yukarıda belirtilen ortalamanın olmasını istersiniz . @ whuber'ın önerisi tam olarak kastettiğim şeydi. π/47π/4π0ππ
caracal

3
"Yanlış anlamanın" sonuçlarını belirtebilirseniz, muhtemelen probleminizi çözmek çok daha kolay olacaktır. Yani veri kümelerinin aynı veya benzer olduğunu söylüyorsanız, ama aslında değil, size ne olacak? Kararın "ne kadar yanlış" olduğuna bağlı mı olacak? Verileri / pozları farklı beyan ederseniz, ancak bunlar aynı veya benzer ise ne olur? Ne kayboldu? Bu sorulara cevap belirlemeye yardımcı olacak önemli olan karşılaştırma için size yapmak istiyorum. Bu, doğru soruyu yanıtlamanızı sağlar.
probabilityislogic

Yanıtlar:


5

her set için kovaryans matrisini hesaplayabilir ve daha sonra Mahalanobis mesafesini kullanarak iki set arasındaki Hausdorff mesafesini hesaplayabilirsiniz.

Mahalanobis mesafesi, bilinmeyen bir örneklem setinin bilinen bir sete benzerliğini belirlemenin faydalı bir yoludur. Veri kümesinin korelasyonlarını dikkate alması ve ölçek değişmez olması nedeniyle Öklid mesafesinden farklıdır.


3

En yakın komşu bilgileriyle ne yapmaya çalışıyorsunuz?

Bu soruya cevap veririm ve sonra farklı mesafe ölçülerini bunun ışığında karşılaştırırdım.

Örneğin, pozları eklem yapılandırmasına göre sınıflandırmaya çalıştığınızı ve aynı pozdaki eklem vektörlerinin birbirine yakın olmasını istediğinizi varsayalım. Farklı mesafe metriklerinin uygunluğunu değerlendirmenin basit bir yolu, her birini bir KNN sınıflandırıcısında kullanmak ve elde edilen modellerin her biri için örnek dışı doğrulukları karşılaştırmaktır.


2

Bu, belirli bir Bilgi Alma (IR) uygulamasına benziyor gibi görünüyor. Birkaç yıl önce, yaptığınız şeye benzeyen yürüyüş tanıma hakkında bir konuşmaya katıldım. Bilgi Alımında, "belgeler" (sizin durumunuzda: bir kişinin açı verileri) bazı sorgularla karşılaştırılır (sizin durumunuzda "açı verileri olan bir kişi olabilir (.., ..)"). Ardından, belgeler en azına en yakın olana göre sıralanır. Bu da, IR'nin bir merkezi bileşeninin bir çeşit vektör alanına (sizin durumunuzda: açı boşluğu) bir belge koyması ve belirli bir sorgu veya örnek belgeyle karşılaştırması veya mesafelerini ölçmesi anlamına gelir. (Aşağıya bakın.) İki ayrı vektör arasındaki mesafenin sağlam bir tanımına sahipseniz, tek yapmanız gereken iki veri kümesinin uzaklığı için bir ölçü bulmak. (Geleneksel olarak IR'de vektör uzay modelindeki mesafe kosinüs ölçüsü veya Öklid mesafesi ile hesaplanır, ancak bu durumda nasıl yaptıklarını hatırlamıyorum.) IR'de kavramsal olarak "alaka geri bildirimi" adı verilen bir mekanizma da vardır. , iki belge kümesinin mesafesiyle çalışır. Bu mekanizma normalde tüm belge çiftleri arasındaki (veya sizin durumunuzda: kişi vektörleri) tüm ayrı mesafeleri toplayan bir mesafe ölçüsü kullanır. Belki bu sizin için yararlıdır.

Aşağıdaki sayfada, sorununuzla alakalı görünen bazı makaleler bulunmaktadır: http://www.mpi-inf.mpg.de/~mmueller/index_publications.html Özellikle bu http://www.mpi-inf.mpg.de/ ~ mmueller / yayınlar / 2006_DemuthRoederMuellerEberhardt_MocapRetrievalSystem_ECIR.pdf ilginç görünüyor. Müller'in katıldığım konuşmasında Kovar ve Gleicher'den "nokta bulutu" (bkz. Http://portal.acm.org/citation.cfm?id=1186562.1015760&coll=DL&dl=ACM ) ve "quaternions" adlı benzerlik ölçütlerinden bahsediliyor . Umarım yardımcı olur.


Bulabiliyorsanız referansa sahip olmanız faydalı olacaktır. Teşekkürler.
Josh

2

Bu soruna Uzaktan Metrik Öğrenme denir. Her mesafe metriği olarak temsil edilebilir; burada pozitif yarı tanımlıdır. Bu alt alandaki yöntemler , verileriniz için en uygun öğrenin . Aslında, optimal bir kimlik matrisi olursa, öklid mesafelerini kullanmakta sorun yoktur. Ters kovaryans ise, Mahalanobis mesafesini kullanmak vb. Bu nedenle, en uygun , doğru mesafe metriğini öğrenmek için bir mesafe metrik öğrenme yöntemi kullanılmalıdır .(xy)tA(xy)AAAA


0

Açıları şekil için bir vekil olarak kullanmanın bir sorunu, açılardaki küçük pertürbasyonların şekil içinde büyük pertürbasyonlara yol açabilmesidir. Ayrıca, farklı açı konfigürasyonları aynı (veya benzer) şekle neden olabilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.