Hangi mesafe kullanılır? ör. manhattan, öklid, Bray-Curtis, vb.


11

Ben bir topluluk ekologu değilim, ama bugünlerde topluluk ekolojisi verileri üzerinde çalışıyorum.

Bu mesafelerin matematiği dışında anlayamadığım şey, kullanılacak her mesafe ve hangi durumlarda uygulanabileceğine ilişkin ölçütlerdir. Örneğin, sayım verileriyle ne kullanılır? İki konum arasındaki eğim açısını bir mesafeye nasıl dönüştürebilirim? Veya iki yerde sıcaklık veya yağış? Her mesafe için varsayımlar nelerdir ve ne zaman mantıklıdır?


Mesafe metriklerini, varsayımlarını, anlamlarını ve uygulanabilirliklerini anlamanın güvenilir yolu formülleri üzerinde meditasyon yapmaktır. Karşılaştırmalı anatomi, farklı hayvanların nasıl yaşadığını ve davrandığını tahmin etmesine izin verdi. Ayrıca, mesafe metrikleri ile ilgili kitapları / makaleleri okuyun.
ttnphns

2
Bilgiçlik taslağı: Bray – Curtis bir mesafe değil, bir farklılıktır.
Franck Dernoncourt

Yanıtlar:


13

Ne yazık ki, çoğu durumda sorunuzun net bir cevabı yoktur. Yani, herhangi bir uygulama için, benzer ve doğru cevaplar verecek kesinlikle birçok mesafe metriği vardır. Aktif olarak kullanılmakta olan düzinelerce ve muhtemelen yüzlerce geçerli mesafe metriği göz önüne alındığında, "doğru" mesafeyi bulabileceğiniz fikri, uygun bir mesafe metriği seçme problemini düşünmek için verimli bir yol değildir.

Bunun yerine üzerinde durulacak değil toplama yanlış mesafe metrik. Mesafenizin "mutlak büyüklük" ü yansıtmasını mı istiyorsunuz (örneğin, benzer ortalama değerlere sahip stokları tanımlamak için mesafeyi kullanmak mı istiyorsunuz) veya yanıtın genel şeklini (örneğin, zaman içinde benzer şekilde dalgalanan hisse senedi fiyatları, ancak tamamen farklı ham değerleri olabilir)? Önceki senaryo örneğin Manhattan ve Öklid gibi mesafeleri, ikincisi ise korelasyon mesafesini gösterecektir.

Verilerinizin kovaryans yapısını biliyorsanız, Mahalanobis mesafesi muhtemelen daha uygundur. Tamamen kategorik veriler için, eşleşen mesafe gibi birçok önerilen mesafe vardır. Karışık kategorik ve sürekli için Gower'ın mesafesi popülerdir (benim görüşüme göre biraz teorik olarak tatmin edici olmasa da).

Son olarak, benim görüşüme göre, sonuçlarınızın ve sonuçlarınızın mesafe metriği seçimine (elbette uygun mesafelerin alt kümesinde) sağlam olduğunu kanıtlarsanız, analiziniz güçlendirilecektir. Analiziniz kullanılan mesafe metriğindeki küçük değişikliklerle büyük ölçüde değişiyorsa, tutarsızlığın nedenini belirlemek için daha fazla çalışma yapılmalıdır.


1
Ne demek istiyorsun correlation distance? 1- r ?
ttnphns

1
@ttnphns evet, en yaygın olanıdır. belirli bir benzerlik metriği için, farklılığa dönüştürmek için en az üç formül bulunduğunu belirtmek gerekir: (1) Bhattacharyya'nın , (2) yöntemi Kolmogorov'un yöntemi ve (3) Matusita'nın yöntemi . Bu, seçimin genellikle çok önemli olduğunu düşünmediğim bir başka alandır ve eğer olsaydı, sonuçlarımın sağlamlığından endişe duyarım. ρ [ - 1 , 1 ] c o s - 1 ( ρ ) 1 - ρ 1rρ[1,1]cos1(ρ)1ρ sr, birCtice22ρpractice
ahfoss

Son yorumum için alıntı: Krzanowski (1983). Biyometrik biber, 70 (1), 235-243. Bkz. Sayfa 236.
ahfoss

1
Tamam teşekkürler. Bu yanıtı da kontrol edin lütfen. Bu, r'ninreflect overall shape of the response kelimelerinizdeki standartlaştırılmış verilerden (karşılaştırılan profiller) elde edilen öklid mesafesiyle tam olarak ilişkili olduğu gerçeğine işaret eder .
ttnphns

1
İyi yazı. Belirttiğiniz gibi, iki metrik gerçekten birbiriyle ilişkilidir. Mevcut tartışmaya dikkatinizi çekmek için temel fark Öklid uzaklık değişkenlerinde (genellikle) ortalanmadığı, ancak korelasyon formülünün değişkenleri ve ölçekleri standart sapmalarına göre ortalamasıdır. Bu nedenle, korelasyon lineer dönüşümlere değişmezken, Öklid mesafesi mutlaka gerekli değildir.
ahfoss

6

Doğru mesafeyi seçmek temel bir görev değildir. Bir veri kümesinde küme analizi yapmak istediğimizde, farklı mesafeler kullanılarak farklı sonuçlar ortaya çıkabilir, bu nedenle hangi mesafeyi seçeceğine dikkat etmek çok önemlidir, çünkü değişkenliği iyi yakalayan yanlış iyi bir artefakt yapabiliriz, ancak aslında bizim sorunumuzda.

Öklid Ben sürekli sayısal değişkenler var ve mutlak mesafeleri yansıtmak istediğinizde mesafe uygundur. Bu mesafe her değişkeni hesaba katar ve fazlalıkları kaldırmaz, bu yüzden aynı şeyi açıklayan (değişkenler) üç değişkenim varsa, bu etkiyi üçe kadar ağırlıklandıracağım. Dahası, bu mesafe ölçek değişmez değildir, bu yüzden genellikle mesafeyi kullanmak için daha önce ölçeklemeliyim.
Örnek ekoloji: Uzmanların bazı mikrobiyolojik, fiziksel ve kimyasal faktörlerin örneklerini aldığı birçok bölgeden farklı gözlemlerimiz var. Ekosistemlerde örüntüler bulmak istiyoruz. Bu faktörlerin yüksek bir korelasyonu vardır, ancak herkesin alakalı olduğunu biliyoruz, bu nedenle bu fazlalıkları kaldırmak istemiyoruz. Birimlerin etkisini önlemek için Öklid mesafesini ölçeklendirilmiş verilerle kullanıyoruz.

Mahalonobis Ben sürekli sayısal değişkenler var ve mutlak mesafeleri yansıtmak istiyoruz ama biz fazlalıklar kaldırmak istediğinizde mesafe uygundur. Tekrarlanan değişkenlerimiz varsa, tekrarlanan etkileri ortadan kalkar.

Hellinger , Türler Profili ve Akor mesafesi ailesi , değişkenler arasındaki farklara vurgu yapmak istediğimizde, profilleri farklılaştırmak istediğimizde uygundur. Bu mesafeler, her gözlemin toplam miktarlarına göre ağırlıklandırılır, öyle ki, mutlak büyüklüklerde çok farklı olmasına rağmen, değişkenler değişkenlere göre değişken olduğunda bireyler daha benzerdir. Dikkat et! Bu mesafeler profiller arasındaki farkı çok iyi yansıtır, ancak büyüklük etkisini kaybetmiştir. Farklı örnek boyutlarımız olduğunda çok yararlı olabilirler.
Örnek ekoloji: Birçok arazinin faunasını incelemek istiyoruz ve gastropodun envanterinin bir veri matrisine sahibiz (satırlardaki örnekleme yerleri ve sütunlardaki tür adları). Matris, birçok sıfırın ve farklı büyüklüklerin olmasıyla karakterizedir, çünkü bazı yerelliklerin bazı türleri ve diğerlerinin de başka türleri vardır. Hellinger mesafesini kullanabiliriz.

Bray-Curtis oldukça benzerdir, ancak profilleri farklılaştırmak ve göreceli büyüklükleri hesaba katmak istediğimizde daha uygundur.


Kullanım örneklerini ve örneklerini farklılaştırdığınız için teşekkür ederiz. Bunu aero sınıflandırma modeline uygulamada çok yararlı buldum.
S3DEV

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.