Korelasyonu metrik ölçü olarak kullanma (hiyerarşik kümeleme için)


22

Verilerimi hiyerarşik olarak kümelemek istiyorum ancak Öklid mesafesini kullanmak yerine, korelasyon kullanmak istiyorum. Ayrıca, her iki 1 ve 1 benim çalışma "ko-düzenleme" belirten ile -1 1'e korelasyon katsayısı aralıkları, beri, d = 0 benim hesaplanmasıdır Böylece hem 1 ve 1 tedavi am d=1|r|

Ayrı bir soruda (k-aracı kümelemeyle ilgili) kosinüs teoremini kullanarak r'yi gerçek öklid d'ye dönüştürmeniz gerektiğini okudum :d=2(1r)

Hiyerarşik kümeleme için korelasyonu mesafeye dönüştürmenin en doğru yolu nedir?


3
Evet, mümkün olanlardan biri - ve geometrik olarak doğru yol - son formül. Fakat eğer sizin için anlamlıysa r işaretini göz ardı redebilirsiniz, böylece d2=2(1|r|) . Çoğu durumda, kümeleme sonuçlarını etkilemeden 2 güvenle bırakabilirsiniz . Uzaklık kare öklid şeklinde ele alınabilir . Gelen bu parçacığı o mesafe-dönüştürülmüş korelasyon önlemler metrik mesafeler olup olmadığı tartışıldı.
ttnphns

2
Ayrıca, yok olması her zaman dönüştürmek r böyle Öklid mesafe gibi doğrusal bir farklılığa içine. Çok nadiren insanlar doğrudan r veya |r|benzerlik konusunda olduğu gibi, açısal benzerliktir
ttnphns

Yanıtlar:


21

Hiyerarşik kümeleme için gerekenler

Hiyerarşik kümeleme, keyfi benzerlik ve farklılık önlemleri ile birlikte kullanılabilir. (Çoğu araç farklılık bekler, ancak negatif değerlere izin verir - küçük veya büyük değerlerin tercih edilip edilmeyeceğinden emin olmak size kalmıştır.).

Yalnızca centroid veya varyansa dayanan yöntemler (Ward'ın yöntemi gibi) özeldir ve kare Öklid ile birlikte kullanılmalıdır. (Nedenini anlamak için, lütfen bu bağlantıları dikkatlice inceleyin.)

Tek bağlantı, ortalama bağlantı, tam bağlantı çok fazla etkilenmez, yine de ikili farklılıkların minimum / ortalama / maksimumu olacaktır.

Mesafe ölçüsü olarak korelasyon

Verilerinizi önceden işleme koyarsanız ( gözlem, özellikleri), her özelliğin ve ( sabit özelliklere izin vermeyen !) Sahip olacak şekilde hazırlarsanız, o zaman korelasyon kosinine indirgenir:npμ=0σ=1

Corr(X,Y)=Cov(X,Y)σXσY=E[(X-μX)(Y-μY)]σXσY=E[XY]=1nX,Y

Aynı şartlar altında, kare Euclid mesafesi de kosinüs azaltır:

dÖklit2(X,Y)=Σ(Xben-Yben)2=ΣXben2+ΣYben2-2ΣXbenYben=2n-2X,Y=2n[1-Corr(X,Y)]

Bu nedenle, verileriniz dejenere değilse, hiyerarşik kümeleme için korelasyon kullanmak uygun olmalıdır. Sadece yukarıda açıklandığı gibi ön işlem yapın, sonra kare Euclid mesafesini kullanın.


1
Only ward's method is special, and should be used with squared Euclidean. Sadece Ward'ın değil. Centroidleri veya centroidlerden sapmaları hesaplayan herhangi bir yöntem, geometrik hassasiyet uğruna öklid veya kare öklid mesafesine (uygulamaya bağlı olarak) ihtiyaç duyacaktır. Böyle bir kayıp ve gerekli uyarı olması durumunda, diğer metrik mesafelerle birlikte kullanılabilirler. Bu yöntemler centroid, "medyan", Ward's, varyanstır (Ward ile karıştırılmamalıdır!) Ve diğerleri.
ttnphns

Teşekkürler, bunu daha net anladım. Bu değişikliklerin farkında değildim, sadece tek / ortalama / tam / koğuş düşünüyordum.
Anony-Mousse,

1
Bu yazıda bir sürü yazım hatası ve tanımsız ifade var! Lütfen gözden geçirin, düzeltin ve " " ın ne olduğunu ve " " in ne anlama geldiğini açıklayabilir misiniz? D ı m,dbenm
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.