Hiyerarşik kümeleme için gerekenler
Hiyerarşik kümeleme, keyfi benzerlik ve farklılık önlemleri ile birlikte kullanılabilir. (Çoğu araç farklılık bekler, ancak negatif değerlere izin verir - küçük veya büyük değerlerin tercih edilip edilmeyeceğinden emin olmak size kalmıştır.).
Yalnızca centroid veya varyansa dayanan yöntemler (Ward'ın yöntemi gibi) özeldir ve kare Öklid ile birlikte kullanılmalıdır. (Nedenini anlamak için, lütfen bu bağlantıları dikkatlice inceleyin.)
Tek bağlantı, ortalama bağlantı, tam bağlantı çok fazla etkilenmez, yine de ikili farklılıkların minimum / ortalama / maksimumu olacaktır.
Mesafe ölçüsü olarak korelasyon
Verilerinizi önceden işleme koyarsanız ( gözlem, özellikleri), her özelliğin ve ( sabit özelliklere izin vermeyen !) Sahip olacak şekilde hazırlarsanız, o zaman korelasyon kosinine indirgenir:npμ = 0σ= 1
Corr ( X, Y) = Cov ( X, Y)σXσY= E [ ( X- μX) ( Y- μY) ]σXσY= E [ XY] = 1n⟨ X, Y⟩
Aynı şartlar altında, kare Euclid mesafesi de kosinüs azaltır:
d2Öklit( X, Y) = ∑ ( Xben- Yben)2= ∑ X2ben+ ∑ Y2ben- 2 ∑ XbenYben= 2 , n - 2 ⟨ X,Y⟩ = 2 , n [ 1 - Corr ( X,Y) ]
Bu nedenle, verileriniz dejenere değilse, hiyerarşik kümeleme için korelasyon kullanmak uygun olmalıdır. Sadece yukarıda açıklandığı gibi ön işlem yapın, sonra kare Euclid mesafesini kullanın.