Hiyerarşik kümelemede öklid uzaklık ölçülerinde normalleşmenin nedeni

19

Görünüşe göre, uzaklık ölçüsünün Öklid mesafesi olduğu hiyerarşik kümelemede, en yüksek varyansa sahip değişkenin kümelemeyi sürmesini önlemek için ilk önce verilerin normalleştirilmesi veya standartlaştırılması gerekir. Bu neden? Bu gerçek arzu edilmiyor mu?

clustering normalization

— user1202664
kaynak

20

Verilerinize bağlıdır. Ve aslında bunun hiyerarşik kümelemeyle hiçbir ilgisi yok, ama uzaklık işlevleriyle de ilgili.

Sorun, karışık öznitelikleriniz olduğunda .

Kişilerle ilgili verileriniz olduğunu varsayalım. Gram cinsinden ağırlık ve ayakkabı büyüklüğü. Ayakkabı boyutları çok az farklılık gösterirken, vücut kütlesindeki (gram cinsinden) farklar çok daha büyüktür. Düzinelerce örnek bulabilirsiniz. Sadece 1 g ve 1 ayakkabı boyutu farkını karşılaştıramazsınız. Aslında, bu örnekte , fiziksel birimine sahip olacak bir şey hesaplarsınız ! $\sqrt{g\cdot\text{shoe-size}}$

Genellikle bu durumlarda, Öklid mesafesi sadece mantıklı değildir. Ancak, verilerinizi normalleştirirseniz, çoğu durumda yine de işe yarayabilir. Aslında mantıklı olmasa bile , insan ölçeğinde fiziksel dünyada Öklid mesafesi gibi "kanıtlanmış doğru" mesafe fonksiyonuna sahip olmadığınız durumlar için iyi bir buluşsal yöntemdir .

— Anony-Mousse-Monica'yı eski durumuna döndür
kaynak

Düşüncelerimi yeni cevapladın, sanırım aşırı düşünme yardımcı olurken yalnız oturmak.

— Karl Morrison

13

Verilerinizi standartlaştırmazsanız, büyük değerli birimlerde ölçülen değişkenler hesaplanan farklılığa hakim olur ve küçük değerli birimlerde ölçülen değişkenler çok az katkıda bulunur.

Bunu R ile görselleştirebiliriz:

set.seed(42)
dat <- data.frame(var1 = rnorm(100, mean = 100000),
                  var2 = runif(100),
                  var3 = runif(100))
dist1 <- dist(dat)
dist2 <- dist(dat[,1, drop = FALSE])

dist1her üç değişkene dayanan 100 gözlem dist2için Öklid mesafelerini içerirken , var1tek başına dayalı Öklid mesafesini içerir .

> summary(dist1)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
0.07351 0.77840 1.15200 1.36200 1.77000 5.30200 
> summary(dist2)
    Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
0.000072 0.470000 0.963600 1.169000 1.663000 5.280000

Mesafelerin dağılımının ne kadar benzer olduğuna ve gerçek mesafelerden çok az katkı olduğunu var2ve var3gerçek mesafelerin çok benzer olduğunu unutmayın:

> head(dist1)
[1] 1.9707186 1.0936524 0.8745579 1.2724471 1.6054603 0.1870085
> head(dist2)
[1] 1.9356566 1.0078300 0.7380958 0.9666901 1.4770830 0.1405636

Verileri standartlaştırırsak

dist3 <- dist(scale(dat))
dist4 <- dist(scale(dat[,1, drop = FALSE]))

mesafelerde sadece var1üç değişkene ve üç değişkene de bağlı olarak büyük bir değişiklik olur :

> summary(dist3)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
0.09761 1.62400 2.25000 2.28200 2.93600 5.33100 
> summary(dist4)
    Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
0.000069 0.451400 0.925400 1.123000 1.597000 5.070000 
> head(dist3)
[1] 2.2636288 1.7272588 1.7791074 3.0129750 2.5821981 0.4434073
> head(dist4)
[1] 1.8587830 0.9678046 0.7087827 0.9282985 1.4184214 0.1349811

Hiyerarşik kümeleme bu mesafeleri kullandığından, standartlaştırılmasının istenip istenmediği, sahip olduğunuz veri / değişkenlerin türüne ve büyük şeylerin mesafelere hükmetmesini ve dolayısıyla kümelenmenin oluşumuna egemen olup olmayacağına bağlı olacaktır. Bunun yanıtı alana ve veri kümesine özgüdür.

— Monica'yı eski durumuna getirin - G. Simpson
kaynak

4

Anony-Mousse mükemmel bir cevap verdi . Sadece mantıklı olan mesafe metriğinin çok değişkenli dağılımların şekline bağlı olacağını da ekleyeceğim. Çok değişkenli Gaussian için Mahalanobis mesafesi uygun önlemdir.

— Michael R. Chernick
kaynak