Kümelenme değişkenleri, aralarındaki korelasyonlara dayanarak


23

Sorular:

  1. Büyük bir korelasyon matrisim var. Bireysel korelasyonları kümelemek yerine, değişkenleri birbirleriyle olan korelasyonlarına göre kümelemek istiyorum, yani eğer A ve B değişkenleri C ila Z değişkenleriyle benzer korelasyonlara sahipse, o zaman A ve B aynı kümenin parçası olmalıdır. Bunun iyi bir gerçek hayat örneği, farklı varlık sınıflarıdır - varlık içi sınıf korelasyonları varlıklar arası sınıf korelasyonlarından daha yüksektir.

  2. Ayrıca değişkenler arasındaki kümelenme değişkenlerini, örneğin A ve B değişkenleri arasındaki korelasyon 0'a yakın olduğunda, bağımsız olarak az veya çok hareket ederler. Birdenbire bazı altta yatan koşullar değişirse ve güçlü bir korelasyon ortaya çıkarsa (pozitif veya negatif), bu iki değişkeni aynı kümeye ait olarak düşünebiliriz. Dolayısıyla pozitif bir korelasyon aramak yerine, bir ilişki değil, ilişki arar. Bir benzetme, pozitif ve negatif yüklü parçacıklardan oluşan bir küme olabilir. Yük 0'a düşerse, parçacık kümeden uzağa sürüklenir. Bununla birlikte, hem pozitif hem de negatif yükler, partikülleri hüzünlü kümelere çeker.

Bunlardan bazıları açık değilse özür dilerim. Lütfen bana bildirin, özel detayları açıklığa kavuşturacağım.


1
Faktör analizi qn 1 için işi yapmaz mı? Soru 2 biraz belirsizdir. 'İlişki', 'korelasyon' ile eşanlamlı görünüyor ya da en az bir ilişki şekli doğrusal ilişki ve korelasyonu yakalar. Belki, qn 2'yi netleştirmeniz gerekir.

Ne yapmak istediğini söyledin. Sorun nedir? Uygulamaya mı yoksa analiz yaklaşımınıza uygun mu? veya başka bir şey?
Jeromy Anglim

Yanıtlar:


14

İşte bfiveri setini kullanan R'de basit bir örnek : bfi, 5 faktör etrafında düzenlenmiş 25 kişilik test maddesinin veri setidir.

library(psych)
data(bfi)
x <- bfi 

Değişkenler arasındaki mutlak korelasyona dayanarak değişkenler arasındaki euclidan mesafesini kullanan bir hiperyalik küme analizi şöyle elde edilebilir:

plot(hclust(dist(abs(cor(na.omit(x))))))

alt metin Dendrogram, maddelerin teorik gruplara göre (örneğin, N (Nörotisizm) öğeler grubu birlikte) diğer öğelerle genellikle nasıl kümelediğini gösterir. Ayrıca, kümelerdeki bazı öğelerin nasıl daha benzer olduğunu gösterir (örneğin, C5 ve C1, C3'lü C5'ten daha benzer olabilir). Ayrıca, N kümesinin diğer kümelere daha az benzer olduğunu göstermektedir.

Alternatif olarak, şöyle bir standart faktör analizi yapabilirsiniz:

factanal(na.omit(x), 5, rotation = "Promax")


Uniquenesses:
   A1    A2    A3    A4    A5    C1    C2    C3    C4    C5    E1    E2    E3    E4    E5    N1 
0.848 0.630 0.642 0.829 0.442 0.566 0.635 0.572 0.504 0.603 0.541 0.457 0.541 0.420 0.549 0.272 
   N2    N3    N4    N5    O1    O2    O3    O4    O5 
0.321 0.526 0.514 0.675 0.625 0.804 0.544 0.630 0.814 

Loadings:
   Factor1 Factor2 Factor3 Factor4 Factor5
A1  0.242  -0.154          -0.253  -0.164 
A2                          0.570         
A3         -0.100           0.522   0.114 
A4                  0.137   0.351  -0.158 
A5         -0.145           0.691         
C1                  0.630           0.184 
C2  0.131   0.120   0.603                 
C3  0.154           0.638                 
C4  0.167          -0.656                 
C5  0.149          -0.571           0.125 
E1          0.618   0.125  -0.210  -0.120 
E2          0.665          -0.204         
E3         -0.404           0.332   0.289 
E4         -0.506           0.555  -0.155 
E5  0.175  -0.525   0.234           0.228 
N1  0.879  -0.150                         
N2  0.875  -0.152                         
N3  0.658                                 
N4  0.406   0.342  -0.148           0.196 
N5  0.471   0.253           0.140  -0.101 
O1         -0.108                   0.595 
O2 -0.145   0.421   0.125   0.199         
O3         -0.204                   0.605 
O4          0.244                   0.548 
O5  0.139                   0.177  -0.441 

               Factor1 Factor2 Factor3 Factor4 Factor5
SS loadings      2.610   2.138   2.075   1.899   1.570
Proportion Var   0.104   0.086   0.083   0.076   0.063
Cumulative Var   0.104   0.190   0.273   0.349   0.412

Test of the hypothesis that 5 factors are sufficient.
The chi square statistic is 767.57 on 185 degrees of freedom.
The p-value is 5.93e-72 

1
Selam Jeromy. S: abs (dağınıklığı (...)) almak için ne anlama geliyor? Bir kor matrisi, daha büyük bir sayının bir ilişkiyi daha fazla gösterdiği yer değil, bir uzaklık matrisinde ise bunun tersi doğrudur. (Bir şeyi kaçırdığımdan şüpheleniyorum, lütfen açıklayabilir misiniz?)
Tal Galili

@Tal Anlayışım, dist işlevinin kendisine iletilen matrisin öklid mesafesini aldığı, bu durumda mutlak bir korelasyon matrisi olduğu. Muhtemelen, korelasyon matrisinden daha gerçek bir dönüşüm, mevcut bir mesafe matrisini alan as.dist () fonksiyonu olacaktır: örneğin, as.dist (1-abs (cor (na.omit (x))))). bkz.? dist
Jeromy Anglim

1
1-abs kullanmak (cor ...) bana daha mantıklı gelecektir :)
Tal Galili

@Tal Evet. Katılıyorum. Hızlıca baktım. Bu durumda, mesafeler vektörü (1-abs kor ile abs kor öklid) yaklaşık olarak 96 korelasyon gösterir, bu yüzden fazla bir fark yaratmaz.
Jeromy Anglim

1
@Tar seçenek: her değişken bir mutlak korelasyon vektörüne sahiptir. Daha çok benzer vektöre sahip değişkenler daha küçük öklid mesafelerine sahip olacaktır: en.wikipedia.org/wiki/Euclidean_distance
Jeromy Anglim

2

Kümelenme Korelasyonları sırasında mesafeyi iki kez hesaplamamak önemlidir. Korelasyon matrisini alırken özünde mesafe hesaplaması yaparsınız. Mutlak değer olan 1 alarak gerçek mesafeye dönüştürmek isteyeceksiniz.

1-abs(cor(x))

Bu matrisi bir uzaklık nesnesine dönüştürdüğünüzde, dist işlevini kullanırsanız, korelasyonlarınız arasındaki mesafeleri alacaksınız. Bunun yerine as.dist(), önceden hesaplanmış mesafelerinizi bir "dist"nesneye dönüştürecek işlevi kullanmak istiyorsunuz .

Alglim örneğine bu yöntemi uygulamak

library(psych)
data(bfi)
x <- bfi 
plot(hclust(as.dist(1-abs(cor(na.omit(x))))))

Farklı bir dendroggram sonuçları Küme Dendrogramı

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.