İlk olarak, sözde biplots inşa etmenin farklı yolları vardır yazışma analizi durumunda . Her durumda, temel fikir sıra hücreleri ve sütun hücreleri arasındaki "mesafeler" için en iyi 2D yaklaşımını göstermenin bir yolunu bulmaktır. Başka bir deyişle, bir beklenmedik durum tablosunun satırları ve sütunları arasındaki ilişkilerin hiyerarşisini araştırıyoruz ("sıralamasından da bahsediyoruz").
Çok kısaca, CA, iki yönlü tablo ile ilişkili ki-kare istatistiğini, satır ve sütun puanları arasındaki ayrımı en üst düzeye çıkaran dikey faktörlere ayırır (yani, profil tablosundan hesaplanan frekanslar). Burada, PCA ile bazı bağlantı ancak CA tutulan varyans ölçüsü (veya metrik) bulunmadığının belirtildiği bakın o büyük marjinal değerlere sahip yöntemleri daha fazla önem vermek eğilimindedir gibi sadece (kolon profilleri bağlıdır, , ilk verileri yeniden ağırlıklandırabiliriz, ancak bu başka bir hikaye).χ2
İşte daha ayrıntılı bir cevap. 'De önerilen uygulamacorresp()
( MASS
İn) işlevinde , satırları ve sütunları temsil eden kukla kodlanmış matrislerin SVD ayrışması olarak CA'nın ( ile, N toplam numune). Bu, kanonik korelasyon analizi ile aydınlıktır. Buna karşılık, Fransız veri analizi okulu CA'yı PCA'nın bir varyantı olarak görür ve burada veri bulutundaki "ataleti" en üst düzeye çıkaran yönleri ararsınız. Bu, ortalanmış ve ölçeklendirilmiş (marjinal frekanslarla) iki yönlü tablodan hesaplanan atalet matrisini köşegenleştirerek ve bu yeni koordinat sisteminde satır ve sütun profillerini ifade ederek yapılır.RtC=NN
İle bir tablo düşünüyorsanız i=1,…,Ij=1,…,Jfj|i=nij/ni⋅fi|j=nij/n⋅jIfi⋅Jf⋅j) satır alanında bireyler olarak. Herhangi iki kişi arasındaki yakınlığı hesaplamak için kullanılan metrikχ2ii′
d2χ2(i,i′)=∑j=1Jnn⋅j(nijni⋅−ni′jni′⋅)2
χ2H0ni⋅×n⋅j/n(i,j)
χ2sonra CA'nızı alırsınız. İlk temel eksen, tüm noktalara en yakın olan çizgidir ve karşılık gelen özdeğer, bu boyutla açıklanan atalettir. Sütun profilleri için de aynısını yapabilirsiniz. İki yaklaşım arasında bir simetri olduğu ve daha spesifik olarak sütun profilleri için ana bileşenlerin (PC), sıra profilleri için PC'lerle aynı özdeğerlerle ilişkili olduğu gösterilebilir. Bir biplotta gösterilen, bireyler ayrı bir faktöriyel alanda temsil edilmelerine rağmen, bu yeni koordinat sistemindeki bireylerin koordinatlarıdır. Her bireyin / modalitenin faktöriyel alanda iyi temsil edilmesi şartıyla ( bakabilirsiniz)cos2modalitenin, korelasyon / ilişkilendirmenin bir ölçüsü olan 1. ana eksen ile), hatta elemanları arasındaki yakınlığı yorumlayabilirsiniz.i vejχ2chisq.test(tab)$expected-chisq.test(tab)$observed
χ2nϕ2
Aslında mevcut işlevine göre geliştirilmiş CA'larla sağlayabilir çeşitli paketler vardır MASS
: paketin ade4 , FactoMineR , Anacor ve ca .
Sonuncusu sizin özel resminiz için kullanılmış olanıdır ve İstatistiksel Yazılım Dergisi'nde, işlevlerinin çoğunu açıklayan bir makale yayınlanmıştır: R'de İki ve Üç Boyutlu Grafiklerle Yazışma Analizi: ca Paketi .
Böylece, göz / saç renklerine ilişkin örneğiniz birçok şekilde çoğaltılabilir:
data(HairEyeColor)
tab <- apply(HairEyeColor, c(1, 2), sum) # aggregate on gender
tab
library(MASS)
plot(corresp(tab, nf=2))
corresp(tab, nf=2)
library(ca)
plot(ca(tab))
summary(ca(tab, nd=2))
library(FactoMineR)
CA(tab)
CA(tab, graph=FALSE)$eig # == summary(ca(tab))$scree[,"values"]
CA(tab, graph=FALSE)$row$contrib
library(ade4)
scatter(dudi.coa(tab, scannf=FALSE, nf=2))
Her durumda, ortaya çıkan biplotta okuduğumuz şey temel olarak (yorumumu ataletin çoğunu açıklayan 1. eksene sınırlandırıyorum):
- ilk eksen açık ve koyu saç rengi ile mavi ve kahverengi gözler arasındaki açık karşıtlığı vurgular;
- sarı saçlı insanlar da mavi gözlere sahip ve siyah saçlı insanlar kahverengi gözlere sahip olma eğilimindedir.
Fransa'da Lyon'dan biyoinformatik laboratuvarında veri analizi konusunda birçok ek kaynak var . Bu çoğunlukla Fransızca, ama bence bu sizin için çok fazla sorun olmaz. Aşağıdaki iki çalışma kağıdı ilk başlangıç olarak ilginç olmalıdır:
k