2B yazışma analizi grafiklerini yorumlama


19

İnterneti çok geniş bir alanda araştırıyorum ... 2D yazışma analizi grafiklerinin nasıl yorumlanacağına dair gerçekten iyi bir genel bakış bulamadım. Birisi noktalar arasındaki mesafelerin yorumlanması konusunda bazı tavsiyeler verebilir mi?

Belki bir örnek yardımcı olabilir, işte yazışma analizini tartıştığım birçok web sitesinde bulunan bir arsa. Kırmızı üçgenler göz rengini, siyah noktalar saç rengini temsil eder.

alternatif metin

Yukarıdaki grafiğe bakarak, bu verilerde gördükleriniz hakkında birkaç açıklama yapabilir misiniz? Üçgenler ve noktalar arasındaki farklı boyutlar ve ilişkiler hakkında ilgi çekici noktalar?

Satır noktalarına aykırı sütun noktalarının açıklaması ve örneğe özellikle odaklanarak "profil" kelimesinin kullanılması yararlı olacaktır.


1
@ Chl'nin aşağıdaki mükemmel hesabına ek olarak, bunu basit CA ve PCA'yı sadece "biplot analizi" biçimleri olarak da düşünün.
ttnphns

Yanıtlar:


24

İlk olarak, sözde biplots inşa etmenin farklı yolları vardır yazışma analizi durumunda . Her durumda, temel fikir sıra hücreleri ve sütun hücreleri arasındaki "mesafeler" için en iyi 2D yaklaşımını göstermenin bir yolunu bulmaktır. Başka bir deyişle, bir beklenmedik durum tablosunun satırları ve sütunları arasındaki ilişkilerin hiyerarşisini araştırıyoruz ("sıralamasından da bahsediyoruz").

Çok kısaca, CA, iki yönlü tablo ile ilişkili ki-kare istatistiğini, satır ve sütun puanları arasındaki ayrımı en üst düzeye çıkaran dikey faktörlere ayırır (yani, profil tablosundan hesaplanan frekanslar). Burada, PCA ile bazı bağlantı ancak CA tutulan varyans ölçüsü (veya metrik) bulunmadığının belirtildiği bakın o büyük marjinal değerlere sahip yöntemleri daha fazla önem vermek eğilimindedir gibi sadece (kolon profilleri bağlıdır, , ilk verileri yeniden ağırlıklandırabiliriz, ancak bu başka bir hikaye).χ2

İşte daha ayrıntılı bir cevap. 'De önerilen uygulamacorresp()( MASSİn) işlevinde , satırları ve sütunları temsil eden kukla kodlanmış matrislerin SVD ayrışması olarak CA'nın ( ile, N toplam numune). Bu, kanonik korelasyon analizi ile aydınlıktır. Buna karşılık, Fransız veri analizi okulu CA'yı PCA'nın bir varyantı olarak görür ve burada veri bulutundaki "ataleti" en üst düzeye çıkaran yönleri ararsınız. Bu, ortalanmış ve ölçeklendirilmiş (marjinal frekanslarla) iki yönlü tablodan hesaplanan atalet matrisini köşegenleştirerek ve bu yeni koordinat sisteminde satır ve sütun profillerini ifade ederek yapılır.RtC=NN

İle bir tablo düşünüyorsanız i=1,,Ij=1,,Jfj|i=nij/nifi|j=nij/njIfiJfj) satır alanında bireyler olarak. Herhangi iki kişi arasındaki yakınlığı hesaplamak için kullanılan metrikχ2ii

dχ22(i,i)=j=1Jnnj(nijninijni)2

χ2H0ni×nj/n(i,j)

χ2sonra CA'nızı alırsınız. İlk temel eksen, tüm noktalara en yakın olan çizgidir ve karşılık gelen özdeğer, bu boyutla açıklanan atalettir. Sütun profilleri için de aynısını yapabilirsiniz. İki yaklaşım arasında bir simetri olduğu ve daha spesifik olarak sütun profilleri için ana bileşenlerin (PC), sıra profilleri için PC'lerle aynı özdeğerlerle ilişkili olduğu gösterilebilir. Bir biplotta gösterilen, bireyler ayrı bir faktöriyel alanda temsil edilmelerine rağmen, bu yeni koordinat sistemindeki bireylerin koordinatlarıdır. Her bireyin / modalitenin faktöriyel alanda iyi temsil edilmesi şartıyla ( bakabilirsiniz)cos2modalitenin, korelasyon / ilişkilendirmenin bir ölçüsü olan 1. ana eksen ile), hatta elemanları arasındaki yakınlığı yorumlayabilirsiniz.i vejχ2chisq.test(tab)$expected-chisq.test(tab)$observed

χ2nϕ2

Aslında mevcut işlevine göre geliştirilmiş CA'larla sağlayabilir çeşitli paketler vardır MASS: paketin ade4 , FactoMineR , Anacor ve ca .

Sonuncusu sizin özel resminiz için kullanılmış olanıdır ve İstatistiksel Yazılım Dergisi'nde, işlevlerinin çoğunu açıklayan bir makale yayınlanmıştır: R'de İki ve Üç Boyutlu Grafiklerle Yazışma Analizi: ca Paketi .

Böylece, göz / saç renklerine ilişkin örneğiniz birçok şekilde çoğaltılabilir:

data(HairEyeColor)
tab <- apply(HairEyeColor, c(1, 2), sum) # aggregate on gender
tab

library(MASS)
plot(corresp(tab, nf=2))
corresp(tab, nf=2)

library(ca)
plot(ca(tab))
summary(ca(tab, nd=2))

library(FactoMineR)
CA(tab)
CA(tab, graph=FALSE)$eig  # == summary(ca(tab))$scree[,"values"]
CA(tab, graph=FALSE)$row$contrib

library(ade4)
scatter(dudi.coa(tab, scannf=FALSE, nf=2))

Her durumda, ortaya çıkan biplotta okuduğumuz şey temel olarak (yorumumu ataletin çoğunu açıklayan 1. eksene sınırlandırıyorum):

  • ilk eksen açık ve koyu saç rengi ile mavi ve kahverengi gözler arasındaki açık karşıtlığı vurgular;
  • sarı saçlı insanlar da mavi gözlere sahip ve siyah saçlı insanlar kahverengi gözlere sahip olma eğilimindedir.

Fransa'da Lyon'dan biyoinformatik laboratuvarında veri analizi konusunda birçok ek kaynak var . Bu çoğunlukla Fransızca, ama bence bu sizin için çok fazla sorun olmaz. Aşağıdaki iki çalışma kağıdı ilk başlangıç ​​olarak ilginç olmalıdır:

k


1
@Brandon 1. eksen, her iki yöntem için de bir "baskınlık" eksenidir (açık -> karanlık), ancak 1. eksenin kahverengi ve ela gözlere mavi ve yeşil gözlere karşı olduğunu da görebiliriz (koordinatları zıt işaretlere sahiptir), ve oldukça nadir görülen kızıl saçlı / yeşil göz kombinasyonu, çoğunlukla 2. faktör eksenine katkıda bulunur. Bu eksen toplam ataletin sadece% 9.5'ini açıkladığından, kesin sonuçlar çıkarmak oldukça zordur (özellikle genetik hipotezler).
chl

1
@Brandon İki referans daha (bu sefer ingilizce): PBIL kursu ( j.mp/cHZT7X ) ve Michael Friendly'ın kaynakları ( j.mp/cYHyVn + vcdve vcdExtraR paketleri, ikincisi hoş bir skeç içerir).
chl

2
@Brandon Evet, bir yöntem = değişkeniniz için bir kategori. 2. sorunuz için, coreksen ile kare korelasyon ve ctrkatkıdır (% olarak okunabilmesi için 10'a bölünmesi gerekir). Böylece "kızıl saç" 2. eksenin ataletinin% 55,1'ine katkıda bulunur. Belli bir anlamda FactoMineR çıktısını daha "sezgisel" buldum ( CA(tab, graph=FALSE)$row$contribdoğrudan% değerini verir).
chl

1
@chl: vay, CCA veya "Fransız yolu" hakkında hiçbir şey bilmeyen biri için, bu harika bir okuma oldu! Çok teşekkürler. Ayrıca ilgi çekici olabilecek bazı googling ile buldum: www-stat.stanford.edu/~susan/papers/dfc.pdf
ars

1
@ars (+1) Bağlantı için teşekkürler (bu monografı bilmiyordum, ilginç görünüyor). Son gelişmeler için en iyi önerilerim aslında Jan de Leeuw'un TÜM makaleleri ve şu iki kitap: Greenacre'den Çoklu Yazışma Analizi ve İlgili Yöntemler ve Geometrik Veri Analizi: Yazışma Analizinden Le Roux & Rouanet'ten Yapısal Veri Analizine (fransız yolu) .
chl
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.