Bir milyon görselleştirme, PCA baskısı


31

Temel Bileşen Analizi'nin çıktısını yalnızca özet tablolardan daha fazla içgörü kazandıracak şekillerde görselleştirmek mümkün mü? Gözlem sayısı büyük olduğunda bunu yapmak mümkün mü, örneğin ~ 1e4? Ve bunu R [diğer ortamlar kabul edilir] 'de yapmak mümkün müdür?


2
Birkaç soru: Kaç bileşene sahipsiniz? Örneklem boyutunun yanı sıra, bu PCA çıktısının görüntüsünü, birinin ilgilenebileceği diğer sürekli değişkenlerin gösterilmesinden farklı olması gereken bir şey var mı? Farklı grupların skorlarını karşılaştırmaya mı çalışıyorsunuz ve eğer öyleyse kaç tane? Genel olarak, ekranlarınızla neler başarmayı umuyorsunuz?
rolando2

Yanıtlar:


53

Biplot PCA sonuçlarını görselleştirmek için yararlı bir araçtır. Temel bileşen puanlarını ve yönlerini aynı anda görselleştirmenize olanak sağlar. 10.000 gözlemle muhtemelen aşırı komplo ile ilgili bir sorunla karşılaşacaksınız. Alfa karışımı orada yardımcı olabilir.

İşte UCI ML deposundan gelen şarap verilerinin bir PC biplot :

PC UCI ML Repository'den Şarap Verileri

Puanlar, her bir gözlemin PC1 ve PC2 puanlarına karşılık gelir. Oklar değişkenlerin PC1 ve PC2 ile korelasyonunu temsil eder. Beyaz daire, okların teorik olarak maksimum derecesini gösterir. Elipsler, verilerdeki 3 şarap çeşidinin her biri için% 68 veri elipsleridir.

Ben yaptık burada bu arsa mevcut üretmek için kod .


5
Gerçekten dinamit ilavesi.
rolando2

Bu, şimdiye kadar gördüğüm en güzel ikipaket, +1 uzun zaman önce. Seçtiğin okları (yükleri) ölçeklendirme hakkında bir sorum var: beyaz dairenin yarıçapı nedir? eşit değildir (bir korelasyon için maksimum değer), bu nedenle bazı ölçeklendirme yapılması gerekir. Keyfi mi (daireyi ve okları güzel görünecek kadar büyük yapmak) veya ölçeklendirme seçiminin arkasında bir mantık var mı? 1
amip diyor Reinstate Monica

@ amoeba Dairenin yarıçapı, okların mümkün olan maksimum uzunluğuna karşılık gelir. Diyelim V, her bir sütun ana bileşen özvektörlerine karşılık gelen (ortonormal olmak üzere seçilmiştir) bir matristir. Sonra ikiplottaki her ok bir sırasına karşılık gelir . Her V sırasının Öklid normu, 0 ile 1 arasındadır, çünkü bunlar, projeksiyon matrisi olan diyagonal girişlerinin kareköküdür . Daire oklarla göreceli bir ölçek sağlar, çünkü oklar ve PC puanları (bipolardaki noktalar) aynı ölçekte değildir. p×2VVVT
vqv

Teşekkürler ama bu kadarını anlıyorum. Benim sorum, okların göreceli ölçeğini ve PC puanlarını nasıl seçtiğiniz ile ilgili. Çember yaklaşık 3.7'lik bir yarıçapa sahiptir, bu daha sonra açıkça ölçeklendirme faktörüdür ( bir satırın mümkün olan maksimum uzunluğu 1'dir). Peki neden 3.7? V
amip Reinstate Monica

4

Bir Wachter grafiği, PCA'nızın özdeğerlerini görmenize yardımcı olabilir. Temelde, Marchenko-Pastur dağılımına karşı özdeğerlerin bir QQ grafiğidir. Burada Tek bir dominant özdeğer gösteren Wachter grafiğibir örneğim var: Marchenko-Pastur dağılımının dışında kalan bir baskın özdeğer var. Bu tür bir arsanın faydası uygulamanıza bağlıdır.


7
Burada daha fazla şey bilmek faydalı olabilir (belki bazı ek açıklamalar ve / veya bazı faydalı linkler). Marchenko-Pastur dağılımı nedir? PCA ile ilişkisi nedir? Elde ederse veya etmiyorsa sonuçlarınız için ne anlama geliyor? (etc)
gung - Monica'yı yeniden

0

Psişik paketini de kullanabilirsiniz.

Bu, bir scatterplot matris tarzında farklı bileşenleri birbirlerine karşı çizecek bir plot.factor yöntemini içerir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.