Biri diğer birkaç bilgisayardan bir ana bileşeni (PC) tahmin etmek için çoklu regresyon kullanabilir mi?


15

Bir süre önce, R-yardım posta listesindeki bir kullanıcı, bir regresyonda PCA skorlarını kullanmanın sağlamlığını sordu. Kullanıcı başka bir PC'deki varyasyonu açıklamak için bazı PC skorlarını kullanmaya çalışıyor (tüm tartışmaya buradan bakın ). Cevap hayırdı, bu ses değil çünkü PC'ler birbirine dik.

Birisi bunun neden böyle olduğunu daha ayrıntılı olarak açıklayabilir mi?


1
Neden retiket koydunuz ve "bu neden böyle" demekle ne demek istiyorsun? PC'ler birbiriyle ilişkili değildir, yani dik, katkıcıdır, bir bilgisayarı diğeriyle tahmin edemezsiniz. Bir formül mü arıyorsunuz?
aL3xa

Mantığın arkasındaki ilkeleri merak ediyordum (PCA'yı anlama arayışımda). R etiketini kullandım çünkü R kullanıcıları bunu okuyabilir ve belki R örneklerini gösterebilir. :)
Roman Luštrik

Neden böyle söylemedin? Statmethods.net/advstats/factor.html
aL3xa

Yanıtlar:


11

Temel bileşen, tüm faktörlerinizin (X'ler) ağırlıklı bir doğrusal birleşimidir.

örnek: PC1 = 0.1X1 + 0.3X2

Her faktör için bir bileşen olacaktır (genel olarak küçük bir sayı seçilse de).

Bileşenler, tasarım gereği sıfır korelasyona (dik) olacak şekilde oluşturulur.

Bu nedenle, PC1 bileşeni PC2 bileşenindeki herhangi bir değişikliği açıklamamalıdır.

Çoklu değişkenlik göstermeyeceklerinden, Y değişkeniniz ve X'lerinizin PCA temsili üzerinde regresyon yapmak isteyebilirsiniz. Ancak, bunu yorumlamak zor olabilir.

OLS'yi kıran gözlemlerden daha fazla X'iniz varsa, bileşenleriniz üzerinde gerileme yapabilir ve daha az sayıda en yüksek varyasyon bileşenini seçebilirsiniz.

Jollife'ın Temel Bileşen Analizi , konuyla ilgili çok derinlemesine ve alıntı yapılan bir kitap

Bu da iyidir: http://www.statsoft.com/textbook/principal-components-factor-analysis/


11

Temel bileşenler tanım gereği dikeydir, bu nedenle herhangi bir PC çifti sıfır korelasyona sahip olacaktır.

Bununla birlikte, çok sayıda açıklayıcı değişken varsa, PCA regresyonda kullanılabilir. Bunlar az sayıda ana bileşene indirgenebilir ve bir regresyonda prediktör olarak kullanılabilir.


O zaman FA olmaz mıydı?
Roman Luštrik

3
Hayır. FA regresyon değildir. Çok sayıda açıklayıcı değişkenten hesaplanan temel bileşenlere karşı gerileyen bir yanıt değişkenine atıfta bulunuyorum. Temel bileşenlerin kendileri FA faktörleri ile yakından ilişkilidir.
Rob Hyndman

Üzgünüm, yorumumda daha kesin olmalıydım. Açıklayıcı değişkenlerin az sayıda PC'ye indirilebileceğine dair yazınız bana “faktör analizi” zilini çaldı.
Roman Luštrik

N değişkenli sette n PC çıkarılabilir, ancak kaç tane saklamak istediğinize karar verebilirsiniz, örneğin Guttman-Keizer kriteri diyor: özdeğer (varyans) olan tüm PC'leri 1'den büyük tutun. .
aL3xa

7

Dikkatli olun ... sadece PC'ler birbirine dik olarak yapıldığından, bir desen olmadığı veya bir PC'nin diğer PC'ler hakkında bir şey "açıklayamayacağı" anlamına gelmez.

Bir Amerikan futbolunun yüzeyine eşit olarak dağıtılmış çok sayıda noktayı tanımlayan 3D verileri (X, Y, Z) düşünün (Amerikan futbolu hiç izlemeyenler için bir elipsoid - bir küre değil). Futbolun keyfi bir konfigürasyonda olduğunu hayal edin, böylece ne X ne de Y ya da Z futbolun uzun ekseni boyunca değildir.

Temel bileşenler PC1'i futbolun uzun ekseni boyunca, verilerdeki en çok varyansı tanımlayan eksen boyunca yerleştirecektir.

Futbolun uzun ekseni boyunca PC1 boyutundaki herhangi bir nokta için, PC2 ve PC3 ile temsil edilen düzlemsel dilim bir daire tanımlamalıdır ve bu dairesel dilimin yarıçapı PC1 boyutuna bağlıdır. PC1'deki PC2 veya PC3 regresyonlarının küresel olarak sıfır katsayı vermesi gerektiği, ancak futbolun daha küçük bölümleri üzerinde olmaması gerektiği doğrudur ... ve PC1 ve PC2'nin 2B grafiğinin "ilginç" sınırlayıcı bir sınır göstereceği açıktır. bu iki değerli, doğrusal olmayan ve simetriktir.


3

Verileriniz yüksek boyutlu ve gürültülü ise ve çok sayıda örneğiniz yoksa, aşırı sığdırma tehlikesiyle karşılaşırsınız. Bu gibi durumlarda, veri boyutluluğunu azaltmak için PCA (veri varyansının baskın bir bölümünü yakalayabilen; diklik bir sorun değildir) veya faktör analizi (verilerin altında yatan gerçek açıklayıcı değişkenleri bulabilir) kullanmak ve onlarla bir regresyon modeli geliştirin.

Faktör analizi esaslı yaklaşımlar için, bu incelemeye bakın Bayes Faktör Regresyon Modeli ve bu modelin parametrik olmayan Bayes sürümünü bunu kabul etmez önsel (PCA durumunda veya temel bileşenler) İlgili faktörlerin "true" numarasını biliyorum.

Pek çok durumda, denetimli boyutsal küçültmenin (örneğin, Fisher Diskriminant Analizi ) basit PCA veya FA tabanlı yaklaşımlar üzerinde iyileştirmeler sağlayabileceğini de ekleyebilirim, çünkü boyutsallık azaltımı yaparken etiket bilgisinden yararlanabilirsiniz.


0

Eğer olabilir tahmin PC puanı belirleyicisi PC puanlarından daha farklı değişkenler veya durumlar çıkarılan eğer çekin. öngörülen durum bu ise ve öngörücü dikey değilse veya en azından böyle olması gerekmiyorsa, korelasyon elbette garanti edilmez.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.