Regresyon değişkenlerini seçmek için temel bileşenler analizi nasıl kullanılır?


12

Şu anda modellemede kullanılacak değişkenleri seçmek için temel bileşenler analizini kullanıyorum. Şu anda, deneylerimde A, B ve C ölçümleri yapıyorum - Gerçekten bilmek istiyorum: Daha az ölçüm yapabilir ve zamandan ve emekten tasarruf etmek için C ve veya B kaydını durdurabilir miyim?

Her üç değişkenin de verilerimdeki varyansın% 60'ını oluşturan ilk ana bileşenime aşırı yüklendiğini görüyorum. Bileşen puanları, bu değişkenleri belirli bir oranda (aA + bB + cC) birlikte eklersem. Veri setimdeki her durum için PC1'de bir puan alabilirim ve bu puanı modellemede bir değişken olarak kullanabilirim, ancak bu B ve C ölçümünü durdurmama izin vermiyor.

PC1'deki A ve B ve C yüklerinin karesini alırsam, A değişkeninin PC1'deki varyansın% 65'ini oluşturduğunu ve B değişkeninin de PC1 ve C değişkenindeki varyansın% 50'sini oluşturduğunu görüyorum, yani bazıları her bir A, B ve C değişkeni tarafından hesaplanan PC1'deki varyansın bir başka değişkenle paylaşılması, ancak A, biraz daha fazla muhasebeleştirerek en üst muhasebede ortaya çıkar.

Modellemede kullanmak için sadece A değişkenini veya muhtemelen (gerekirse aA + bB) seçebileceğimi düşünmek yanlış mı, çünkü bu değişken PC1'deki varyansın büyük bir bölümünü açıklıyor ve bu da veri?

Geçmişte hangi yaklaşıma başvurdunuz?

  • Başka ağır yükleyiciler olsa bile PC1'de en ağır yükü taşıyan tek değişken?
  • Tüm ağır yükleyiciler olsalar bile PC1'deki bileşen skoru?

Yanıtlar:


14

Hangi "modellemeyi" planladığınızı belirtmediniz, ancak kulağa dördüncü bağımlı bir değişkeni gerdirmek (örneğin) için , ve arasında bağımsız değişkenlerin nasıl seçileceğini soruyormuşsunuz gibi görünüyor .B C WABCW

Bu yaklaşım olduğunu görmek için olabilir yanlış, üç bağımsız Normalde dağıtılan değişkenleri dikkate , ve birimi varyans ile. İçin geçerlidir, temel model, küçük bir sabit tercih , gerçekten küçük bir sabit ve (bağımlı değişken) izin (artı hata bağımsız olarak biraz , , ve ).Y Z β 1 ϵ β W = Z X Y ZXYZβ1ϵβW=ZXYZ

Sahip olduğunuz bağımsız değişkenlerin , ve olduğunu varsayalım . Daha sonra ve güçlü bir şekilde ilişkilidir (hatanın varyansına bağlı olarak), çünkü her biri katına yakındır . Bununla birlikte, , veya B ile ilişkili değildir . Çünkü β küçüktür, ilk ana bileşen { A , B , C } paralel olan X ile özdeğer 2 » β . birB = X - ϵ Y C = β Z W C Z W A C XA=X+ϵYB=XϵYC=βZWCZWABβ{A,B,C}X2βAve bu bileşene ağır yüklenir ve yüklenmez çünkü (ve Y ) 'den bağımsızdır . Bununla birlikte, C'yi bağımsız değişkenlerden çıkarırsanız , yalnızca A ve B'yi bırakırsanız , bağımlı değişken hakkındaki tüm bilgileri atarsınız çünkü W , A ve B bağımsızdır!BCXYCABWAB

Bu örnek, regresyon için bağımsız değişkenlerin bağımlı değişkenle nasıl ilişkili olduğuna dikkat etmek istediğinizi göstermektedir; sadece bağımsız değişkenler arasındaki ilişkileri analiz ederek kaçamazsınız.


1
Bu olmalıdır değildir , Z + ε -Y ? A=X+ϵYZ+ϵY
shabbychef

@ shabby Evet, teşekkür ederim. (Bir taslaktaki tüm değişken isimlerini OP'nin isimlerine uyacak şekilde değiştirmek zorunda kaldım ve bunu berbat
ettim

4

Sadece 3 IV'niz varsa neden azaltmak istersiniz?

Yani, numuneniz çok küçük mü (böylece 3 IVs aşırı takılma riski taşıyor mu)? Bu durumda, kısmi en küçük kareleri düşünün

Veya ölçümler çok pahalı mı (yani, sadece bir IV ölçmek istersiniz)? Bu durumda, her IV ile farklı regresyonlara ayrı ayrı ve birlikte bakmayı düşünürüm.

Ya da geçmişinizdeki bir kişi parsimony'nin değerini fazla mı vurguladı? Bu durumda, neden 3 IV'ün tümünü içermiyorsunuz?

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.