Şu anda modellemede kullanılacak değişkenleri seçmek için temel bileşenler analizini kullanıyorum. Şu anda, deneylerimde A, B ve C ölçümleri yapıyorum - Gerçekten bilmek istiyorum: Daha az ölçüm yapabilir ve zamandan ve emekten tasarruf etmek için C ve veya B kaydını durdurabilir miyim?
Her üç değişkenin de verilerimdeki varyansın% 60'ını oluşturan ilk ana bileşenime aşırı yüklendiğini görüyorum. Bileşen puanları, bu değişkenleri belirli bir oranda (aA + bB + cC) birlikte eklersem. Veri setimdeki her durum için PC1'de bir puan alabilirim ve bu puanı modellemede bir değişken olarak kullanabilirim, ancak bu B ve C ölçümünü durdurmama izin vermiyor.
PC1'deki A ve B ve C yüklerinin karesini alırsam, A değişkeninin PC1'deki varyansın% 65'ini oluşturduğunu ve B değişkeninin de PC1 ve C değişkenindeki varyansın% 50'sini oluşturduğunu görüyorum, yani bazıları her bir A, B ve C değişkeni tarafından hesaplanan PC1'deki varyansın bir başka değişkenle paylaşılması, ancak A, biraz daha fazla muhasebeleştirerek en üst muhasebede ortaya çıkar.
Modellemede kullanmak için sadece A değişkenini veya muhtemelen (gerekirse aA + bB) seçebileceğimi düşünmek yanlış mı, çünkü bu değişken PC1'deki varyansın büyük bir bölümünü açıklıyor ve bu da veri?
Geçmişte hangi yaklaşıma başvurdunuz?
- Başka ağır yükleyiciler olsa bile PC1'de en ağır yükü taşıyan tek değişken?
- Tüm ağır yükleyiciler olsalar bile PC1'deki bileşen skoru?