Temel bileşen analizinde (PCA), bileşenleri bulmak için kovaryans matrisi veya korelasyon matrisi seçilebilir (ilgili özvektörlerinden). Bunlar farklı sonuçlar verir (PC yüklemeleri ve puanları), çünkü her iki matris arasındaki özvektörler eşit değildir. Benim anladığım şey, bunun bir ham veri vektörünün ve onun standart hale getirilmesinin ortogonal bir dönüşümle ilişkilendirilemeyeceği gerçeğinden kaynaklanmaktadır . Matematiksel olarak, benzer matrisler (yani dikgen dönüşümle ilişkili) aynı özdeğerlere sahiptir, ancak aynı özvektörleri gerektirmez.Z
Bu aklımda bazı zorluklar doğuruyor:
Aynı başlangıç veri seti için iki farklı cevap alabiliyorsanız, her ikisi de aynı şeyi başarmaya çalışırken (= maksimum varyans yönlerini bulma) PCA gerçekten mantıklı geliyor mu?
Korelasyon matrisi yaklaşımı kullanılırken, PC'leri hesaplamadan önce her değişken kendi bireysel standart sapması ile standartlaştırılır (ölçeklenir). Öyleyse, eğer veriler önceden ölçeklendirilmiş / önceden sıkıştırılmışsa, maksimum varyansın yönünü bulmak nasıl mantıklı geliyor? Korelasyon temelli PCA'nın çok uygun olduğunu biliyorum (standart değişkenler boyutsuzdur, bu yüzden onların doğrusal kombinasyonları eklenebilir; diğer avantajlar da pragmatizme dayanır), ama doğru mu?
Bana göre, kovaryansa dayalı PCA'nın gerçek anlamda tek doğru olanı olduğu (değişkenlerin farklılıkları büyük ölçüde farklılık gösterdiğinde bile) ve bu sürüm ne zaman kullanılamıyorsa, korelasyon tabanlı PCA'nın da kullanılmaması gerekiyor.
Bu konu olduğunu biliyorum: PCA korelasyon veya kovaryans? - fakat sadece cebirsel olarak doğru olan veya olmayabilir pragmatik bir çözüm bulmaya odaklanıyor gibi görünüyor.