PCA'yı genellikle davaların kabul edildiğinin varsayıldığı veriler için boyutsallık azaltma tekniği olarak kullanıyoruz.
Soru: Bağımlı, kimliği olmayan veriler için PCA uygulamasındaki tipik nüanslar nelerdir? PCA'nın kimlik bilgileri için geçerli olan hoş / faydalı özellikleri tehlikeye atılır (veya tamamen kaybolur)?
Örneğin, veriler, çok değişkenli bir zaman serisi olabilir; bu durumda, otokorelasyon veya otoregresif koşullu heteroskedastisite (ARCH) beklenebilir.
PCA'nın zaman serisi verilerine uygulanmasıyla ilgili birkaç soru sorulmuştu, örneğin 1 , 2 , 3 , 4 , ancak daha genel ve kapsamlı bir cevap arıyorum (her bir noktanın üzerinde genişlemeye gerek kalmadan).
Düzenleme: @ttnphns tarafından belirtildiği gibi, PCA'nın kendisi çıkarımsal bir analiz değildir. Bununla birlikte, biri PCA'nın genelleştirilmesi performansı ile ilgilenebilir, yani örnek PCA'nın popülasyonu ile odaklanabilir. Nadler'de (2008) yazıldığı gibi :
Verilen verinin (genellikle bilinmeyen) bir dağılımdan sonlu ve rastgele bir örnek olduğu varsayımıyla, ilginç bir teorik ve pratik soru, sonlu verilerden hesaplanan örnek PCA sonuçları ile temel popülasyon modelinin sonuçları arasındaki ilişkidir.
Referanslar:
- Nadler, Boaz. "Temel bileşen analizi için sonlu örnek yaklaşımı sonuçları: Bir matris pertürbasyon yaklaşımı." İstatistiklerin Annals (2008): 2791-2817.