Bağımlı gözlemler için PCA'nın özellikleri


23

PCA'yı genellikle davaların kabul edildiğinin varsayıldığı veriler için boyutsallık azaltma tekniği olarak kullanıyoruz.

Soru: Bağımlı, kimliği olmayan veriler için PCA uygulamasındaki tipik nüanslar nelerdir? PCA'nın kimlik bilgileri için geçerli olan hoş / faydalı özellikleri tehlikeye atılır (veya tamamen kaybolur)?

Örneğin, veriler, çok değişkenli bir zaman serisi olabilir; bu durumda, otokorelasyon veya otoregresif koşullu heteroskedastisite (ARCH) beklenebilir.

PCA'nın zaman serisi verilerine uygulanmasıyla ilgili birkaç soru sorulmuştu, örneğin 1 , 2 , 3 , 4 , ancak daha genel ve kapsamlı bir cevap arıyorum (her bir noktanın üzerinde genişlemeye gerek kalmadan).

Düzenleme: @ttnphns tarafından belirtildiği gibi, PCA'nın kendisi çıkarımsal bir analiz değildir. Bununla birlikte, biri PCA'nın genelleştirilmesi performansı ile ilgilenebilir, yani örnek PCA'nın popülasyonu ile odaklanabilir. Nadler'de (2008) yazıldığı gibi :

Verilen verinin (genellikle bilinmeyen) bir dağılımdan sonlu ve rastgele bir örnek olduğu varsayımıyla, ilginç bir teorik ve pratik soru, sonlu verilerden hesaplanan örnek PCA sonuçları ile temel popülasyon modelinin sonuçları arasındaki ilişkidir.

Referanslar:


14
Sadece not için. PCA'nın kendisi çıkarımsal bir analiz değildir. Çok değişkenli sayı veri kümesinin bir dönüşümüdür; çekirdeği sadece svd veya eigendecomposition. Dolayısıyla gözlem bağımsızlığı varsayımı yapmaz. PCA'yı popülasyonlardan gelen örnekleri analiz etmek için istatistiksel bir araç olarak kullandığımızda varsayımlar ortaya çıkar . Fakat bunlar PCA'nın varsayımları değil. Örneğin, veriyi azaltmak için PCA'nın haklı olup olmadığına karar vermek için küresellik testi yapmak bağımsızlık gerektirir ve test bir "PCA içi" varsayım testi gibi görünebilir, ancak aslında "dış" bir testtir.
ttnphns

@ ttnphns, çok iyi noktalar, teşekkür ederim. Gönderimi düzenlemenin düzgün bir yolunu görürseniz, çekinmeyin. Bunu kendim de düşüneceğim.
Richard Hardy,

1
Richard, sorunuz iyi ve önemli (+1). Belki de "Biraz önce PCA'yı, vakaların varsayıldığı durumlarda veri için bir boyutsallık indirimi olarak kullanıyoruz ..." Zaman zaman verileri için PCA'nın uygulanmasında tipik farklılıklar nelerdir? puanlar) gecikmeli-birbirine bağımlı ...? "
ttnphns,

1
@ amoeba, doğru. Fakat sadece PC'lerin yüklerini almaktan hemen hemen vazgeçmiyoruz. PCA'yı sıkça izleyen adımlarda, tanrısızlık altında nelere dikkat etmeliyiz? Umarım bir cevap sorudan daha iyi olabilir (şu anki formülasyonunda). Buna gevşek / yaratıcı bir şekilde bakarsanız, belki de iyi puanlar alabilirsiniz.
Richard Hardy,

2
Düz PCA, yalnızca "yatay" ilişkilere (yani sütunlar arasında) saygı gösterir ve "dikey" (durumlar arasında) yok sayar: sütunların kovaryans matrisi, vakaların sıralamasını değiştirirseniz aynıdır. Bunun “dava seri ilişkileri için bir varsayım yok” veya “bağımsız davalar için varsayım yapılmış” olarak adlandırılabileceği bir zevk meselesidir. İid varsayım varsayılan veri analizinde ve sadece do yöntemlerle yüzden değil PCA gibi, vaka düzenine özellikle dikkat, iid varsayım için "sessiz desteğine" izafi olabilir.
ttnphns

Yanıtlar:


1

Muhtemelen, zaman bileşenini örneklenen noktalarınıza ek bir özellik olarak ekleyebilirsiniz, ve şimdi onlar tanımlanır mı? Temel olarak, orijinal veri noktaları zamanında şartlıdır:

p(xiti)p(xi)

Fakat, eğer tanımlarsak , o zaman aşağıdakileri yaparız:xi={xi,ti}

p(xiti)=p(xi)

... ve veri örnekleri artık birbirinden bağımsız.

Uygulamada, zamanı her veri noktasına bir özellik olarak dahil ederek, PCA bir bileşenin sadece zaman özelliği ekseni boyunca işaret ettiği sonucuna sahip olabilir. Ancak, herhangi bir özellik zaman özelliği ile ilişkiliyse, bir bileşen, zaman özelliğinin yanı sıra bu özelliklerden bir veya daha fazlasından oluşabilir.


1
Cevap için teşekkürler. Bu, zamanın doğrusal olarak girdiği çok özel bir durum olacaktır. Daha yaygın bir fenomen, örneğin, zamanın bir özellik olarak rol oynamaması durumunda otokorelasyondur.
Richard Hardy

Tamam anladım. Yani, demek, mesela örnek bazı parametrelerin sadece bir işlev değil İçeride ISTV melerin RWMAIWi'nin ama da bağlı x t - 1 ? Bu nedenle, x t , x t - 1 ve θ verilen Markov'dur . Öyleyse, PCA'ya bir özellik olarak x t - 1 ekleyebilir miyiz ? (Yapabileceğimizi veya yapamayacağımızı söylemiyorum, sadece problemi düşünerek gerçekten ...)xtθxt1xtxt1θxt1
Hugh Perkins

Buna benzer bir şey, evet, ancak bir özellik olarak eklemeden, çünkü orijinal değişkenlerde tanımlanan PCA ile ilgileniyorum ..xt1
Richard Hardy
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.