Gauss olmayan verilerin PCA'sı


20

PCA hakkında birkaç hızlı sorum var:

  • PCA , veri kümesinin Gauss olduğunu varsayıyor mu?
  • Doğası gereği doğrusal olmayan verilere bir PCA uyguladığımda ne olur?

Bir veri kümesi verildiğinde, işlem ilk önce normalleştirmek, varyansı 1'e ayarlamak, bir SVD almak, sıralamayı azaltmak ve son olarak veri kümesini yeni düşük sıralı alanla eşlemektir. Yeni alanda, her boyut maksimum varyansın bir "yönüne" karşılık gelir.

  • Ancak bu veri kümesinin yeni alandaki korelasyonu her zaman sıfır mıdır, yoksa bu sadece doğal olarak Gaussian veriler için mi doğrudur?

"A" ve "B" olmak üzere iki veri setim olduğunu varsayalım, burada "A" bir Gauss'tan alınan rastgele örneklenmiş noktalara karşılık gelirken, "B" başka bir dağıtımdan rastgele örneklenmiş noktalara karşılık gelir (Poisson diyelim).

  • PCA (A), PCA (B) ile nasıl karşılaştırılır?
  • Yeni alandaki noktalara bakarak, PCA'nın (A) bir Gaussian'dan örneklenen noktalara karşılık geldiğini nasıl belirleyebilirim, PCA (B) ise bir Poisson'dan örneklenen noktalara karşılık gelir?
  • "A" daki noktaların korelasyonu 0 mı?
  • "B" deki noktaların korelasyonu da 0 mı?
  • Daha da önemlisi, "doğru" soruyu mu soruyorum?
  • Korelasyona bakmalı mıyım yoksa dikkate almam gereken başka bir metrik var mı?

2
Bu makalede PCA'nın varsayımlarına ilişkin eke bakınız .
varsayılan

Yanıtlar:


17

Burada zaten birkaç iyi cevabınız var (@ Cam.Davidson.Pilon & @MichaelChernick'e +1). Bu konuyu düşünmeme yardımcı olacak birkaç nokta açayım.

İlk olarak, PCA korelasyon matrisi üzerinde çalışır. Bana göre önemli soru, verileriniz hakkında düşünmenize yardımcı olacak bir korelasyon matrisi kullanmanın anlamlı olup olmadığıdır. Örneğin, Pearson ürün-moment korelasyonu iki değişken arasındaki doğrusal ilişkiyi değerlendirir ; değişkenleriniz birbiriyle ilişkili, ancak doğrusal değilse, korelasyon ilişkinin gücünü endekslemek için ideal bir metrik değildir. ( İşte korelasyon ve normal olmayan veriler hakkında CV hakkında güzel bir tartışma.)

İkincisi, bence PCA ile neler olup bittiğini anlamanın en kolay yolu sadece eksenlerinizi döndürmektir. Tabii ki daha fazla şey yapabilirsiniz ve ne yazık ki PCA faktör analizi ile karıştırılır (ki bu kesinlikle daha fazla şey olur). Bununla birlikte, çan ve ıslık olmayan sade eski PCA aşağıdaki gibi düşünülebilir:

  • bir grafik kağıdına iki boyutta çizilen bazı noktalarınız var;
  • üzerinde ortogonal eksenlerin çizildiği bir şeffaflık ve başlangıç ​​noktasında bir iğne deliği var;
  • saydamlığın kökenini (yani, iğne deliği) merkezlersiniz ve kalemin ucunu yerinde tutmak için iğne deliğinden geçirirsiniz ; (x¯,y¯)
  • saydamlık noktaları (orijinalin yerine saydamlığın eksenlerine göre dizine eklendiğinde) ilişkilendirilmedikçe döndürürsünüz.

Bu, PCA için mükemmel bir metafor değildir (örneğin, 1'e varyansları yeniden ölçeklendirmedik). Ama insanlara temel fikir veriyor. Mesele şu ki, veriler başlamak için Gauss olmasaydı sonucun nasıl göründüğünü düşünmek için bu görüntüyü kullanmaktır; bu da bu işlemin yapılmaya değer olup olmadığına karar vermenize yardımcı olacaktır. Umarım yardımcı olur.


2
+1 (uzun zaman önce). Bu konudaki en iyi cevap olduğunu düşünüyorum, umarım en çok oylanan kişi olmak için bir tane daha oy toplar. PCA'yı şeffaflıkla açıklama şeklinizi seviyorum, bu güzel.
amip diyor Reinstate Monica

Bu arada, bu cevabınız büyük layman PCA iş parçacığımdaki son cevabım için ilham kaynağı oldu : Bu animasyonlu gifleri, şeffaflık benzetmenizi akılda tutarak yaptım.
amip diyor Reinstate Monica

Harika bir cevap, @amoeba. Bundan çok daha iyi.
gung - Monica'yı eski

13

Kısmi bir çözüm verebilirim ve ikinci paragrafw1w2Xw1Xw2X

CÖv(Xw1,Xw2)=E[(Xw1)T(Xw2)]-E[Xw1]TE[Xw2]
wbenX
w1TE[XTX]w2=Vbirr(X)w1Tw2=0
wbenVbirr(X)

XXwXXw

α


7

PCA'da varsayılan herhangi bir doğrusallık veya normallik yoktur. Fikir, sadece bir p-boyutlu veri kümesindeki varyasyonu, açıklanan varyans miktarına göre sıralanan ortogonal bileşenlere ayrıştırmaktır.


2
Doğru ancak "p-boyutlu bir veri kümesindeki varyasyonu dikey bileşenlere ayırmak" değişkenler arasında doğrusal olmayan bağımlılıklar olduğunda çok yararlı değildir çünkü dikeyleştirme genellikle yapılır, böylece boyutların birbiriyle alakasız olduğunu iddia edebilirsiniz. ayrıca sorunun Gauss bölümüyle de ilgilidir). PCA yaparken ve sonuçları her zamanki gibi yorumlamayı planlarken, verilerin daha düşük boyutlu doğrusal bir alt alanda yaşadığının altında yatan bir varsayım vardır .
Makro

2
@Macro Tam olarak değil. Temel varsayım, verinin değişkenliğinin ve dolayısıyla örüntüsünün en azından bir kısmının daha düşük boyutlu bir alanda yoğunlaştığıdır. Ortogonal bileşenlerle 2 boyutlu bir alanda bir parabolü çok iyi görebilirim. Bence doğrusal olmayan şekiller iki veya üç boyutta görülebilir. Veriler çok değişkenli bir Gaussian güvensizliğinden geliyorsa, bazı alt uzaylarda noktalar elipsoidal bir bulut gibi görünmelidir. Yüksek PC'lerin alt alanındaki görüşünün ilginç olması için dağılımın bir elipsoid gibi görünmesi gerekmez.
Michael R. Chernick

4
Bunu biraz nitelendiririm. SVD tarafından klasik PCA veya PCA'da normallik varsayımı yoktur. Bununla birlikte, PCA'yı eksik verilerle hesaplamak için EM algoritmaları normallik ve doğrusallığı varsayar.
John

PCA'ya giden klasik yolun herhangi bir varsayım gerektirmesine rağmen, çözümüne başka bir yol daha var: 0 ölçüm gürültüsü ile olasılıklı PCA.
bayerj

3

Burada sayfa 7 okunuyor:

http://www.cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf

PCA'nın açıkladığımız her şeyin dağılımının yalnızca ortalama (sıfır) ve sadece varyansla tanımlanabileceğini varsaydığını ve bunun yalnızca Normal dağılım olabileceğini belirtti.

(Temel olarak Cam'ın cevabına ek olarak, ancak yorum yapmak için yeterli itibarım yok:)


1
Shlens'in öğreticisine sağladığınız bağlantı, öğreticinin 1. sürümüne yöneliktir, ancak 3.02 sürümü (son sürüm?) Artık kullanılabilir ve bu belirli nokta kaldırılmıştır. Ayrıca, bu soru tam olarak bunu sordu.
Oren Milman

0

Bildiğim kadarıyla, PCA verilerin normalliğini kabul etmiyor. Ancak normal olarak dağıtılırsa (daha genel anlamda, simetrik olarak dağıtılırsa), sonuç daha sağlamdır. Diğer insanların söylediği gibi, anahtar PCA'nın tahminleri aykırı değerlerden ve çarpık dağılımdan etkilenen Pearson korelasyon katsayısı matrisine dayanmasıdır. İstatistiksel test veya p-değeri gibi bazı analizlerde, normalliğin tatmin edilip edilmediğine daha fazla dikkat etmelisiniz; ancak keşif analizi gibi diğer uygulamalarda da kullanabilirsiniz ancak yalnızca yorum yaparken dikkatli olun.


-1

Verilerin "Normalde" dağıtılması gerektiğini söyleyen diğer kullanıcılarla anlaştı. Herhangi bir dağıtım, dönüştürdüğünüzde normal dağılımla çakışacaktır. Dağılımınız normal değilse, alacağınız sonuçlar, burada bazılarının belirttiği gibi, normal olduğu duruma göre daha düşük olacaktır ...

  • Gerekirse dağıtımınızı dönüştürebilirsiniz.
  • PCA'yı seçebilir ve bunun yerine Bağımsız Bileşen Analizi (ICA) kullanabilirsiniz.

İlk cevaptaki referansı okursanız, Ek bölümünde varsayımın Normal dağılım olduğunu belirtir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.