Çok değişkenli Gauss verilerinin PCA bileşenleri istatistiksel olarak bağımsız mı?


16

Verilerimiz normalde çok değişkenli ise PCA bileşenleri (temel bileşen analizinde) istatistiksel olarak bağımsız mıdır? Eğer öyleyse, bu nasıl kanıtlanabilir / kanıtlanabilir?

Soruyorum çünkü en iyi cevabın belirttiği bu yayını gördüm :

PCA açık bir Gaussian varsayımı yapmaz. Verilerde açıklanan varyansı en üst düzeye çıkaran özvektörleri bulur. Temel bileşenlerin dikliği, verilerdeki mümkün olduğunca fazla varyasyonu açıklamak için en ilişkisiz bileşenleri bulduğu anlamına gelir. Çok değişkenli gauss dağılımları için, bileşenler arasındaki sıfır korelasyon, bağımsızlık anlamına gelir, bu da çoğu dağılım için doğru değildir.

Cevap bir kanıt olmadan ifade edilir ve verilerin çok değişkenli normal olması durumunda PCA'nın bağımsız bileşenler ürettiği anlamına gelir.

Özellikle, verilerimizin aşağıdakilerden örnekler olduğunu varsayalım:

xN(μ,Σ)

koyduk n örnekleri x Örneklerinde eden matris sıraları halinde , yani olduğu . SVD'sinin hesaplanmasıXXn×mX (merkezlemeden sonra) getirilerinin

X=USVT

sütunlarının istatistiksel olarak bağımsız olduğunu, ayrıca satırlarının da olduğunu söyleyebilir miyiz ? Bu genel olarak, sadece için geçerli mi, yoksa hiç doğru değil mi?V T xN ( μ , Σ )UVTxN(μ,Σ)



1
PC'lerin birden fazla boyutta nasıl "istatistiksel olarak bağımsız" olarak değerlendirilebileceğini anlamıyorum. Sonuçta, tanımı gereği her biri diğerlerine diktir; bu fonksiyonel bağımlılık çok güçlü bir istatistiksel bağımlılık yaratır.
whuber

1
@amoeba ben açıkça belirtildiği ve net olarak görüyorum sorusuna tutarlı berrak hem de sadık olmuştur umut: Veri çünkü X rasgele, yani tüm girişler vardır U . İstatistiksel bağımsızlık tanımını onlara uyguladım. Bu kadar. İşletme sorun görünüşte farkında olmadan iki farklı anlamda kelime "ilişkisiz" kullandığınız gibi görünmektedir: sütunları nasıl sayesinde U inşa edilir, bunlar geometrik olarak dik olarak vektörler Rn , ancak bunlar herhangi bir cinsindendir bağımsız rastgele vektörler anlamına gelir!
whuber

1
@amoeba Haklısın - simülasyon oldukça ikna edici bir şekilde korelasyonun sıfırdan farklı olabileceğini gösteriyor. Ancak, "korelasyon" = "dik" anlamında "PCA bileşenlerinin ilişkisiz" olduğunu veya belirli bir ders kitabının yanlış olduğunu söylemiyorum. Benim endişem, düzgün bir şekilde anlaşılan böyle bir ifadenin, mevcut bağlamda yapabileceği (ve yaptığı) tümüyle geniş bir karışıklık yarattığı sorusuyla o kadar alakasız olduğudur.
whuber

1
@whuber, cevabımın bir başka baskısını dört gözle beklediğinizden eminim! İşte burada. Ben açıkça bağımlılık hakkında puanlarınızı kabul ve sütunları bir açıklama yapmak U olan asimptotik benim ana noktası olarak, bağımsız. Burada "asimptotik olarak" gözlemlerin (satırların) sayısını ifade eder n. Umarım bu konuda hemfikir oluruz! Ayrıca , n = 100 gibi makul bir n , sütunlar arasındaki bağımlılığın "pratik olarak alakasız" olduğunu iddia ediyorum . Sanırım bu daha tartışmalı bir nokta, ama cevabımda makul bir şekilde kesin yapmaya çalışıyorum. n=100
amip diyor Reinstate Monica

Yanıtlar:


23

Sezgisel bir gösteri ile başlayacağım.

(A) kuvvetli bir Gauss dışı 2D dağılımından ve (b) 2D Gauss dağılımından gözlem oluşturdum . Her iki durumda da verileri ortaladım ve tekil değer ayrışması X = U S V performed gerçekleştirdim . Sonra her bir vaka için, U'nun ilk iki sütununun biri diğerine karşı olan bir dağılım grafiği yaptım . Not genellikle sütunları olduğu , U S "ana bileşenleri" (PC) olarak adlandırılır; U sütunları birim normuna sahip olarak ölçeklendirilmiş PClerdir; yine de, bu cevapta U sütunlarına odaklanıyorum . İşte dağılım grafikleri:n=100X=USVUUSUU

PCA of Gaussian and non-Gaussian data

"PCA bileşenleri ilişkisiz" veya "PCA bileşenleri bağımlı / bağımsız" gibi ifadelerin genellikle belirli bir örnek matris hakkında yapıldığını ve satırlar arasındaki korelasyonlara / bağımlılıklara atıfta bulunduğunu düşünüyorum (bkz. Örneğin @ ttnphns'ın cevabı ). PCA , satırların gözlem ve sütunların PC değişkenleri olduğu dönüştürülmüş bir veri matrisi U verir . Yani U'yu örnek olarak görebiliriz ve PC değişkenleri arasındaki örnek korelasyonunun ne olduğunu sorabiliriz. Bu örnek korelasyon matrisi elbette UU = I ile verilmiştir.XUUUU=Iyani PC değişkenleri arasındaki örnek korelasyonları sıfırdır. İnsanların "PCA kovaryans matrisini köşegenleştirdiğini" söylediklerinde kastedilen budur.

Sonuç 1: PCA koordinatlarında, verilerin sıfır korelasyonu vardır.

Bu, yukarıdaki her iki dağılım grafiği için de geçerlidir. Bununla birlikte, soldaki (Gauss olmayan) dağılım grafiğindeki iki PC değişkeni ve y bağımsız değildir; sıfır korelasyona sahip olmalarına rağmen, büyük ölçüde bağımlıdırlar ve aslında bir y a ( x - b ) 2 ile ilişkilidirler . Ve aslında, ilişkisiz bağımsız anlamına gelmediği iyi bilinmektedir .xyya(xb)2

Aksine, sağ (Gauss) dağılım grafiğindeki iki PC değişkeni ve y "oldukça bağımsız" görünmektedir. Aralarındaki karşılıklı bilgilerin hesaplanması (istatistiksel bağımlılığın bir ölçüsüdür: bağımsız değişkenlerin sıfır karşılıklı bilgisi vardır) herhangi bir standart algoritma tarafından sıfıra çok yakın bir değer verecektir. Tam olarak sıfır olmayacaktır, çünkü herhangi bir sonlu örnek boyutu için asla tam olarak sıfır değildir (ince ayar yapılmadıkça); ayrıca, iki örneğin karşılıklı bilgilerini hesaplamak için biraz farklı cevaplar veren çeşitli yöntemler vardır. Ancak herhangi bir yöntemin sıfıra çok yakın karşılıklı bilgi tahmini vermesini bekleyebiliriz.xy

Sonuç 2: PCA koordinatlarında Gauss verileri "hemen hemen bağımsızdır", yani standart bağımlılık tahminleri sıfır civarında olacaktır.

Bununla birlikte, uzun yorum zincirinin gösterdiği gibi soru daha zordur. Gerçekten de @whuber haklı olarak PCA değişkenleri ve y'nin ( U sütunları ) istatistiksel olarak bağımlı olması gerektiğine işaret eder: sütunlar birim uzunluğunda olmalı ve dik olmalıdır ve bu bir bağımlılık getirir. Örneğin, ilk sütundaki bir değer 1'e eşitse , ikinci sütundaki karşılık gelen değer 0 olmalıdır .xyU10

Bu doğrudur, ancak pratik olarak örneğin n = 3 gibi çok küçük için geçerlidir ( merkezlemeden sonra n = 2 ile sadece bir PC vardır). Yukarıdaki şeklimde gösterilen n = 100 gibi makul bir numune boyutu için, bağımlılığın etkisi önemsiz olacaktır; U sütunları Gauss verilerinin (ölçeklendirilmiş) projeksiyonlarıdır, bu nedenle Gauss'tur, bu da bir değerin 1'e yakın olmasını neredeyse imkansız hale getirir (bu, diğer tüm n - 1 öğelerinin 0'a yakın olmasını gerektirir ; bir Gauss dağılımı).nn=3n=2n=100U1n10

Sonuç 3: Kesin olarak, herhangi bir sonlu , PCA koordinatlarındaki Gauss verileri bağımlıdır; bununla birlikte, bu bağımlılık herhangi bir n 1 için pratik olarak önemsizdir .nn1

Bunu sınırında neler olduğunu düşünerek kesinleştirebiliriz . Sonsuz numune boyutu sınırı, örnek kovaryans matrisi nüfus kovaryans matrisi eşittir Σ . Veri vektör Yani eğer X, örneklenmiş olan X ~ N ( 0 , Σ ) , daha sonra PC değişkenler Y = Λ - 1 / 2 V x / ( n - 1 ) ( Λ ve VnΣXXN(0,Σ)Y=Λ1/2VX/(n1)ΛV ) ve YN ( 0 , I / ( n - 1 ) ) özdeğer ve özvektörleridir . Yani PC değişkenleri diyagonal kovaryansa sahip çok değişkenli bir Gauss'tan gelir. Ancak diyagonal kovaryans matrisi olan çok değişkenli Gausslar, tek değişkenli Gaussianların bir ürününe ayrışır ve bu, istatistiksel bağımsızlığın tanımıdır :ΣYN(0,I/(n1))

N(0,diag(σi2))=1(2π)k/2det(diag(σi2))1/2exp[xdiag(σi2)x/2]=1(2π)k/2(i=1kσi2)1/2exp[i=1kσi2xi2/2]=1(2π)1/2σiexp[σi2xi2/2]=N(0,σi2).

Sonuç 4: Gauss verilerinin PC değişkenleri asimptotik olarak ( ) rastgele değişkenler olarak istatistiksel olarak bağımsızdır ve örnek karşılıklı bilgileri popülasyon değerini sıfır verecektir.n

Ben farklı bu soruyu anlamaya (@whuber yorumlarına bakınız) mümkün olduğuna dikkat edilmelidir: Bütün matris dikkate (rastgele matris elde edilen rasgele değişken X , belirli bir operasyon yoluyla) ve sorarsan herhangi iki özgü unsurlar U i j ve U k l , iki farklı kolonlardan çizer farklı boyunca istatistiksel olarak bağımsız X . Bu soruyu ilerleyen bölümlerde inceledik .UXUijUklX


Yukarıdan dört ara sonuç:

  • PCA koordinatlarında, herhangi bir veri sıfır korelasyona sahiptir.
  • PCA koordinatlarında Gauss verileri "hemen hemen bağımsızdır", yani standart bağımlılık tahminleri sıfır civarında olacaktır.
  • Kesin olarak, herhangi bir sonlu , PCA koordinatlarındaki Gauss verileri bağımlıdır; ancak, bu bağımlılık herhangi bir n 1 için pratik olarak önemsizdir.nn1 .
  • Gauss verilerinin PC değişkenleri asimptotik olarak ( ) rastgele değişkenler olarak istatistiksel olarak bağımsızdır ve örnek karşılıklı bilgileri popülasyon değerini sıfır verecektir.n

"Ancak, veriler çok değişkenli Gaussian ise, o zaman gerçekten bağımsızdır" yazarsınız. 'Onlar' ana bileşenler ve katsayıları mı? PCA ile ne demek kovaryans matrisini köşegenleştiriyor? Cevabınız için teşekkürler!
bill_e

SU

Oh, teşekkürler! Cevabınızın ve bu yorumun birleşimi benim için işleri netleştirmeye yardımcı oluyor. Cevabınızdaki yorumunuzu düzenleyebilir miyim?
bill_e

Yorumu ekleyerek cevabı genişlettim; şimdi bundan memnun olup olmadığınıza bakın.
amip, Reinstate Monica'yı

2
İlginç tartışma! Soruyu sorduğumda, istatistiksel bağımlılık düşüncem "PC1'i biliyorsanız, PC2'yi çıkarmak mümkün mü?" İdi. Şimdi karşılıklı bilgiye dayalı bağımsızlık testlerine bakacağım.
bill_e
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.