Sezgisel bir gösteri ile başlayacağım.
(A) kuvvetli bir Gauss dışı 2D dağılımından ve (b) 2D Gauss dağılımından gözlem oluşturdum . Her iki durumda da verileri ortaladım ve tekil değer ayrışması X = U S V performed gerçekleştirdim . Sonra her bir vaka için, U'nun ilk iki sütununun biri diğerine karşı olan bir dağılım grafiği yaptım . Not genellikle sütunları olduğu , U S "ana bileşenleri" (PC) olarak adlandırılır; U sütunları birim normuna sahip olarak ölçeklendirilmiş PClerdir; yine de, bu cevapta U sütunlarına odaklanıyorum . İşte dağılım grafikleri:n=100X=USV⊤UUSUU
"PCA bileşenleri ilişkisiz" veya "PCA bileşenleri bağımlı / bağımsız" gibi ifadelerin genellikle belirli bir örnek matris hakkında yapıldığını ve satırlar arasındaki korelasyonlara / bağımlılıklara atıfta bulunduğunu düşünüyorum (bkz. Örneğin @ ttnphns'ın cevabı ). PCA , satırların gözlem ve sütunların PC değişkenleri olduğu dönüştürülmüş bir veri matrisi U verir . Yani U'yu örnek olarak görebiliriz ve PC değişkenleri arasındaki örnek korelasyonunun ne olduğunu sorabiliriz. Bu örnek korelasyon matrisi elbette U ⊤ U = I ile verilmiştir.XUUU⊤U=Iyani PC değişkenleri arasındaki örnek korelasyonları sıfırdır. İnsanların "PCA kovaryans matrisini köşegenleştirdiğini" söylediklerinde kastedilen budur.
Sonuç 1: PCA koordinatlarında, verilerin sıfır korelasyonu vardır.
Bu, yukarıdaki her iki dağılım grafiği için de geçerlidir. Bununla birlikte, soldaki (Gauss olmayan) dağılım grafiğindeki iki PC değişkeni ve y bağımsız değildir; sıfır korelasyona sahip olmalarına rağmen, büyük ölçüde bağımlıdırlar ve aslında bir y ≈ a ( x - b ) 2 ile ilişkilidirler . Ve aslında, ilişkisiz bağımsız anlamına gelmediği iyi bilinmektedir .xyy≈a(x−b)2
Aksine, sağ (Gauss) dağılım grafiğindeki iki PC değişkeni ve y "oldukça bağımsız" görünmektedir. Aralarındaki karşılıklı bilgilerin hesaplanması (istatistiksel bağımlılığın bir ölçüsüdür: bağımsız değişkenlerin sıfır karşılıklı bilgisi vardır) herhangi bir standart algoritma tarafından sıfıra çok yakın bir değer verecektir. Tam olarak sıfır olmayacaktır, çünkü herhangi bir sonlu örnek boyutu için asla tam olarak sıfır değildir (ince ayar yapılmadıkça); ayrıca, iki örneğin karşılıklı bilgilerini hesaplamak için biraz farklı cevaplar veren çeşitli yöntemler vardır. Ancak herhangi bir yöntemin sıfıra çok yakın karşılıklı bilgi tahmini vermesini bekleyebiliriz.xy
Sonuç 2: PCA koordinatlarında Gauss verileri "hemen hemen bağımsızdır", yani standart bağımlılık tahminleri sıfır civarında olacaktır.
Bununla birlikte, uzun yorum zincirinin gösterdiği gibi soru daha zordur. Gerçekten de @whuber haklı olarak PCA değişkenleri ve y'nin ( U sütunları ) istatistiksel olarak bağımlı olması gerektiğine işaret eder: sütunlar birim uzunluğunda olmalı ve dik olmalıdır ve bu bir bağımlılık getirir. Örneğin, ilk sütundaki bir değer 1'e eşitse , ikinci sütundaki karşılık gelen değer 0 olmalıdır .xyU10
Bu doğrudur, ancak pratik olarak örneğin n = 3 gibi çok küçük için geçerlidir ( merkezlemeden sonra n = 2 ile sadece bir PC vardır). Yukarıdaki şeklimde gösterilen n = 100 gibi makul bir numune boyutu için, bağımlılığın etkisi önemsiz olacaktır; U sütunları Gauss verilerinin (ölçeklendirilmiş) projeksiyonlarıdır, bu nedenle Gauss'tur, bu da bir değerin 1'e yakın olmasını neredeyse imkansız hale getirir (bu, diğer tüm n - 1 öğelerinin 0'a yakın olmasını gerektirir ; bir Gauss dağılımı).nn=3n=2n=100U1n−10
Sonuç 3: Kesin olarak, herhangi bir sonlu , PCA koordinatlarındaki Gauss verileri bağımlıdır; bununla birlikte, bu bağımlılık herhangi bir n ≫ 1 için pratik olarak önemsizdir .nn≫1
Bunu sınırında neler olduğunu düşünerek kesinleştirebiliriz . Sonsuz numune boyutu sınırı, örnek kovaryans matrisi nüfus kovaryans matrisi eşittir Σ . Veri vektör Yani eğer X, örneklenmiş olan → X ~ N ( 0 , Σ ) , daha sonra PC değişkenler → Y = Λ - 1 / 2 V ⊤ → x / ( n - 1 ) ( Λ ve Vn→∞ΣXX⃗ ∼N(0,Σ)Y⃗ =Λ−1/2V⊤X⃗ /(n−1)ΛV ) ve → Y ∼ N ( 0 , I / ( n - 1 ) ) özdeğer ve özvektörleridir . Yani PC değişkenleri diyagonal kovaryansa sahip çok değişkenli bir Gauss'tan gelir. Ancak diyagonal kovaryans matrisi olan çok değişkenli Gausslar, tek değişkenli Gaussianların bir ürününe ayrışır ve bu, istatistiksel bağımsızlığın tanımıdır :ΣY⃗ ∼N(0,I/(n−1))
N(0,diag(σ2i))=1(2π)k/2det(diag(σ2i))1/2exp[−x⊤diag(σ2i)x/2]=1(2π)k/2(∏ki=1σ2i)1/2exp[−∑i=1kσ2ix2i/2]=∏1(2π)1/2σiexp[−σ2ix2i/2]=∏N(0,σ2i).
Sonuç 4: Gauss verilerinin PC değişkenleri asimptotik olarak ( ) rastgele değişkenler olarak istatistiksel olarak bağımsızdır ve örnek karşılıklı bilgileri popülasyon değerini sıfır verecektir.n→∞
Ben farklı bu soruyu anlamaya (@whuber yorumlarına bakınız) mümkün olduğuna dikkat edilmelidir: Bütün matris dikkate (rastgele matris elde edilen rasgele değişken X , belirli bir operasyon yoluyla) ve sorarsan herhangi iki özgü unsurlar U i j ve U k l , iki farklı kolonlardan çizer farklı boyunca istatistiksel olarak bağımsız X . Bu soruyu ilerleyen bölümlerde inceledik .UXUijUklX
Yukarıdan dört ara sonuç:
- PCA koordinatlarında, herhangi bir veri sıfır korelasyona sahiptir.
- PCA koordinatlarında Gauss verileri "hemen hemen bağımsızdır", yani standart bağımlılık tahminleri sıfır civarında olacaktır.
- Kesin olarak, herhangi bir sonlu , PCA koordinatlarındaki Gauss verileri bağımlıdır; ancak, bu bağımlılık herhangi bir n ≫ 1 için pratik olarak önemsizdir.nn≫1 .
- Gauss verilerinin PC değişkenleri asimptotik olarak ( ) rastgele değişkenler olarak istatistiksel olarak bağımsızdır ve örnek karşılıklı bilgileri popülasyon değerini sıfır verecektir.n→∞