PCA çoklu bağlantı altında kararsız mı?


25

Bir regresyon durumunda, bir dizi yüksek korelasyonlu değişkeniniz varsa, bunun tahmin edilen katsayılardaki dengesizlikten dolayı genellikle "kötü" olduğunu biliyorum (varyans belirleyici sıfıra giderken sonsuzluğa gider).

Sorum şu, “kötülüğün” bir PCA durumunda da devam edip etmeyeceği. Herhangi bir PC için katsayılar / yükler / ağırlıklar / özvektörler kovaryans matrisi tekil hale geldikçe kararsız / keyfi / benzersiz değil mi? Özellikle yalnızca ilk ana bileşenin tutulduğu ve diğerlerinin "gürültü" veya "başka bir şey" veya "önemsiz" olarak görevden alındığı durumla özellikle ilgileniyorum.

Öyle sanmıyorum, çünkü sıfıra ya da sıfıra yakın bir değere sahip birkaç temel bileşenle kalacaksınız.

Bunu görmek kolay, 2 değişkenli basit ekstrem durumda değil - onların mükemmel bir korelasyon olduğunu varsayalım. Ardından, ilk PC kesin doğrusal ilişki olacak ve ikinci PC tüm gözlemler için sıfıra eşit olacak şekilde (yani sıfır sapma) birinci PC'ye perpindik olacaktır. Daha genel olup olmadığını merak ediyorum.


8
Sebeplerin iyi. Aslında, iki veya daha fazla özdeğer neredeyse neredeyse çakıştığında, kararsızlığın ortaya çıkması beklenir, çünkü o zaman özdeğerler belirlense de, özvektörler yüklenmez ve bu nedenle de yükler değildir. Sayısal nedenlerden ötürü, özdeğerlerde (ve özvektörlerde) azami özdeğere kıyasla çok küçük olan kararsızlık da vardır.
whuber

@whuber comment sorunuzu yanıtlar, ancak mükemmel şekilde ilişkili 2 değişken olması durumunda, PCA'nın sorun yaşamaması gerektiğini belirtmek isterim. Kovaryans matrisi 1. sırada olacak, yani sadece sıfır olmayan bir özdeğer, yani sadece 1 PC olacaktır. Orijinal değişkenler bu bilgisayarın katları olacaktır. Tek sorun sayısal kararlılık olabilir.
mpiktas

Aslında, değişkenlerle gerçekten çok fazla ilgili değişkenlere sahip olduğunuzdan daha orta derecede korelasyonlu olsanız, daha kötüye gideceğinizi düşünüyorum. PC'leri sırayla kaldıran NIPALS benzeri bir algoritma kullanıyorsanız, sayısal olarak da
JMS

Bir şey - "yüksek derecede korelasyonlu" ve "ortak" aynı değildir. 2'den fazla değişken varsa, eşzamanlılık korelasyon anlamına gelmez.
Peter Flom - Eski Monica

Yanıtlar:


11

Cevap, daha basit terimlerle bile verilebilir: çoklu regresyon, doğrusal cebir açısından bakıldığında, pca'dan bir adım daha fazladır ve ikinci adımdan itibaren, kararsızlık ortaya çıkar:

Pca ve mult'in ilk adımı. regresyon, -korelasyon matrisinin , üçgensel olan -ve düşük veya yüksek korelasyonlara kayıtsız olan- iki ağır faktör t'ye faktörü olarak görülebilir . (Pca daha sonra (üçgen) tıknaz faktörün pc pozisyonuna dönmesi olarak görülebilir (buna hatırladığım kadarıyla Jacobi dönüşü denir). R,LLt

Mult. regresyon prosedürü, uygun olmayan korelasyon matrisinin son satırında olan bağımlı değişkenin sırasını ve sütununu ekleyerek, bu etken faktör tersini uygulamaktır . İnstabilite burada devreye girer: bağımsız değişkenler arasında yüksek korelasyon vardır, o zaman Cholesky faktörü çapraz çok küçük sayısal değerlere dejenere - ve ters çevirmek için o zaman tanıtır yaklaşık sıfır bölme sorunu.L
L


Kabaca aradığım şey buydu. Aslında, cevabınızı okumak bana başka bir açıklama yapmamı sağlıyor: kovaryans / korelasyon matrisinin belirleyicisi ne olursa olsun, rotasyonlar sayısal olarak kararlıdır. PCA, koordinat ekseninin en iyi dönüşünü bulmak için çerçevelenebildiğinden, aynı zamanda sayısal olarak kararlı olacaktır.
Olasılık

Evet, örneğin Stan Mulaik'in "factoranalysis'in temelleri" nde, kaynağı doğru hatırlıyorsam, pc-rotasyonun (Jacobi-metodu) stabilitesinden açıkça bahsedildi. Kendi faktör analizi uygulamamda, rotasyondan sonra her şeyden önce her şeyi yapıyorum: PCA, Varimax, hatta "temel eksen faktörü" (SPSS'de PAF), rotasyonlar temelinde yeniden oluşturulabilir. Eğer çoklu regresyon, etli faktör L'ye dayanıyorsa ve L'nin bağımsız değişkenleri içeren kısmı PC konumundaysa, çoklu bağlanma daha iyi kontrol edilebilir.
Gottfried Helms

3

PCA genellikle bir amaç için bir araçtır; girişlerden birini çoklu regresyona veya küme analizinde kullanmak için yönlendirir. Sanırım sizin durumunuzda, bir PCA'nın sonuçlarını bir gerileme gerçekleştirmek için kullanmaktan bahsediyorsunuz.

Bu durumda, bir PCA'yı gerçekleştirme hedefiniz, çok yönlülükten kurtulmak ve çoklu girdilerde ortogonal girdiler elde etmektir, şaşırtıcı bir şekilde buna Temel Bileşenler Regresyonu denmez. Burada, tüm orijinal girişleriniz dikse olsaydı, o zaman bir PCA yapmak size başka bir dikey giriş seti verirdi. Bu nedenle; Bir PCA yapıyorsanız, girişlerinizin çoklu bağlayıcılığa sahip olduğu varsayılabilir.

λben^benthλben^p

Referanslar

Johnson & Wichern (2001). Uygulamalı Çok Değişkenli İstatistiksel Analiz (6. Baskı). Prentice Salonu.


6
OP'nin PCR sonrası olduğuna emin değilim. PCA aynı zamanda, çok değişkenli veri setlerini (bir modelleme çerçevesinde daha sonra kullanmak üzere veri azaltma gerçekleştirmek için gerekli değildir) özetlemenin iyi bir yoludur; bu, bilgilerin çoğunu koruyarak VC matrisini daha düşük dereceli bir değere yaklaşık olarak gösterir. Soru şu gibi görünüyor: İlk birkaç özdeğerleri ve PC'leri (orijinal değişkenlerin doğrusal kombinasyonları olarak) yorumlarken doğru değil mi? Yanıtınız, OP'nin sorusunu doğrudan ele almıyor gibi görünüyor.
chl

2
genel olarak PCA hakkında iyi bir cevap, peki ya PCA nihai ürün olduğunda ? Yani, tek bir PC çıktısı almaktır. @Chl soruyu yorumlamasıyla para üzerinde haklı
olasılık

@chl Bu soruya vereceğiniz cevabınız nedir: "İlk birkaç özdeğer ve PC'yi yorumlarken, bazı eşliklilik etkileri olsa bile haklı mıyım?" Soruyorum, çünkü boyutsallık azaltma yaparken yüksek derecede ilişkili değişkenleri tutmanın ne kadar iyi bir fikir olduğunu anlamaya çalışıyorum. Bazen teoride iki değişkenin aynı gizli değişkenler tarafından yönlendirildiğini bildiğimizde, gizli değişkenin etkisini iki kere saymayacak şekilde değişkenlerden birini çıkarmalısınız. İlişkili değişkenleri tutmanın uygun olmadığını düşünmeye çalışıyorum.
Amatya
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.