En önemli ana bileşenler, bağımlı değişken üzerindeki tahmin gücünü nasıl koruyabilir (hatta daha iyi tahminlere yol açabilir)?


25

Diyelim ki bir regresyon . Neden üst seçerek ilkesi bileşenleri , model üzerindeki öngörü gücünü korumak mu ?YXkXY

Ben boyutluluk-azaltma / görüş özellikli seçme noktasında, eğer gelen anlıyoruz kovaryans matrisinin öz vektörleri olduğundan üst ile özdeğerler, ardından üst olan ana bileşenler maksimum varyans ile. Böylece, özelliklerin sayısını azaltabilir ve tahmin ettiğim gibi tahmin gücünün çoğunu koruyabiliriz.v1,v2,...vkXkXv1,Xv2...Xvkkk

Peki, neden üst bileşenleri üzerindeki öngörülen gücünü koruyor ?kY

Genel bir OLS , özelliği maksimum varyansa , üzerindeki en iyi tahmin gücüne sahip olduğunu önermek için hiçbir neden yoktur .YZZiZiY

Yorumları gördükten sonra güncelleme: Sanırım boyutsallığın azaltılması için PCA kullanmanın tonlarca örneğini gördüm. Bunun, geride bıraktığımız boyutların en tahmine dayalı güce sahip olduğu anlamına geldiğini farz ediyorum. Aksi taktirde boyutsallık azaltma noktası nedir?


3
Haklısınız: en üst PC'lerinin tahmin gücüne sahip olduğunu varsaymak için matematiksel bir sebep yoktur - tıpkı herhangi bir ortak değişken grubunun belirli bir herhangi bir ilişkisi olduğunu varsaymak için genellikle matematiksel bir neden olmadığı gibi . Görünüşe göre karşılaştığınız bazı ifadelere değiniyorsunuz: tam olarak ne diyor ve kim söyledi? KXXY
whuber

@whuber Boyut küçültme için PCA kullanmanın tonlarca örneğini sanırım. Bunun, geride bıraktığımız boyutların en öngörücü güçlere sahip olduğu anlamına geldiğini farz ediyorum. Aksi halde boyut küçültme noktası bu mu?
Vendetta

Yanıtlar:


43

Gerçekten de, en önemli ana bileşenlerin (PC'ler) düşük değişkenli olanlardan daha fazla tahmin edici güce sahip olmalarının garantisi yoktur.

Durumun olmadığı yerde gerçek dünyadan örnekler bulunabilir ve örneğin en küçük PC'nin ile hiçbir ilişkisi olmadığı yapay bir örnek oluşturmak kolaydır .y

Bu konu forumumuzda çokça tartışıldı ve net bir kanonik ipliğin (talihsiz) bir yokluğunda, sadece birlikte suni örnekler olarak çeşitli gerçek yaşam sağlayan birkaç bağlantı verebilirim:

Ve aynı konu, ancak sınıflandırma bağlamında:


Ancak uygulamada, üst PC'ler genellikle do genellikle tüm PC'leri kullanarak daha iyi tahmin gücünü verebilmesidir sadece üst PC'leri kullanarak, dahası daha öngörü düşük varyans olanlardan daha güç ve var.

pnpnp>n

yX

Hakkında bazı tartışmalar için @cbeleites daha sonra cevap (1) Bkz neden bu varsayım genellikle garanti edilir (ve ayrıca bu yeni iplik: ? Boyut indirgeme sınıflandırma için hemen hemen her zaman yararlı mı bazı başka yorumlar için).

Hastie ve diğ. içinde İstatistiksel Öğrenme Elements (bölüm 3.4.1) mahya gerileme bağlamında bu konuda açıklama:

X

Ayrıntılar için aşağıdaki konulardaki cevaplarıma bakınız:


Alt çizgi

Yüksek boyutlu problemler için, PCA ile ön işleme (boyutsallığın azaltılması ve sadece üst PC'lerin tutulması anlamına gelir) bir düzenlileştirme yöntemi olarak görülebilir ve genellikle herhangi bir sonraki analizin sonuçlarını, bir regresyon veya sınıflandırma yöntemi olarak geliştirir. Ancak bunun işe yarayacağının garantisi yoktur ve çoğu zaman daha iyi düzenleme yaklaşımları vardır.


Cevabınızdaki referansları topladığınız için teşekkür ederiz. İşte son bir tane daha . Daha fazla bağlantı içeren bir cevap var.
ttnphns

Teşekkürler, @ttnphns! Bu gönderiyi görmedim, çünkü [pca] etiketi yoktu (sadece bir kaç özel etiketi yakından takip ediyorum). Aslına bakarsanız, 5-10 yakından ilgili konuların gevşek bir koleksiyonu olduğundan, hiçbir soru ve cevabın gerçekten mükemmel olmasından ve aralarında gerçek kopyalar olmadığından mutsuzum. Gelecekteki referanslar için kullanılabilecek bir kanonik iş parçacığı olmasını tercih ederdim ...
amip Reinstate Monica

Bu soruya etiketi ekledim. Bu ilginç konuyla ilgili "mükemmel" ansiklopedik cevap yazarı bekliyor. :-) Bir olmaya karar verebilirsiniz.
ttnphns

Ayrıca ilgili: OneStop cevabı için stats.stackexchange.com/questions/3561/...
Halvorsen Kjetil b

11

Zaten matematiksel özelliklere odaklanan cevaplara ek olarak, deneysel bir bakış açısıyla yorum yapmak istiyorum.

Özet: veri oluşturma süreçleri genellikle verileri temel bileşen (PCR) veya kısmi en küçük kareler (PLS) regresyonu için uygun kılacak şekilde optimize edilir.


Ben analitik kimyacıyım. Bir şeyi ölçmek (regresyon veya sınıflandırma) için bir deney / yöntem tasarlarken, eldeki göreve göre gürültü / gürültü oranına iyi bir sinyal taşıyan veriler elde etmek için uygulama ve mevcut araçlar hakkındaki bilgimi kullanırım. Bu, ürettiğim verilerin ilgilenilen özelliğe sahip büyük kovaryansa sahip olacak şekilde tasarlandığı anlamına geliyor.
Bu, ilginç varyansın büyük olduğu ve daha sonraki bilgisayarların yalnızca (küçük) gürültüyü taşıyacağı bir varyans yapısına yol açar.

Daha sağlam veya daha kesin sonuçlar elde etmek için eldeki görev hakkında gereksiz bilgiler veren yöntemleri de tercih ederim. PCA yedekli ölçüm kanallarını bir PC'de toplar, bu da daha sonra çok değişkenlik gösterir ve bu nedenle ilk bilgisayarlardan biridir.

İlgilenilen mülk ile ilişkili olmayan büyük varyansa neden olacak bilinen karmakarışıklıklar varsa, verilerin önişlemesi sırasında genellikle bunları mümkün olduğunca düzeltmeye çalışacağım: çoğu durumda bu karmakarışıklıklar bilinen bir konudur. fiziksel veya kimyasal nitelikte olup, bu bilgi karıştırıcıları düzeltmek için uygun yollar önerir. Örneğin, mikroskop altında Raman spektrumunu ölçtüm. Yoğunluğu, lazer ışığının yoğunluğuna ve ayrıca mikroskobu ne kadar iyi odaklayabileceğime bağlıdır. Her ikisi de, örneğin sabit olduğu bilinen bir sinyale normalleştirilerek düzeltilebilecek değişikliklere yol açar.
Bu nedenle, çözüme katkıda bulunmayan büyük varyans katkıda bulunanlar, veriler PCA'ya girmeden önce ortadan kaldırılmış ve ilk PC'lerde çoğunlukla anlamlı farklar bırakmıştır.


Son fakat en az değil, burada bir miktar kendi kendine yeten kehanet var: Açıkçası, varyans taşıyan bilginin büyük olduğu varsayımının anlamlı olduğu varsayımına göre veriler PCR ile yapıldı. Örneğin, nasıl düzelteceğimi bilmediğim önemli kargaşaların olabileceğini düşünürsem, derhal tahmin görevine yardımcı olmayan büyük katkıları görmezden gelmekte olan PLS'ye giderdim.


+1. Bu, tartışmaya katıldığınız için teşekkür ederiz.
amip diyor Reinstate Monica

@ amoeba: tür sözler için teşekkürler. Her zaman olduğu gibi, cevabınız da çok ayrıntılı. Aslında ben senin [pca] ile ilgilendiğine güveniyorum!
cbeleites, Monica

6

PCA bazen ortak değişkenlerin neden olduğu sorunları düzeltmek için kullanılır, böylece X uzayındaki değişimin çoğu K ana bileşenleri tarafından yakalanır.

Fakat bu matematik problemi elbette, hem X, hem de Y uzayındaki varyasyonların çoğunu, açıklanamayan varyasyonun mümkün olduğu kadar küçük olacağı şekilde yakalamakla aynı değildir.

Kısmi en küçük kareler, ikinci anlamda bunu yapmaya çalışır:

http://en.wikipedia.org/wiki/Partial_least_squares_regression


3

Diğerlerinin de belirttiği gibi, en iyi özvektörler ile öngörü gücü arasında doğrudan bir bağlantı yoktur. Üstü seçerek ve onları temel olarak kullanarak, bazı üst enerjileri (veya bu eksen boyunca değişen) koruyorsunuz.

En fazla varyansı açıklayan eksenin tahmin için gerçekten yararlı olduğu söylenebilir, ancak genel olarak durum böyle değil.


Genel olarak derken, genel olarak pratikte mi yoksa genel olarak teoride mi demek istiyorsunuz?
amip diyor Reinstate Monica

@ amoeba Genel olarak, verileri en üst k maksimum varyans ekseni üzerine yansıtmanın yordayıcı / ayırt edici olmadığı bir veri kümesi oluşturmak kolaydır.
Vladislavs Dovgalecs

-1

Bir basit açıklama sunmama izin verin.

PCA, bazı özellikleri sezgisel olarak kaldırmakla ilgilidir. Bu aşırı takılma şansını azaltır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.