Sırt regresyonu ve PCA regresyonu arasındaki ilişki


19

Web'de bir yerde sırt regresyonu ( düzenlenmesi ile) ve PCA regresyonu arasında bir bağlantı okuduğumu hatırlıyorum : hiperparametre ile düzenli regresyon kullanırken , , regresyon, En küçük özdeğerli PC değişkeni.2 λ λ 022λλ0

  • Bu neden doğru?
  • Bunun optimizasyon prosedürüyle ilgisi var mı? Saf bir şekilde, bunun OLS ile eşdeğer olmasını beklerdim.
  • Bunun için referansı olan var mı?

1
İfadenizde PCA ve regresyonun nasıl bağlantılı olduğunu daha açık bir şekilde açıklayabilir misiniz? Regresyon bağımsız değişkenlerden bağımsız olarak ayrılırken, PCA'da bu tür hiçbir şey meydana gelmez. Peki PCA'yı hangi değişkenlere uyguluyorsunuz? Bu sadece bağımsız değişkenler olamaz, çünkü bunun regresyonla pek ilgisi yoktur. Ancak tüm değişkenlere uygulanırsa, özvektörler hepsinin doğrusal kombinasyonlarıdır. Muhtemelen kaldırmak için ne anlama gelebilir herhangi bağımlı değişkeni içerdiğinden, veri kümesi böyle bileşeni?
whuber

1
Bağlantı (anladığım kadarıyla), eğer çok çok küçük bir düzenlenme cezası kullanırsanız, L2 düzenli bir regresyon en küçük özdeğer değerine sahip olan değişkeni kaldıracaktır. Bu nedenle, tasarım matrisinde SVD yapmak ve değişkeni en küçük özdeğerle kaldırmak, "yumuşak" bir düzenlenme cezası olan bir gerilemeye denktir ... Bu, bulduğum en yakın açıklamadır: sites.stat.psu. edu / ~ jiali / course / stat597e / notes2 / lreg.pdf
Jose G

3
Referansınız yorumlarınızda söylediklerinizin tam tersini gösteriyor gibi görünüyor: küçük λ , sonuçlarda çok az değişiklik var. Hiçbir şey kaldırılmaz. Aslında birkaç slaytlar arasındaki farkı işaret amaçlayan görünüyor L2 (tahminler doğru çekmiş edildiği cezalandırılmış regresyon 0 en küçük bileşenleri tamamen kaldırılmasını edildiği) ve "PCA regresyon" (- çok kötü bir şey olabilir ki bazı durumlar).
whuber

2
Mmm .. başka bir referans buldu: statweb.stanford.edu/~owen/courses/305/Rudyregularization.pdf " ve temel bileşenler" slaytta, sırt regresyonunun bu bileşenlere y büyük dj * iç çekiş *yridge
Jose G

3
Bunu fark ettiniz mi s. Bu son referansın 14'ü sorunuzu açıkça cevaplıyor mu?
whuber

Yanıtlar:


23

ortalanmış n × p prediktör matrisi olmasına izin verin ve onun tekil değer ayrışmasını düşünün X = U S V , S diyagonal elemanlara sahip diyagonal bir matris s i .XnxpX=USVSsben

En küçük kareler edilen değeri (OLS) regresyon ile verilir Y O L S = X β O L S = X ( XX ) - 1 xy = U , Uy . Sırt regresyon edilen değeri ile verilir y r ı d g E = X β r ı d g E = X ( XX

y^ÖLS=XβÖLS=X(XX)-1Xy=UUy.
PCA regresyon (PCR) ile donatılmış değerlerikbileşenleri tarafından verilmiştir Y PR=XPBirβpR=u
y^rbendge=Xβrbendge=X(XX+λben)-1Xy=Udbenbirg{sben2sben2+λ}Uy.
k burada k olanlar ve ardından sıfır gelir.
y^PCR,=XPCbirβPCR,=Udbenbirg{1,...,1,0,...0}Uy,
k

Buradan şunu görebiliriz:

  1. Eğer sonra y r ı d g E = Y O L S .λ=0y^rbendge=y^ÖLS

  2. λ>0sbensben2λ

  3. kλ=0kλ=

  4. Bu, sırt regresyonunun PCR'nin "yumuşak bir versiyonu" olarak görülebileceği anlamına gelir.

    sbenX

  5. Ridge regresyon pratikte daha iyi performans gösterme eğilimindedir (örn. Daha yüksek çapraz onaylanmış performansa sahip olmak).

  6. λ0y^rbendgey^ÖLSsben

İyi bir referans, İstatistiksel Öğrenmenin Unsurları , Bölüm 3.4.1 "Ridge regresyonu" dur.


Ayrıca şu konuya da bakınız: Regresyonda sırt düzenlenmesi ve özellikle @BrianBorchers'ın cevabı.


sben-βLebirst-squbirres

k
Udiag(11,12,...,1k,0,...,0)UTy

Bu güzel.
xxx222

6

İstatistiksel Öğrenmenin Unsurları bu bağlantı üzerinde büyük bir tartışmaya sahiptir.

Bu bağlantıyı ve mantığı yorumlama şeklim şu şekildedir:

  • PCA, yeni alan tarafından açıklanan verilerin varyansını en üst düzeye çıkarmaya çalışan Özellik Değişkenlerinin Doğrusal Birleşimidir.
  • Çoklu doğrusallıktan (veya veri satırlarından daha fazla yordayıcıdan) muzdarip olan veriler, tam Sıralamaya sahip olmayan bir Kovaryans Matrisine yol açar.
  • Bu Kovaryans Matrisi ile En Küçük Kareler çözümünü belirlemek için tersine çeviremeyiz; Bu, En Küçük Kareler Katsayılarının sayısal yaklaşımının sonsuza kadar üflenmesine neden olur.
  • Ridge Regresyon, LS Katsayılarının matrisin tersine çevrilmesi ve yakınsamasına izin vermek için Kovaryans Matrisi üzerindeki Lambda cezasını verir.

PCA bağlantısı, Ridge Regresyonunun çoklu bağlantının nerede meydana geldiğini belirlemek için Özelliklerin Doğrusal Kombinasyonlarını hesaplamasıdır. En küçük varyansa (ve dolayısıyla daha küçük tekil değerler ve PCA'da daha küçük özdeğerler) sahip Doğrusal Özellik Kombinasyonları (Prensip Bileşen Analizi) en zor cezalandırılanlardır.

Bu şekilde düşün; En küçük varyansı olan Özelliklerin Doğrusal Kombinasyonları için, en çok benzer olan Özellikleri bulduk, bu nedenle çoklu bağlantıya neden olduk. Ridge Özellik kümesini azaltmadığından, bu Doğrusal Kombinasyon hangi yönden bahsediyorsa, o yöne karşılık gelen orijinal Özellik en çok cezalandırılır.


2

doğrusal denklemini düşünün

Xβ=y,
X
X=USVT,
S=diag(sben)

β

βÖLS=VS-1UT
sben

S-1β

Sçıkıntı-1=diag(sbensben2+α),βçıkıntı= VSçıkıntı-1UT

PCA yerine S-1 tarafından

SPCA-1=diag(1sbenθ(sben-γ)),βPCA= VSPCA-1UT
wehre θ adım işlevidir ve γ eşik parametresidir.

Böylece her iki yöntem de küçük değerlere karşılık gelen alt uzayların etkisini zayıflatır. PCA bunu zor bir şekilde yaparken, sırt daha pürüzsüz bir yaklaşımdır.

Daha soyut olarak, kendi düzenlendirme planınızı bulmaktan çekinmeyin

SmyReg-1=diag(R,(sben)),
nerede R,(x) için sıfıra yaklaşması gereken bir işlevdir x0 ve R,(x)x-1 için xbüyük. Ama unutma, bedava öğle yemeği yok.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.