ortalanmış n × p prediktör matrisi olmasına izin verin ve onun tekil değer ayrışmasını düşünün X = U S V ⊤ , S diyagonal elemanlara sahip diyagonal bir matris s i .Xn × pX = U S V⊤Ssben
En küçük kareler edilen değeri (OLS) regresyon ile verilir Y O L S = X β O L S = X ( X ⊤ X ) - 1 x ⊤ y = U , U ⊤ y . Sırt regresyon edilen değeri ile verilir y r ı d g E = X β r ı d g E = X ( X ⊤ X
y^O L S= X βO L S= X ( X⊤X )- 1X⊤y = U U⊤y .
PCA regresyon (PCR) ile donatılmış değerleri
kbileşenleri tarafından verilmiştir
Y PCıR=XPCıBirβpCıR=uy^r i d g e= X βr i d g e= X ( X⊤X +λ I )- 1X⊤y = Ud i a g { s2bens2ben+ λ} U⊤y .
k burada
k olanlar ve ardından sıfır gelir.
y^P C R= XP C AβP C R= Ud i a g { 1 , … , 1 , 0 , … 0 } U⊤y ,
k
Buradan şunu görebiliriz:
Eğer sonra y r ı d g E = Y O L S .λ = 0y^r i d g e= y^O L S
λ > 0sbens2ben≈ λ
kλ = 0kλ = ∞
Bu, sırt regresyonunun PCR'nin "yumuşak bir versiyonu" olarak görülebileceği anlamına gelir.
sbenX
Ridge regresyon pratikte daha iyi performans gösterme eğilimindedir (örn. Daha yüksek çapraz onaylanmış performansa sahip olmak).
λ → 0y^r i d g e→ y^O L Ssben
İyi bir referans, İstatistiksel Öğrenmenin Unsurları , Bölüm 3.4.1 "Ridge regresyonu" dur.
Ayrıca şu konuya da bakınız: Regresyonda sırt düzenlenmesi ve özellikle @BrianBorchers'ın cevabı.