Sırt regresyonuna neden “sırt” denir, neden ihtiyaç duyulur ve


71

Ridge regresyon katsayısı tahmin β R minimize değerlerdirβ^R,

RSS+λΣj=1pβj2.

Benim sorularım:

  1. Eğer λ=0 , o zaman ifade yukarıda zamanki RSS azalttığını görüyoruz. Ya λ ? Ders kitabındaki katsayıların davranışlarının açıklanmasını anlamıyorum.

  2. Belirli bir terimin arkasındaki kavramı anlamada yardımcı olmak için neden RIDGE Regression diye adlandırılıyor? (Neden sırt?) Ve genel / ortak regresyonda, sırt regresyonu adı verilen yeni bir konsept ortaya koyma gereğinin ne olduğu yanlış olabilirdi?

Görüşlerin harika olurdu.

Yanıtlar:


89

Eğer sormak yana anlayışlar , ben daha matematiksel çivinin yerine oldukça sezgisel bir yaklaşım almaya gidiyorum:

  1. Cevabım kavramları ardından burada , biz ekleyerek kukla verilerle bir gerileme gibi bir sırt regresyon formüle edebilirsiniz p (sizin formülasyonda) gözlemleri, nerede yn+j=0 , xj,n+j=λ vexben,n+j=0içinbenj. Bu genişletilmiş veri seti için yeni RSS yazarsanız, her biri formun bir terimini eklediği ek gözlemleri görürsünüz(0-λβj)2=λβj2 , yani yeni RSS orijinalRSS+λΣj=1pβj2 - ve RSS'in bu yeni, genişletilmiş veri setinde en aza indirilmesi, sırt regresyonunun en aza indirilmesiyle aynıdır. ölçütü.

    Peki burada ne görebiliriz? Olarak λ arttıkça, ilave x her arttıran bir adet yapısal parça -rows ve bu yüzden, bu nokta etkisi de artar. Takılan hiper düzlemi kendilerine doğru çekiyorlar. Sonra da λ ve karşılık gelen bileşenleri x 'in sonsuza çıkmak, tüm ilgili katsayılar için 'doğrulmak' 0 .

    Yani, λ , ceza minimizasyona hükmeder, böylece β sıfıra gidecektir. Eğer engelleme cezalandırılmazsa (olağan dava), model cevap ortalamasına doğru gittikçe küçülür.

  2. Neden önce sırtlardan bahsettiğimizi (bu da neden gerekli olduğunu gösterir), sonra da biraz tarihçeyle uğraştığımızı sezgisel bir şekilde anlatacağım. Birincisi, buradaki cevabımdan uyarlanmıştır :

    Eşdüzlemlilik varsa, siz (olabilirlik bir işlevidir olabilirlik fonksiyonu bir "mahya" olsun β 'ler). Bu da RSS'de uzun bir "vadi" verir (RSS = -2kütükL beri ).

    Ridge regresyon sırtını "düzeltir" - sırtını olasılık uzayında güzel bir zirveye dönüştüren bir ceza ekler, eşdeğerde en aza indirdiğimiz ölçütte aynı derecede güzel bir depresyon olur:

    LS'deki çıkıntı, sırttaki regresyonda zirveye dönüşür
    [ Daha net görüntü ]

    İsmin arkasındaki asıl hikaye biraz daha karmaşık. 1959'da AE Hoerl [1] , tepki yüzeyi metodolojisi için sırt analizi yaptı ve çok yakında [2], regresyonda çoklu bağlanma ile başa çıkmak için adapte oldu ('sırt regresyon'). Örneğin, [3] 'te RW Hoerl’in tartışmasına, burada Hoerl’in (AE, RW değil) yanıt yüzeyinde * kontur çizgilerinin * kullanımını, yerel optima'yı nerede bulacağınızı (nerede birisinin nereye götürdüğünü) tanımladığını açıklar. çıkıntı'). Kötü şartlarda, çok uzun bir sırt sorunu ortaya çıkmakta ve sırt analizinden elde edilen içgörü ve metodoloji regresyondaki / RSS regresyonunu oluşturan regresyon ile ilgili konuya uyarlanmaktadır.

* Yanıt yüzeyi kontur parsellerinin örnekleri (kuadratik cevap durumunda) burada görülebilir (Şekil 3.9-3.12).

Yani, "çıkıntı" aslında XTX matrisine bir "çıkıntı" (+ ve çapraz) eklemek yerine, optimize etmeye çalıştığımız fonksiyonun özelliklerini ifade eder (yani, regresyon köşegen köşegen eklerken, bu yüzden 'ridge' regresyon diyoruz.

Sırt regresyonu ihtiyacı ile ilgili bazı ek bilgiler için yukarıdaki liste 2'deki ilk bağlantıya bakınız.


Referanslar:

[1]: Hoerl, AE (1959). Çok değişkenli denklemlerin optimum çözümü. Kimya Mühendisliği İlerlemesi , 55 (11) 69-78.

[2]: Hoerl, AE (1962). Sırt analizinin regresyon problemlerine uygulamaları. Kimya Mühendisliği İlerlemesi , 58 (3) 54-59.

[3] Hoerl, RW (1985). Ridge Analizi 25 Yıl Sonra. Amerikan İstatistiği , 39 (3), 186-192


2
Bu son derece yararlıdır. Evet, içgörü isterken sezgiyi arıyordum. Elbette matematik önemlidir, ama aynı zamanda kavramsal açıklamalar da arıyordum, çünkü matematiğin hemen ötesinde olduğu bazı bölümler var. Tekrar teşekkürler.
15'te cgo

Neden madde 1'de "ağırlıklı" kelimesi var?
amip

1
Güzel bir soru; Orijinal gerileme ağırlıklanmadıkça ağırlıklandırılmasına gerek yoktur. Sıfat kaldırdım. O var da (zaten çok az daha kolay başa olabilir ağırlıklı regresyon yapıyorsanız) ağırlıklı regresyon olarak yazmak mümkün.
Glen_b

36
  1. Eğer ceza süremiz β = 0 dışındaki herhangi bir β için sonsuz olacaktır , yani alacağımız budur. Bize nesnel fonksiyonun sınırlı bir değerini verecek başka bir vektör yoktur.λββ=0

(Güncelleme:. Bu Glen_b en cevaba bakınız değil doğru tarihsel nedeni!)

  1. β^=(XTX+λben)-1XTY.
    λben

n<p

β

ββ~N-(0,σ2λbenp)(Y|X,β)~N-(Xβ,σ2benn)

π(β|y)απ(β)f(y|β)

α1(σ2/λ)p/2tecrübe(-λ2σ2βTβ)x1(σ2)n/2tecrübe(-12σ2||y-Xβ||2)

αtecrübe(-λ2σ2βTβ-12σ2||y-Xβ||2).

Posterior modu bulalım (posterior ortalamasına veya başka şeylere de bakabiliriz ama bunun için moda bakalım, yani en muhtemel değer). Bu, istediğimiz anlamına gelir.

maksimumβR,p tecrübe(-λ2σ2βTβ-12σ2||y-Xβ||2)

maksimumβR,p -λ2σ2βTβ-12σ2||y-Xβ||2
kütük
minβR,p||y-Xβ||2+λβTβ

Bu oldukça tanıdık gelmeli.

Böylece ortalama 0 ve varyansı olan normal bir öncekini görürüz.σ2λββσ2

n<pR,ppn=p||y-Xβ^||2=0n<p: Artık bu noktalarla tanımlanan benzersiz bir hiper düzlem yok. Her biri artık toplam karelerden oluşan çok sayıda hiper plana sığabiliriz.

n=p=2n=2p=3

L1βj=0βnL1L2


1
(+1) Cevabınız Bayesian ve ridge regresyonu arasındaki bağlantıya odaklanarak geliştirilebilir.
Sycorax

1
Yapacak - şimdi yazarak.
jld

4
n<p

2
@cgo: user777'nin araştırması ve araması önerisi güzel bir şey, ama tamam olması adına (umarım) sezgisel bir açıklama da ekledim.
jld

5
+1, iyi cevap. Yine, LASSO'nun tipik olarak bu durumda kullanıldığını ve RR ile yakından ilişkili olduğunu söyleyebilirsiniz.
gung
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.