Sırtı tahmin neden köşegene sabit ekleyerek OLS'tan daha iyi hale geliyor?


59

Ridge regresyon tahmininin, kalan kare miktarını ve büyüklüğünde bir cezayı en aza indiren olduğunu anlıyorumββ

βridge=(λID+XX)1Xy=argmin[RSS+λβ22]

Bununla birlikte, βridge 'in \ beta_ \ text {OLS}' dan farklı olduğunu, X 'X'in köşegenineβOLS sadece küçük bir sabit ekleyerek anlamını tam olarak anlamıyorumXX . Aslında,

βOLS=(XX)1Xy
  1. Kitabım bu rakamı sayısal olarak daha istikrarlı hale getirdiğini söylüyor - neden?

  2. Sayısal stabilite, sırtın 0 değerine doğru büzülmeyle ilişkili midir, yoksa bu sadece bir tesadüf mü?

Yanıtlar:


76

Sınırlandırılmamış bir regresyonda, sırt boyunca birçok farklı değerin en az kareler ölçütünde olduğu gibi ya da neredeyse aynı derecede yaptığı bir parametre * içinde sık sık bir sırt * elde edebilirsiniz.

* (en azından, olasılık fonksiyonunda bir çıkıntı - bunlar aslında RSS kriterinde $ vadiler , ancak bu konvansiyonel gibi göründüğü gibi, çıkıntı olarak adlandırmaya devam edeceğim - hatta Alexis'in işaret ettiği gibi) yorumlarda, valley bir sırtın karşılığı olarak, bir thalweg diyebilirim )

Parametre uzayında en küçük kareler kriterinde bir sırtın varlığında, sırt regresyonu ile elde ettiğiniz ceza, kriterleri menşeden uzaklaştırarak ölçütü yukarı çekerek bu sırtlardan kurtulur:

görüntü tanımını buraya girin
[ Daha net görüntü ]

İlk arsada parametre değerlerinde (sırt boyunca) büyük bir değişiklik RSS kriterinde küçük bir değişiklik meydana getirir. Bu sayısal kararsızlığa neden olabilir; Küçük değişikliklere karşı çok hassastır (örneğin, veri değerinde küçük bir değişiklik, hatta kesme veya yuvarlama hatası). Parametre tahminleri neredeyse kusursuz bir şekilde ilişkilidir. Çok büyük olan parametre tahminlerini alabilirsiniz.

Aksine, parametreler 0'dan uzak olduğunda, sırt regresyonunun en aza indirdiği şeyi ( cezası ekleyerek) en aza indirerek ( küçük bir yuvarlama veya kesme hatası gibi) koşullardaki küçük değişiklikler sonuçta büyük değişiklikler yapamaz. tahmin etmektedir. Ceza terimi, 0'a doğru büzülme ile sonuçlanır (bazı yanlılıklar ile sonuçlanır). Az miktarda önyargı, varyansta (bu çıkıntıyı ortadan kaldırarak) önemli bir gelişme sağlayabilir.L2

Tahminlerin belirsizliği azaltılmıştır (standart hatalar cezadan daha büyük olan ikinci türevle ters orantılıdır).

Parametre tahminlerindeki korelasyon azalır. Küçük parametreler için RSS çok daha kötü olmazsa, şimdi çok büyük olan parametre tahminlerini alamayacaksınız.


4
Bu cevap gerçekten büzülmeyi ve sayısal dengeyi anlamama yardımcı oluyor. Ancak, " küçük bir sabit " in bu iki şeyi nasıl konusunda hala belirsizim . XX
Heisenberg

4
Köşegene * bir sabit eklemek , RSS'ye merkezlenmiş dairesel bir paraboloit eklemekle aynıdır (yukarıda gösterilen sonuçla - sıfırdan "yukarı çeker" - çıkıntıyı ortadan kaldırır). * (mutlaka küçük olması gerekmez, nasıl baktığınıza ve ne kadar eklediğinize bağlı olarak değişir)0
Glen_b

6
Glen_b, aradığınız İngilizce dilinde "sırt" zengini (bir vadi tabanı boyunca bu yol / eğri) thalweg'dir . Hangi sadece iki hafta önce öğrendim ve sadece tapıyorum. Hatta değil ses İngilizce bir kelime gibi! : D
Alexis

5
@Alexis Bu şüphesiz kullanışlı bir kelime olacaktır, bu yüzden bunun için teşekkürler. Muhtemelen İngilizce gelmiyor çünkü Almanca bir kelimedir (aslında thal " Neandertal " = "Neander vadisi" ile aynıdır ve weg = 'yoldur'). [Olduğu gibi, ne demek istediğimi düşünemediğim için değil, "sırtı" istedim, ancak insanlar olasılık veya RSS'ye bakıp bakmadıklarını bir sırt gibi göründüğü için takip etmek isteğimi açıklıyordum. Kongre, garip gözükse bile. Thalweg sadece doğru kelime için mükemmel bir seçim olacaktır, garip
thalweg'i takip etmeseydim

4
X tam olarak bir sırt göründüğü zaman (ve dolayısıyla X'X neredeyse tekilleşir) bir matrise yaklaşmaz . Sırt sütunları arasında hemen hemen doğrusal bir ilişki doğrudan bir sonucudur yapar ler (hemen hemen) doğrusal olarak bağımlı. Xβ
Glen_b

28

Glen_b'nin illüstrasyonunda +1 ve Ridge tahmincisi ile ilgili istatistik yorumları. OPs 1 ve 2) sorularına cevap veren Ridge regresyonuna tamamen matematiksel (lineer cebir) bir pov eklemek istiyorum.

İlk not, bir simetrik pozitif yarı-yarı matris - , örnek kovaryans matrisinin çarpı olduğunu. Dolayısıyla öz-ayrışmaya sahiptirXXp×pn

XX=VDV,D=[d1dp],di0

Şimdi, matris inversiyonu özdeğerlerin inversiyonuna karşılık geldiğinden, OLS tahmincisi ( dikkat edin ). Açıkçası bu sadece tüm özdeğerlerin kesinlikle sıfırdan büyük olması durumunda işe yarar, . İçin bu imkansızdır; için bu vardı Biz genellikle ilgileniyoruz - bu genelde doğrudur multicollinearity .(XX)1=VD1VV=V1di>0pnnp

İstatistikçiler olarak, veriler küçük bozulmaların tahminleri nasıl değiştirdiğini bilmek istiyoruz . Herhangi bir küçük bir değişikliğin, eğer çok küçükse , büyük değişikliklere yol açtığı .Xdi1/didi

Öyleyse Ridge regresyonunun yaptığı, tüm özdeğerleri sıfırdan uzağa taşımaktır.

XX+λIp=VDV+λIp=VDV+λVV=V(D+λIp)V,
ki şimdi özdeğerleri . Bu nedenle pozitif bir ceza parametresi seçilmesi matrisi ters çevrilemez kılar - durumunda bile. Ridge regresyonu için, verilerindeki küçük bir değişiklik artık matris inversiyonu üzerindeki son derece dengesiz etkiye sahip değildir.di+λλ0pnX

Sayısal kararlılık, ikisi de özdeğerlere pozitif bir sabit eklenmesinin bir sonucu olduğu için sıfıra büzülme ile ilgilidir: küçük bir düzensizlik tersi çok fazla değiştirmez; terimi, ters özdeğerleri olan OLS çözümünden sıfıra daha yakın olan ile çarpıldığından beri kadar küçülür .X0V1Xy1/(di+λ)1/d


2
Bu cevaplar, sorumun cebir kısmını tatmin edici biçimde cevaplıyor! Glen_b cevabı ile birlikte, konunun tam bir açıklamasını yapar.
Heisenberg,

17

@ Glen_b'ın gösterisi harika. Ben sadece sorunun kesin nedenini ve ikinci dereceden cezalandırılmış regresyonun nasıl çalıştığını açıklamaktan başka bir şey ekleyemem, cezalandırmanın katsayıları sıfıra ayırma dışındaki katsayıları küçültmenin net etkisine sahip olduğunun alt satırında olduğunu söylemek isterim. Bu, numune büyüklüğü tahmini parametre sayısı ile ilgili olarak muazzam olmadığı zaman çoğu regresyon analizinde doğal olan aşırı uyum sorununa doğrudan bir çözüm sunar. İntikam almayanlar için sıfıra yönelik hemen hemen her ceza, cezalandırılmamış bir modelde öngörücü doğruluğu artıracaktır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.