Sırt regresyon çözümü nasıl türetilir?


40

Ridge regresyonu için çözümün türetilmesiyle ilgili bazı sorunlar yaşıyorum.

Regresyon çözümünü normalleştirme terimi olmadan biliyorum:

β=(XTX)1XTy.

λβ22

β=(XTX+λI)1XTy.

Yanıtlar:


23

Ceza ekleyerek kayıp fonksiyonunu değiştirmek yeterlidir. Matris terimlerinde, ilk ikinci dereceden kayıp işlevi (Y - X \ beta) ^ {T} (YX \ beta) + \ lambda \ beta ^ T \ beta olur. \

(YXβ)T(YXβ)+λβTβ.
Beta'ya göre türetmek , normalde X ^ {T} Y = \ left (X ^ {T} X + \ lambda I \ right) \ beta denklemine yol açar ve bu da Ridge tahmincisine yol açar.β
XTY=(XTX+λI)β

1
Türev gelip nasıl λβTβ eşittir etmek λIβ
user34790

4
@ user34790 Değil. 2 \ lambda \ beta değerine eşittir 2λβ. Ancak, diğer şartlarda benzer 2'li iptal edildi. Tabii ki, I faktörü "normal" cebirdeki 1 faktörü gibi, hiçbir şeyi değiştirmeden istediğiniz herhangi bir yerde çarpabilirsiniz.
Bill

4
@bill: burada ihtiyacım ilavesi ile çalışır, böylece doğru boyutun bir matris elde etmek : sadece bir sayıl olduğunuX T X λIXTXλ
Henry

47

Ne bildiğimizi temel alalım, ki bu, modeli matrisi , -vector yanıtının ve -vector parametresinin ise , amaç işlevidir.X n y p βn×pXnypβ

f(β)=(yXβ)(yXβ)

(artıkların karelerinin toplamıdır) Normal denklemleri çözdüğünde simge durumuna küçültülürβ

(XX)β=Xy.

Ridge regresyon objektif fonksiyona başka bir terim ekler (genellikle tüm değişkenleri ortak bir temele koymak için standartlaştırdıktan sonra), en aza indirgemeyi ister

(yXβ)(yXβ)+λββ

Bazı negatif olmayan sabitler için . Artıkların karelerinin toplamı artı katsayıların kendi karelerinin toplamının bir katıdır (küresel bir asgari düzeye sahip olduğunu açıkça gösterir). Çünkü , pozitif bir kare kökü var .λ 0λλ0ν2=λ

Matris düşünün satır tekabül ile artar kez kimlik matrisi :ν p × p IXνp×pI

X=(XνI)

vektörü , sonunda sıfırlarla e benzer şekilde uzatıldığında , amaç fonksiyonundaki matris ürünü, formunun ek terimlerini ekler. orijinal hedefe. bu nedenlep Y * p ( 0 - v ^ p i ) 2 = A, p 2 iypyp(0νβi)2=λβi2

(yXβ)(yXβ)=(yXβ)(yXβ)+λββ.

Soldaki ifade biçiminden, Normal denklemlerin olduğu hemen olur.

(XX)β=Xy.

Sıfırları sonuna getirdiğimiz için, sağ taraf aynıdır . Sol tarafta orijinal eklenir . Bu nedenle yeni Normal denklemler basitleştirmek içinX y ν 2 I = λ I X XyXyν2I=λIXX

(XX+λI)β=Xy.

Kavramsal olarak ekonomik olmanın yanı sıra - bu sonucu elde etmek için yeni manipülasyonlara gerek yoktur - bu aynı zamanda hesaplama açısından da ekonomiktir: sıradan en küçük kareleri yapma yazılımınız da herhangi bir değişiklik yapmadan sırt regresyonu yapar. (Bununla birlikte, bu amaç için tasarlanan yazılımı kullanmak büyük sorunlarda yardımcı olabilir, çünkü yoğun bir aralıktaki aralığında etkin bir şekilde sonuç elde etmek için özel yapısından faydalanır ve cevapların nasıl değiştiğini araştırmanızı sağlar ile ). λ λXλλ

Bir şeylere bu şekilde bakmanın bir başka güzelliği de sırt regresyonunu anlamamıza nasıl yardımcı olabileceğidir. Gerilemeyi gerçekten anlamak istediğimizde, neredeyse her zaman onu geometrik olarak düşünmeye yardımcı olur: sütunları vektörünün gerçek bir vektör uzayında vektörleri oluşturur . Bitişik olarak için bunları uzatan ve böylece, için -vectors -vectors biz Gömdüğünüz daha geniş bir alana içerecek "hayali", karşılıklı dik yönler. ilk sütunup , n ν I X , n , n + p R n R, n + p s x ν p s inci ν ν p ν 0XpnνIXnn+pRnRn+ppX boyutunda küçük bir hayali bileşen verilir , böylece onu uzatır ve orijinal sütunları tarafından oluşturulan alandan çıkarır . İkinci, üçüncü, ..., sütunları benzer şekilde uzatılır ve orijinal alandan aynı miktarda - ancak hepsi farklı yeni yönlerde taşınır . Sonuç olarak, orijinal sütunlarda bulunan herhangi bir eşliklilik derhal çözülecektir. Üstelik, büyüdükçe, bu yeni vektörler bireysel yaklaşırsaνppthννphayali yönler: gittikçe daha fazla ortonormal olurlar. Sonuç olarak, Normal denklemlerin çözümü derhal mümkün olacak ve dan arttıkça hızla sayısal olarak kararlı hale gelecektir .ν0

Sürecin bu açıklaması, Ridge Regression'ın ele almak için tasarlandığı sorunlara değinmek için bazı yeni ve yaratıcı yaklaşımlar önerdi . Örneğin, herhangi bir araç kullanılarak (örneğin onların 1980 kitabında Belsley, Kuh ve Welsch tarafından açıklanan varyans ayrışma olarak regresyon Diagnostics , Bölüm 3), sen neredeyse aynı doğrultudaki sütunların alt gruplarını tanımlamak mümkün olabilir , nerede her alt grup diğerine göre neredeyse diktir. Yalnızca birçok satır olarak bitişik ihtiyaç (ve sıfır uzakta onun kardeşleri bir grubun her bir elemanın yer değiştirmesiyle için yeni bir "hayali" boyutunu ithaf) büyük grupta unsur vardır gibidir: İhtiyacınız olmayan hayali Bunu yapmak için boyutları.X y pXXyp


2
Kitabın son yazarı, Galce değil Welsch'tir.
Mark L. Stone

1
Whoa, bu sadece fikrimi mahvetti. Bu, doğrusal modellerin dışında, yani glm'lerde genelleştirildiğinde ne olduğu hakkında herhangi bir tartışma var mı? Ceza, regresyon regresyonu ile aynı hizada olmamalıdır ... ama bu yorum hala potansiyel bir faydalı tahmin edici olacağı anlamına gelir!
Cliff AB

2
@Cliff Bu çok ilginç bir öneri. Bununla birlikte, GLM tahminleri daha karmaşık bir şekilde bağlı olduğundan ve tahmin edicileri genellikle OLS için olduğu gibi şeklinde gösterilemez (burada ve ), bir ceza işlevi uygulamak ve sütunlarını değiştirmek arasında faydalı bir ilişki kurmak zor olabilir . Özellikle, değerler ne kadar belirsiz bu işi yapmak için artar gerekecektir. X
β^=g(X)h(y)
g(X)=(XX)1Xh(y)=yXy
whuber

1
Evet, cezanın ne olduğunu tespit etmeye çalışmak biraz düşünürdü, ama bunun hakkında endişelenmiyorum. Hangi 'nın kullanılacağı fikri, iki ' ı ekleyebileceğimiz lojistik regresyon durumu dışında, genel olarak kolay değildir ; 0'lardan biri ve 1'lerden biri. Bu artırma, daha sonra "+2 binomial tahmincisi" nin daha genel bir versiyonudur (bu tahmin edicinin boş bıraktığı daha uygun bir isim var, bu temel olarak poster ortalamasını kullanarak binom dağılımından tahmin ederken ) 'den önceki üniforma ile yapılan tahmin . y ypp
Cliff AB

@Mark Düzeltme için teşekkürler. Bellekten gittiğimi söyleyebilirsin ... :-).
whuber

20

Türetme oldukça sıkıcı olabilen matris hesabı içerir. Şu sorunu çözmek istiyoruz:

minβ(YβTX)T(YβTX)+λβTβ

Şimdi ve Birlikte birinci dereceden koşula Yalıtım , çözümü sağlar:

(YβTX)T(YβTX)β=2XT(YβTX)
λβTββ=2λβ.
XTY=XTXβ+λβ.
β
β=(XTX+λI)1XTY.

9

Son zamanlarda P-Splines bağlamında aynı soruyu tökezledim ve kavram aynı olduğundan sırt tahmincisinin türetilmesi hakkında daha ayrıntılı bir cevap vermek istiyorum.

Klasik OLS kriter fonksiyonundan farklı bir ceza fonksiyonu ile başlıyoruz.

CriterionRidge=i=1n(yixiTβ)2+λj=1pβj2

nerede

  • p= Modelde kullanılan değişkenlerin miktarı
  • xiTβ= standart doğrusal tahminciniz
  • ilk zirve, her zamanki gibi en aza indirgemek istediğimiz MSE'ye (tahminin gerçek değerden kare sapması) cevap verir.
  • ikinci zirve, katsayılara uygulayacağımız cezaları temsil eder. Burada bir Öklidyen Uzaklık Ölçümü anlamına gelen Ridge bağlamındayız ve bu nedenle ceza verme süresinde 2 derecesini alıyoruz. Bir Kement-Cezalandırma durumunda, 1 derece uygular ve tamamen farklı bir tahminci veririz.

Bu kriteri matris notasyonunda tekrar yazabilir ve daha da bozabiliriz:

CriterionRidge=(yXβ)T(yXβ)+λβTβ

=yTyβTXTyyTXβ+βTxTXβ+λβTβ

=yTyβTXTyβTXTy+βTXTXβ+βTλIβ ile kimlik matrisiI

=yTy2βTXTy+βT(XTX+λI)β

Şimdi ölçütümüzü en aza indiren arıyoruz . Diğerlerinin yanı sıra bunu matris farklılaşma kuralı kullanan ki biz burada : βxTAxx=(A+AT)x=A symmetric2Ax(XTX+λI)Rn×n

CriterionRidgeβ=2XTy+2(XTX+λI)β=!0

(XTX+λI)β=XTy

et voilàβ^=(XTX+λI)1XTy


@Jahn, nasıl açıklayabilir misiniz oldu ? Sanırım sadece devrik uyguladın, değil mi? Ancak, transpozisyonu tüm denklemlere uygulamadan sadece bir terime uygulayamazsınız. Burada ne özlüyorum? β T X T y
yTXβ
βTXTy
tiyatro uzmanı

1
@theateist A aktarılan skalar aynı skalerdir.
Konstantin,

2

Verilen cevaplarda eksik olan birkaç önemli şey var.

  1. çözümü , birinci dereceden gerekli koşuldan kaynaklanır: ; . Ama bu yeterli mi? Başka bir deyişle, çözüm yalnızca kesinlikle dışbükeyse genel bir minimumdur . Bunun doğru olduğu gösterilebilir.βfridge(β,λ)β=0β=(XTX+λI)1XTYfridge(β,λ)

  2. Soruna bakmanın başka bir yolu, ve arasındaki kısıtlanmış için . OLS, Sıradan En Küçük Kareler anlamına gelir. Bu açıdan , dışbükey amaç işlevi dışbükey işlev işlevinin genel bulmak için kullanılan .fridge(β,λ)fOLS(β)=(YβTX)T(YβTX)||β||22tfridge(β,λ)fOLS(β)||β||22

Bu noktaların iyi bir açıklaması ve türetilmesi bu ince ders notlarında bulunabilir: http://math.bu.edu/people/cgineste/classes/ma575/p/w14_1.pdfβ

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.