Sırt regresyonunda “matris inversiyonunun sayısal kararlılığı” için açıklayıcı açıklama ve fazlalığı azaltmada rolü


10

En küçük kareler regresyon probleminde düzenlemeyi uygulayabileceğimizi anlıyorum.

w=argminw[(yXw)T(yXw)+λw2]

ve bu sorunun şu şekilde kapalı bir çözümü olduğunu:

w^=(XTX+λI)1XTy.

2. denklemde, düzenlileştirmenin, matris tersinin sayısal kararlılığını geliştirmek için yapılan \ boldsymbol {X} ^ T \ boldsymbol {X} ' un köşegenine \ lambda eklediğini görüyoruz .λXTX

Şu andaki 'kaba' sayısal kararlılık anlayışım, bir işlev daha 'sayısal olarak kararlı' hale gelirse, çıktısının girdilerindeki gürültüden daha az etkileneceği yönündedir. Bu geliştirilmiş sayısal kararlılık kavramını, aşırı sığdırma sorununu nasıl önlediğini / azalttığını gösteren daha büyük resimle ilişkilendirmekte zorlanıyorum.

Wikipedia'ya ve diğer birkaç üniversite web sitesine bakmayı denedim , ancak bunun neden böyle olduğunu açıklamak için derinlemesine ilerlemiyorlar.


Ridge regresyonu akla geliyor. bağlantı
EngrStudent

1
Sen bazı değer bulabilir (çoğunlukla betimleyici / sezgisel cebirsel ziyade) en tartışma Why mahya tahmini diyagonal bir sabit ekleyerek daha iyi OLS daha dönüşür?
Glen_b

Yanıtlar:


2

Doğrusal modelde , ortalama sıfır ve tam sütun sıralamasına sahip ilişkisiz hatalar varsayarak , en küçük kareler tahmincisi parametre için tarafsız bir tahmin edicidir . Bununla birlikte, bu tahminci yüksek değişkenliğe sahip olabilir. Örneğin, iki sütunu birbiriyle oldukça ilişkili olduğunda.Y=Xβ+ϵX(XTX)1XTYβX

ceza parametresi , yanlı bir tahmincisi yapar , ancak varyansını azaltır. Ayrıca, posterior beklentisi olan bir ile Bayesian regresyon ilişkin geçmiş . Bu anlamda, bileşenlerinin sıfırdan çok uzak olmaması gerektiğini söyleyen analize bazı bilgiler ekliyoruz. Yine, bu bizi yanlı bir nokta tahminine götürür ancak tahminin varyansını azaltır.λw^βw^βN(0,1λI)βββ

yüksek boyutlu, örneğin ayarlandığı bir ortamda , en küçük kareler sığacak verilerle neredeyse mükemmel şekilde eşleşecektir. Tarafsız olmasına rağmen, bu tahmin verilerdeki dalgalanmalara karşı oldukça hassas olacaktır, çünkü bu kadar yüksek boyutlarda, yüksek kaldıraçlı birçok nokta olacaktır. Bu gibi durumlarda nın bazı bileşenlerinin işareti tek bir gözlemle belirlenebilir. Ceza süresi, bu tahminleri sıfıra doğru küçültme etkisine sahiptir, bu da varyansı azaltarak tahmin edenin MSE'sini azaltabilir.XNpβ^

Düzenleme: İlk cevabımda ilgili bir makaleye link verdim ve acelemde onu kaldırdım. İşte: http://www.jarad.me/stat615/papers/Ridge_Regression_in_Practice.pdf


1
Mevcut haliyle bu daha çok bir yorumdur; sizce bunu önemli bir cevaba dönüştürebiliyor musunuz?
Silverfish

P'nin alt kısmı. 5 sağ / üst s. Şekil 3 ile ilgili olarak kalan 6, bu gönderide sorulan soru için anahtar tartışmayı içermektedir.
Mark L. Stone

Bu doğru, ama OP'nin sorusuna cevap verdiğinden emin değilim.
amoeba

amip, daha sonra Eric Mittman'ın cevabı olan jarad.me/stat615/papers/Ridge_Regression_in_Practice.pdf adresinden çıkarılan bağlantıya atıfta bulunan yukarıdaki yorumuma bakın .
Mark L. Stone

1

Sayısal kararlılık ve aşırı uyum bir anlamda ilişkili ancak farklı konulardır.

Klasik OLS sorunu:

Klasik en küçük kareler sorununu düşünün:

minimize(over b)(yXb)T(yXb)

Çözüm klasik . Bir fikir, çok sayıda yasa ile:b^=(XX)1(Xy)

limn1nXXE[xx]limn1nXyE[xy]

Bu nedenle OLS tahmini ayrıca . (Doğrusal cebir terimleriyle, bu, rasgele değişken rasgele değişkenlerinin doğrusal açıklığına doğrusal projeksiyonudur .)b^E[xx]1E[xy]yx1,x2,,xk

Sorunlar?

Mekanik olarak ne yanlış gidebilir? Olası sorunlar nelerdir?

  1. Küçük örnekler için ve örnek tahminlerimiz zayıf olabilir.E[xx]E[xy]
  2. sütunları eşdoğrusalsa (doğal eşdoğrusallık veya küçük örneklem büyüklüğü nedeniyle), sorunun sürekli bir çözümü olacaktır! Çözüm benzersiz olmayabilir. X
    • Bu, sıralama eksikse oluşur.E[xx]
    • Bu aynı zamanda, sorunlarının sayısına göre küçük örneklem büyüklüğü nedeniyle sıralama eksikliği varsa da oluşur .XX

tahmini , temel popülasyonda bulunmayan örneklemdeki kalıpları yansıtmaya başladığında , problem (1) aşırı sığmaya neden olabilir . Bu tahmin ve de veb^1nXX1nXyE[xx]E[xy]

Sorun (2), bir çözümün benzersiz olmadığı anlamına gelir. Bireysel ayakkabıların fiyatını tahmin etmeye çalıştığımızı düşünün, ancak ayakkabı çiftleri her zaman birlikte satılıyor. Bu kötü bir sorun, ama diyelim ki yine de yapıyoruz. Sol ayakkabı fiyatının artı doğru ayakkabı fiyatının 50 $ 'a eşit olduğuna inanabiliriz , ancak bireysel fiyatları nasıl bulabiliriz? Sol ayakkabı fiyatları ve sağ ayakkabı fiyatı mı? Tüm olasılıklardan nasıl seçim yapabiliriz?pl=45pr=5

Tanıtımı penaltı:L2

Şimdi düşünün:

minimize(over b)(yXb)T(yXb)+λb2

Bu bize her iki tür problemde de yardımcı olabilir. ceza bizim tahminini iter sıfıra doğru. Bu katsayı değerleri üzerinden dağılım etrafında merkezlenmeden önce Bayesci olarak etkili bir şekilde işlev görür . Aşırı takmaya yardımcı olur. Tahminimiz hem verileri hem de nin sıfıra yakın olduğuna dair ilk inancımızı yansıtacaktır .L2b0b

L2 düzenlenmesi de her zaman kötü durumdaki sorunlara benzersiz bir çözüm bulmak için kullanılır. Sol ve sağ ayakkabıların toplamının olduğunu , normunu da en aza indiren çözüm .$50L2pl=pr=25

Bu sihir mi? Hayır. Düzenleme, soruyu gerçekten yanıtlamamıza izin verecek verileri eklemekle aynı şey değildir. düzenlenmesi bir anlamda veri eksikliği varsa yakın tahminleri seçtiği görüşünü benimser .L20

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.