Sırt regresyonu neden bazı katsayıları kement gibi sıfıra çekmeyecek?


16

LASSO regresyonunu açıklarken, genellikle bir elmas ve dairenin diyagramı kullanılır. LASSO'daki kısıtlamanın şekli bir elmas olduğu için, elde edilen en küçük kareler çözeltisinin, bazı değişkenlerin büzülmesine yol açacak şekilde elmasın köşesine dokunabileceği söylenir. Bununla birlikte, sırt regresyonunda, bir daire olduğu için, genellikle eksene dokunmaz. Neden eksene temas edemediğini veya bazı parametreleri küçültme olasılığının LASSO'dan daha düşük olduğunu anlayamadım. Bunun üzerine, LASSO ve sırt neden sıradan en küçük karelerden daha düşük varyansa sahiptir? Yukarıdaki sırt ve LASSO anlayışım ve yanlış olabilirim. Birisi bu iki regresyon yönteminin neden daha düşük varyansa sahip olduğunu anlamama yardımcı olabilir mi?



1
Tamam, kalın yazıdaki varyans kısmı en azından bu sorunun kopyası değil; belki de bu soru buna odaklanmak için düzenlenebilir.
Juho Kokkala


@fcop ben kitap okumak ama matematik tam olarak anlamıyorum
user10024395

Ama resmi anlamak için matematiğe ihtiyacınız yok mu?

Yanıtlar:


26

Bu varyansla ilgili

OLS, En İyi Doğrusal Tarafsız Tahmincisi (MAVİ) olarak adlandırılanı sağlar . Bu, başka bir tarafsız tahmin ediciyi alırsanız, OLS çözümünden daha yüksek bir varyansa bağlı olduğu anlamına gelir. Öyleyse neden dünyada bundan başka bir şey düşünelim?

Şimdi, kement veya sırt gibi düzenli hale getirme hilesi, varyansı azaltmaya çalışmak için biraz önyargı eklemektir. Çünkü tahmin hatasını tahmin ettiğinizde, bu üç şeyin birleşimidir : Son bölüm indirgenemez hatadır, dolayısıyla bunun üzerinde kontrolümüz yoktur. OLS çözeltisi kullanılarak önyargı terimi sıfırdır. Ancak ikinci terim büyük olabilir. ( İyi tahminler istiyorsak ), bir önyargı eklemek ve umarım varyansı azaltmak iyi bir fikir olabilir .

E[(yf^(x))2]=Bias[f^(x))]2+Var[f^(x))]+σ2

Peki bu nedir? Modelinizdeki parametreler için tahminlerde sunulan varyanstır. Doğrusal model . OLS çözümünü elde etmek için minimizasyon problemi Bu, Sırt regresyonu için en aza indirme sorunu benzer: Şimdi çözüm olur y = x β + ε ,Var[f^(x))]arg dak β | | y - X β | | 2 β en küçük kareler = ( X , T x ) - 1 x T y arg dakika β | | y - X β | | 2 + λ | | β | | 2

y=Xβ+ϵ,ϵN(0,σ2I)
argminβ||yXβ||2
β^OLS=(XTX)1XTy
argminβ||yXβ||2+λ||β||2λ>0
β^Ridge=(XTX+λI)1XTy
Bu yüzden bu (sırt olarak adlandırılır) tersine çevirdiğimiz matrisin köşegenine ekliyoruz . Bunun matrisi üzerindeki etkisi, matrisin determinantını sıfırdan " çekmesidir ". Böylece ters çevirdiğinizde, büyük özdeğerler elde edemezsiniz. Ancak bu başka bir ilginç gerçeğe yol açar, yani parametre tahminlerinin varyansı azalır.λIXTX

Bundan daha net bir cevap verebilir miyim emin değilim. Bunların tümü, modeldeki parametreler için kovaryans matrisi ve bu kovaryans matrisindeki değerlerin büyüklüğüdür.

Sırt regresyonunu örnek olarak aldım, çünkü bunun tedavisi çok daha kolay. Kement çok daha zordur ve hala bu konuda aktif olarak devam eden araştırmalar vardır.

Bu slaytlar daha fazla bilgi sağlar ve bu blogun bazı alakalı bilgileri de vardır.

EDIT: Ne demek sırt ekleyerek determinant sıfırdan " çekilir "?

Matris bu Not pozitif tanımlı simetrik bir matristir. Gerçek değerlere sahip tüm simetrik matrislerin gerçek özdeğerlerine sahip olduğunu unutmayın. Ayrıca pozitif olarak tanımlandığı için öz değerlerin hepsi sıfırdan büyüktür.XTX

Peki özdeğerleri nasıl hesaplıyoruz? Karakteristik denklemi : Bu, cinsinden bir polinomdur ve yukarıda belirtildiği gibi özdeğerler gerçek ve pozitiftir. Şimdi tersine çevirmemiz gereken sırt matrisi denklemine bakalım: Bunu biraz değiştirebiliriz bit ve bkz: Böylece bunu için çözebilir ve aynı özdeğerleri alabiliriz ilk soruna gelince. Bir özdeğerin olduğunu . Böylece sırt probleminin öz . Tarafından değiştirilir

det(XTXtI)=0
t
det(XTX+λItI)=0
det(XTX(tλ)I)=0
(tλ)titi+λλ . Bu tüm özdeğerlere olur, bu yüzden hepsi sıfırdan uzaklaşır.

İşte bunu gösteren bazı R kodları:

# Create random matrix
A <- matrix(sample(10,9,T),nrow=3,ncol=3)

# Make a symmetric matrix
B <- A+t(A)

# Calculate eigenvalues
eigen(B)

# Calculate eigenvalues of B with ridge
eigen(B+3*diag(3))

Hangi sonuçları verir:

> eigen(B)
$values
[1] 37.368634  6.952718 -8.321352

> eigen(B+3*diag(3))
$values
[1] 40.368634  9.952718 -5.321352

Böylece tüm özdeğerler tam olarak 3'e yükselir.

Bunu genel olarak Gershgorin daire teoremini kullanarak da kanıtlayabilirsiniz . Orada özdeğerleri içeren dairelerin merkezleri diyagonal elementlerdir. Çapraz daireye her zaman pozitif gerçek yarım düzlemdeki tüm daireleri yapmak için "yeterli" ekleyebilirsiniz. Bu sonuç daha geneldir ve bunun için gerekli değildir.


Nasıl belirleyiciyi sıfırdan (matematiksel) nasıl "çektiğini" açıklayabilir misiniz? Teşekkürler
user10024395

@ user2675516 Cevabımı düzenledim.
Gumeo

"Bu, başka bir tarafsız tahmin ediciyi alırsanız, OLS çözümünden daha yüksek bir varyansa bağlı olduğu anlamına gelir". OLS'den daha yüksek yanlılık mı demek istediniz? OLS'un en az önyargıya sahip olduğunu düşündüm, bu yüzden başka bir şeyin daha yüksek önyargıya sahip olacağını. Pls açıklamak
GeorgeOfTheRF

@ML_Pro OLS sıfır yanlılığa sahiptir ve tüm yansız tahmin edicilerin en küçük varyansına sahiptir. Bu bir teorem . Başka birini seçerseniz, varyans artacaktır. Fakat düzenli olursanız, önyargı sağlarsınız.
Gumeo

Teşekkürler! Cevabınız beni meraklandırdı. Oluşturduğum bu yeni soruya cevap verebilir misiniz? stats.stackexchange.com/questions/294926/…
GeorgeOfTheRF

2

Sırt Regresyonu

L2 = (y-xβ) ^ 2 + λ∑βi ^ 2

Bu denklemi şimdilik sadece bir β için çözecek ve ikincisi bunu genelleştirebilirsiniz:

Yani, (y-xβ) ^ 2 + λβ ^ 2 bu bir β için denklemimizdir.

Amacımız yukarıdaki denklemi en aza indirgemek, bunu yapabilmek, bunu sıfıra eşitlemek ve türevleri wrt almaktır β

Y ^ 2- 2xyβ + x ^ 2 β ^ 2 + λβ ^ 2 = 0 ------- (ab) ^ 2 genişletme kullanma

Kısmi türevler wrt

-2xy + 2x ^ 2β + 2βλ = 0

2β (x ^ 2 + λ) = 2xy

β = 2xy / 2 (x ^ 2 + λ)

En sonunda

β = xy / (x ^ 2 + λ)

Paydayı gözlemlerseniz, bir miktar λ (yani hiper parametre) eklediğimiz için asla sıfır olmaz. Bu nedenle β değeri mümkün olduğunca düşük olacak, ancak sıfır olmayacaktır.

LASSO Regresyonu:

L1 = (y-xβ) ^ 2 + λ∑ | β |

Bu denklemi şimdilik sadece bir β için çözecek ve daha sonra bunu daha fazla genelleştirebilirsiniz β:

Yani, (y-xβ) ^ 2 + λβ bu bir β için denklemimiz, Burada β + + değerini düşündüm.

Amacımız yukarıdaki denklemi en aza indirgemek, bunu yapabilmek, bunu sıfıra eşitlemek ve türevleri wrt almaktır β

Y ^ 2- 2xyβ + x ^ 2 β ^ 2 + λβ = 0 ------- (ab) ^ 2 genişletme kullanma

Kısmi türevler wrt

-2xy + 2x ^ 2β + λ = 0

2x ^ 2β + λ = 2xy

2x ^ 2β = 2xy-λ

En sonunda

β = (2xy-λ) / (2X ^ 2)

Payı gözlemlerseniz, bir miktar λ (yani hiper parametre) çıkardığımız için sıfır olur. Bu nedenle β değeri sıfır olarak ayarlanacaktır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.