Yalnızca bilmek Doğrusal regresyon , değil doğrudan


13

Varsayalım .Xβ=Y

Bilmiyoruz , tam olarak her etkenin, sadece onun korelasyon .YXtY

Sıradan en küçük kareler (OLS) çözümü ve bir sorun yoktur.β=(XtX)1XtY

Ancak tekil (çok doğrusal doğrusallık) yakınında olduğunu ve optimal sırt parametresini tahmin etmeniz gerektiğini varsayalım . Tüm yöntemlerin kesin değerlerine ihtiyacı olduğu görülmektedir .XtXY

Yalnızca bilindiğinde alternatif bir yöntem var mı ?XtY


ilginç soru. Belki bir çeşit EM algoritması işe yarayacaktır ...
olasılık

Anlamıyorum, optimal ridge parametresini tahmin etmek için çapraz doğrulamayı kullanamaz mısınız?
Pardis

@Pardis: Soruda kayıp fonksiyonu verilmiyor, bu yüzden optimalin ne anlama geldiğini bilmiyoruz . Kayıp fonksiyonu MSE ise karşılaştığımız sorunu görebiliyor musunuz?
kardinal

1
@JohnSmith: Sürüş yaptığım noktayı ima ediyorsun. "Optimallik" in nasıl ölçüleceğine dair bir gösterge yok. Etkili bir şekilde yaptığınız, tahmin veya uyumun "kalitesini" ölçmek için farklı bir metrik (uzaklık fonksiyonu) eklemektir. Çok uzaklaşmak için OP'den daha fazla ayrıntıya ihtiyacımız var, sanırım.
kardinal

1
@Pardis: Tahmin ettiğiniz gibi tahminleri bulmak sorun değil. :) Bununla birlikte, çapraz validasyon yapmaya karar verirseniz, örnek dışı MSE'yi, yani her bir yineleme için soldaki katlamayı nasıl tahmin edersiniz? :)
kardinal

Yanıtlar:


8

Bu ilginç bir soru. Şaşırtıcı bir şekilde, bazı varsayımlar altında bir şey yapmak mümkündür, ancak kalan varyans hakkında potansiyel bir bilgi kaybı vardır. Ne kadar kayıp olduğuna bağlıdır .X

Diyelim aşağıdaki tekil değer ayrışımı dikkate arasında ile bir dik sütunlu matris, , bir köşegen matris pozitif tekil değerler ile ve a dikey matris. Daha sonra sütunları ve sütun boşlukları için ortonormal bir temel oluşturur " , genişlemede bu sütun boşluğuna izdüşümü için katsayıların vektörüdür.X=UDVtXUn×pDd1d2...dp>0Vp×pUX

Z=UtY=D1VtVDUtY=D1VtXtY
YU sütun. Formülden sadece ve bilgisinden hesaplandığını görüyoruz .ZXXtY

Belirli için sırt regresyon belirleyici yana olarak hesaplanabilir , sütunu bazında sırt regresyon tahmincisi için katsayıların olduğunu görüyoruz Şimdi bu dağılım varsayımını sahiptir boyutlu ortalama ve kovaryans matrisi . Daha sonra sahiptir boyutlu ortalama ve kovaryans matrisi . Bağımsız bir hayal edersekλ

Y^=X(XtX+λI)1XtY=UD(D2+λI)1DUtY=UD(D2+λI)1DZ
U
Z^=D(D2+λI)1DZ.
Ynξσ2InZpUtξσ2IpYNew ile aynı dağılımına sahip (koşullu her şeyi Buradan itibaren), karşılık gelen aynı sahip olarak dağıtılır ve bağımsızdır ve Burada üçüncü eşitlik ve ve dördüncüsü,YXZNew=UtYNewZ
E||YNewY^||2=E||YNewUZNew+UZNewUZ^||2=E||YNewUZNew||2+E||UZNewUZ^||2=Err0+E||ZNewZ^||2.
YNewUZNewUZNewUZ^U birimdik sütunları vardır. miktarı , hakkında hiçbir bilgi alamadığımız bir hatadır, ancak da bağlı değildir . Sol taraftaki tahmin hatasını en aza indirmek için sağ taraftaki ikinci terimi en aza indirmeliyiz.Err0λ

Standart bir hesaplama ile Burada , parametresiyle sırt regresyonu için etkili serbestlik derecesi olarak bilinir . Tarafsız bir tahmin olduğu

E||ZNewZ^||2=E||ZZ^||2+2i=1pcov(Zi,Z^i)=E||ZZ^||2+2σ2i=1pdi2di2+λdf(λ).
df(λ)λE||ZZ^||2
err(λ)=||ZZ^||2=i=1p(1di2di2+λ)2Zi2.

Bunu , ın (tarafsız) tahmincisi . , daha sonra küçültmemiz gereken bildiğimiz göz önüne alındığında . Bildiğimiz eğer Açıkçası, bu sadece yapılabilir veya makul bir at tahmin veya tahmin edicisi olan .

err(λ)+2σ2df(λ)
E||ZNewZ^||2σ2σ2σ2

tahmini daha sorunlu olabilir. Göstermek mümkün olduğunu Bu nedenle, , kare yanlılık göz ardı edilebilecek kadar küçük seçmek mümkünse, olarak tahmin etmeye çalışabiliriz. Bu işe yarayacaksa çok bağlıdır .σ2

E||ZZ^||2=σ2(pi=1pdi2di2+λ(2di2di2+λ)d(λ))+bias(λ)2.
λσ2
σ^2=1pd(λ)||ZZ^||2.
X

Bazı ayrıntılar Bölüm 3.4.1 ve Bölüm 7 için bkz ESL belki ya da daha da iyi Bölüm 2 GAM .


0

Tanımlama soru olarak çeşitli parametreler için ve kümeler örnek etiket. Sonra hesaplanabilir çünkü bilinmeyen her ikisi de genişletilirken düşer normlar.ββ(λ,K)=[(XTX)KK+λI]1(XTY)KλKe(λ,K):=Xβ(λ,K)Y2XβY2Y2

Bu, aşağıdaki algoritmaya yol açar:

  • Compute eğitim seti bazı seçimler için .e(λ,K)K
  • Sonuçları bir işlevi olarak çizin .λ
  • Grafiğin en düz olduğu yerde değerini kabul edin.λ
  • Kullanım son tahmin olarak.β=[XTX+λI]1XTY

1
Tahmin ediyorum "arsa en düz nerede" kabaca 0 gibi çok küçük olacak :)λ
jbowman

@jbowman: Bu sadece sorun iyi şartlandırılmışsa ve düzenli hale getirilmesi gerekmiyorsa gerçekleşir, o zaman gerçekten yeterlidir. Koşulsuz durumda, takma dışındaki maddelerin tahmini fazla takma nedeniyle zayıf olacaktır ve bu nedenle büyük olacaktır. λ=0Ke(λ,K)
Arnold Neumaier

3
@ArnoldNeumaier: hesaplanamaz. Sadece her bir yordayıcı ile korelasyonu biliyoruz. , "Y alanında" değil, "öngörücü alanında" (N, örnek boyutu ve p öngörücülerin sayısı ise, yalnızca her bir öngörücü için bir tane olan p değerlerine sahibiz). (XTY)K(XTY)
Jag

@Jag: O zaman lambda'yı seçmek için yeterli bilgi yok . Ancak şekilde toplanmış olmalıdır. Toplanması sırasında numuneyi partilerine ayırırsanız ve her parti için ayrı ayrı monte ederseniz, biri çapraz doğrulama için her biri için bir parti ayırabilir. λXTYkXTY
Arnold Neumaier

@ArnoldNeumaier: harici olarak verilir, toplanmaz. XTY
Jag
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.