Tam olarak hangi koşullar altında sırt regresyonu sıradan en küçük kareler regresyonuna göre bir gelişme sağlayabilir?


16

Ridge regresyon tahminleri parametreleri doğrusal bir model içinde ile burada \ lambda bir düzenleme parametresidir. İlişkili pek çok yordayıcı olduğunda genellikle OLS regresyonundan ( \ lambda = 0 ile ) daha iyi performans gösterdiği iyi bilinmektedir .y = x β β λ = ( Xx + λ I ) - 1 xy , λ λ = 0βy=Xβ

β^λ=(XX+λI)1Xy,
λλ=0

Sırt regresyonu için bir varlık teoremi , \ hat {\ boldsymbol \ beta} _ \ lambda'nın ortalama kare hatası OLS'nin ortalama kare hatasından kesinlikle daha küçük olacak şekilde her zaman \ lambda ^ *> 0 parametresi bulunduğunu söyler. tahmin \ hat {\ boldsymbol \ beta} _ \ mathrm {OLS} = \ hat {\ boldsymbol \ beta} _0 . Başka bir deyişle, optimal bir \ lambda değeri her zaman sıfır değildir. Bu görünüşe göre ilk kez Hoerl ve Kennard, 1970'de kanıtlanmıştır ve çevrimiçi bulduğum birçok ders notunda tekrarlanır (örneğin burada ve burada ). Benim sorum bu teoremin varsayımları hakkında:λ>0β^λβ^OLS=β^0λ

  1. Kovaryans matrisi \ mathbf X ^ \ top \ mathbf X hakkında herhangi bir varsayım var XXmı?

  2. \ Mathbf X'in boyutsallığı hakkında herhangi bir varsayım var Xmı?

Özellikle, öngörücüler dikey ise (yani XX diyagonal ise) veya \ mathbf X ^ \ top \ mathbf X = \ mathbf I olsa bile teorem hala geçerli XX=Imidir? Ve sadece bir veya iki öngörücü (örneğin, bir öngörücü ve kesişme) varsa hala doğru mu?

Teorem bu gibi varsayımlarda bulunmazsa ve bu durumlarda bile doğru kalırsa, o zaman sırt regresyonu genellikle sadece ilişkili öngörücülerde tavsiye edilir ve basit (yani çoklu değil) regresyon için asla (?) Önerilmez?


Bu büzülmeye ilişkin Birleşik görüş hakkındaki sorumla ilgili: Stein'in paradoksu, sırt regresyonu ve karışık modellerde rastgele etkiler arasındaki ilişki (varsa) nedir? , ama şimdiye kadar hiçbir cevap bu noktayı netleştirmiyor.


1
Son soru hariç hepsi doğrudan Hoerl & Kennard gazetesinde, özellikle Giriş'in ilk cümlesinde ve Sonuçların ilk cümlesinde ele alınmaktadır. Son soru, sabit bir vektör ile herhangi bir tek öngörücü arasındaki kovaryansın her zaman sıfır olduğunu belirterek cevaplanabilir, bu da bir kişinin (standart bir şekilde) i matrisine indirmesine izin verir . 1×1XX1×1
whuber

1
Teşekkürler, @whuber. Hoerl & Kennard gazetesinin sorularıma cevap verdiğine inanıyorum (en azından teknik olanlar) - kanıtları takip edebilmeli ve varsayımları kontrol edebilmeliyim (henüz yapmadım). Ama bahsettiğiniz cümleler karşısında tam olarak ikna olmadım. Giriş'in ilk cümlesi sorumla nasıl bağlantılı? Sonuçların ilk cümlesi yok önermek eğer tekdüze spektrumu vardır (örneğin eşittir o zaman teoremi geçerli değildir). Ama% 100 emin değilim, çünkü bu varsayımın kanıttan önce açıkça ifade edildiğini görmüyorum. IXXI
amip diyor Reinstate Monica

Bu tür sorular sorduğu edilebilir ne Look yüksek temsilcisi kullanıcıları (genellikle yalnızca kim cevap onları) (ve aynı şekilde diğer bağlantılı soru için bana gönderdi buraya stats.stackexchange.com/questions/122062/... !
javadba

Yanıtlar:


11

Hem 1 hem de 2'nin yanıtı hayırdır, ancak varoluş teoreminin yorumlanmasına özen gösterilmelidir.

Ridge Tahmincisi Varyansı

Let ceza altında sırt tahmini olarak ve izin modeli için de geçerlidir parametre . Let özdeğerlerinin olmak . Hoerl & Kennard denklemleri 4.2-4.5'ten risk ( hatanın beklenen normu açısından) kβY=Xβ+ϵλ1,,λpXTXL2β^kβY=Xβ+ϵλ1,,λpXTX
L2

E([β^β]T[β^β])=σ2j=1pλj/(λj+k)2+k2βT(XTX+kIp)2β=γ1(k)+γ2(k)=R(k)
nerede söyleyebileceğim kadar, Onlar söylüyoruz, iç ürünün varyans yorumu vardır iken, önyargı iç ürünüdür.γ1 ^ β -βγ2(XTX+kIp)2=(XTX+kIp)1(XTX+kIp)1.γ1β^βγ2

Varsayalım ki , o zaman Let riskin w / r / t türevi olmalıdır . Yana , orada olduğu sonucuna bir öyle ki . R ( k ) = p σ 2 + k 2 β T βXTX=IpR(k)=2k(1+k)βTβ-(pσ2+k2βTβ)

R(k)=pσ2+k2βTβ(1+k)2.
R(k)=2k(1+k)βTβ(pσ2+k2βTβ)(1+k)3
klimk0+R(k)=2pσ2<0k>0R(k)<R(0)

Yazarlar, ortogonalitenin risk açısından ümit edebileceğiniz en iyisi olduğunu ve koşul sayısı arttıkça yaklaşımlar .k=0XTXlimk0+R(k)

Yorum Yap

Burada bir çelişki var gibi görünüyor, çünkü ve sabitse, o zaman sadece Normal değişkenlerinin bir dizisinin ortalamasını tahmin ediyoruz ve vanilya tarafsız tahminini biliyoruz bu durumda kabul edilebilir. Bu, yukarıdaki akıl yürütmenin yalnızca sabit için değerinin en aza indirilmesini sağladığını fark ederek çözülür . Ancak herhangi bir , büyük yaparak riski patlatabiliriz , bu nedenle bu argüman tek başına sırt tahmini için kabul edilebilirlik göstermez.p=1X(β,σ2)kβTβkβTβ

Sırt regresyonu neden genellikle sadece ilişkili öngörücülerde önerilmektedir?

H & K'nin risk türevi, küçük olduğunu düşünürsek ve tasarımı neredeyse tekil ise, tahminin riskinde büyük düşüşler elde edebileceğimizi gösterir. Bence sırt regresyonu her yerde kullanılmıyor çünkü OLS tahmini güvenli bir varsayılan ve değişmezlik ve tarafsızlık özelliklerinin çekici olması. Başarısız olduğunda dürüstçe başarısız olur - kovaryans matrisiniz patlar. Belki de felsefi / çıkarımsal bir nokta vardır, eğer tasarımınız neredeyse tekilse ve gözlemsel verileriniz varsa, o zaman birim değişiklikler için değişiklik verdiği şeklinde yorumlanması şüphelidir - büyük kovaryans matrisi bir belirtisi. βTβXTXβEYX

Ancak hedefiniz yalnızca tahmin ise, çıkarımsal kaygılar artık geçerli değildir ve bir tür büzülme tahmincisi kullanmak için güçlü bir argümanınız vardır.


2
Vay canına, teşekkürler! "Yorum" bölümünüz hakkındaki anlayışımı kontrol edeyim: herhangi bir , optimum sıfırdan farklıdır, ancak değeri farklı betalar için farklıdır ve sabit bir , tüm betalar için geçemez; kabul edilebilirlik için gerekenler. Doğru? Bunun dışında, genel sorum hakkında yorum yapabilir misiniz: [Teorem böyle bir varsayımda bulunmazsa, o zaman] sırt regresyonu genellikle sadece ilişkili öngörücüler için tavsiye edilir ve asla basit (çoklu değil) regresyon için önerilmez? Olumlu etkinin rahatsız edici olmak için çok küçük olduğu ampirik olarak bilindiği için mi? βkkk=0
amoeba Reinstate Monica

2
H&K, sürekli olarak tam rütbeli olduğunu varsayar . 1 numaralı cevabın "hayır" olduğunu belirterek, sonuçlarının doğru olmadığında doğru olmaya devam ettiğini mi iddia ediyorsunuz? XX
whuber

3
@whuber: Risk türetmelerinin merkezinde, sırt tahmini , burada , OLS tahmini ve . sıralaması yetersiz olduğunda bu açıkça görülemez . Ancak OLS tahmini mevcut değildir - bu nedenle sonlu riskli herhangi bir tahmin ( yeterince büyük alın ve , risk ile elde edersiniz ) bir tahmin ediciden daha iyi? Risk türetme hala devam ediyor gibi: Emin değilim. Farklı bir kanıt gerekli olacaktır. β^=Zβ^β^Z=((XTX)1+kIp)1XTXkβ^0βTβ
Andrew M

3
@ amoeba: evet, düzeltmen doğru görünüyor. OLS tahmincisine hükmetmek için, verilerin bir fonksiyonu olduğu bir çeşit uyarlanabilir prosedüre ihtiyacımız var . Diğer iş parçacığında, Xi'an adaptif sırt tahminleri hakkında bir yorum yaptı, bu yüzden bakmak için bir yer olabilir. RE: dikey tasarımlar için sırt tahminleri - Kanıtlarından alacağım rehberliğe kadar başka bir yorum ekledim. λ
Andrew M
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.