Nasıl regresyon katsayıları bulmak için


14

Sırt regresyonunda, minimize edilecek objektif fonksiyon:

RSS+λβj2.

Bu, Lagrange çarpanı yöntemi kullanılarak optimize edilebilir mi? Yoksa düz bir ayrım mı?


1
Başlık ( odaklanan λ) ve soru (yalnızca ilgili gibi görünen) arasındaki bağlantı nedir βj? "Optimize edilecek" ifadesinin, hangi değişkenlerin değiştirilebileceği ve hangilerinin düzeltileceğine bağlı olarak belirgin şekilde farklı yorumlara sahip olabileceğinden endişeliyim.
whuber

1
teşekkürler soruyu değiştirdi. Bunu okudum λ sahip olduğunuz anlamına gelir ama ben inanıyorum - çapraz doğrulama ile bulunur βj zaten ve en iyi bulmak için kullandığı veriler farklıdır λ Soru - nasıl buluyor musunuz βj ilk etapta 's ne zaman λbilinmiyor?
Minaj

Yanıtlar:


22

Sırt problemi için iki formülasyon vardır. Birincisi

βR=argminβ(yXβ)(yXβ)

tabi

jβj2s.

Bu formülasyon, regresyon katsayıları üzerindeki boyut kısıtlamasını göstermektedir. Bu kısıtlamanın ne anlama geldiğine dikkat edin; katsayıları yarıçap ile köken etrafındaki bir topun içinde yatmaya zorluyoruz .s

İkinci formülasyon tam olarak sizin probleminiz

βR=argminβ(yXβ)(yXβ)+λβj2

Largrange çarpan formülasyonu olarak görülebilir. Burada bir ayar parametresi olduğunu ve daha büyük değerlerin daha fazla büzülmeye yol açacağını unutmayın. İfadeyi ile ayırt etmeye ve iyi bilinen sırt tahmincisini elde etmeye devam edebilirsiniz.λβ

(1)βR=(XX+λI)1Xy

İki formülasyon tamamen eşdeğerdir , çünkü ve arasında bire bir yazışma vardır .sλ

Bu konuyu biraz açıklayayım. İdeal dikey durumda olduğunuzu düşünün, . Bu oldukça basitleştirilmiş ve gerçekçi olmayan bir durum ama tahmin ediciyi biraz daha yakından araştırabiliriz. (1) denklemine ne olduğunu düşünün. Sırt tahmincisiXX=I

βR=(I+λI)1Xy=(I+λI)1βOLS

dikey durumda olduğu gibi OLS tahmincisi . Şimdi bu bileşen açısından bakıyoruzβOLS=Xy

(2)βR=βOLS1+λ

O zaman, büzülmenin tüm katsayılar için sabit olduğuna dikkat edin. Bu, genel durumda geçerli olmayabilir ve gerçekten de matrisinde dejenerasyonlar varsa büzülmelerin büyük ölçüde değişeceği gösterilebilir .XX

Ancak kısıtlı optimizasyon sorununa geri dönelim. KKT teorisine göre , iyimserlik için gerekli bir koşul

λ(βR,j2s)=0

yani veya (bu durumda kısıtlamanın bağlayıcı olduğunu söyleriz). Eğer o zaman hiçbir ceza yoktur ve geri düzenli EKK durumdayız. Diyelim ki kısıtlamanın bağlayıcı olduğunu ve ikinci durumda olduğumuzu varsayalım. (2) 'deki formülü kullanarak,λ=0βR,j2s=0λ=0

s=βR,j2=1(1+λ)2βOLS,j2

nereden alıyoruz

λ=βOLS,j2s1

daha önce iddia edilen bire bir ilişki. Ortogonal olmayan durumda bunun daha zor olmasını bekliyorum ama sonuç ne olursa olsun devam ediyor.

Yine (2) tekrar bakmak ve göreceksiniz ki hala eksik . En uygun değeri elde etmek için, çapraz doğrulamayı kullanabilir veya sırt izine bakabilirsiniz. İkinci yöntem (0,1) ' de bir dizisi oluşturmayı ve tahminlerin nasıl değiştiğini incelemeyi içerir. Daha sonra onları sabitleyen seçersiniz . Bu yöntem, bu arada aşağıdaki referansların ikincisinde önerilmiştir ve en eskisidir.λλλ

Referanslar

Hoerl, Arthur E. ve Robert W. Kennard. "Ridge regresyon: Dikey olmayan problemler için önyargılı tahmin." Technometrics 12.1 (1970): 55-67.

Hoerl, Arthur E. ve Robert W. Kennard. "Ridge regresyon: dikey olmayan problemlere uygulamalar." Technometrics 12.1 (1970): 69-82.


2
@Minaj Ridge regresyonunun tüm katsayılar (kesişme noktası hariç) için sürekli büzülmesi vardır. Bu yüzden sadece bir çarpan var.
JohnK

2
@amoeba Bu, 1970'lerde sırt regresyonunu başlatan insanlar Hoerl ve Kennard'ın bir önerisidir. Deneyimlerine ve benimkine dayanarak, katsayılar aşırı derecede çok doğrusallık olsa bile bu aralıkta stabilize olacaktır. Tabii ki, bu ampirik bir stratejidir ve bu yüzden her zaman çalışacağı garanti edilmez.
JohnK

2
Ayrıca, sözde gözlem yöntemini yapabilir ve tahminleri, düz en küçük kareler regresyon programından daha karmaşık bir şeyle elde edebilirsiniz. Aynı şekilde değiştirmenin etkisini de araştırabilirsiniz . λ
Glen_b

2
@amoeba Sırtın ölçek değişmez olmadığı doğrudur, bu nedenle verileri önceden standartlaştırmak yaygın bir uygulamadır. Bir göz atmak istemeniz durumunda ilgili referansları ekledim. Son derece ilginç ve çok teknik değiller.
JohnK

2
@JohnK aslında sırt regresyonu her bir farklı bir miktarda küçültür , bu nedenle sadece bir büzülme parametresi olsa bile büzülme sabit değildir . βλ
Frank Harrell

4

Regresyon Modelleme Stratejileri kitabım seçmek için etkili AIC kullanımını araştırıyor . Bu, cezalandırılmış günlük olasılığı ve etkili serbestlik derecelerinden gelir; ikincisi, 'nın cezalandırma ile ne kadar varyansının azaltıldığının bir fonksiyonudur . Bununla ilgili bir sunum burada . R paketi , etkili AIC'yi optimize eden bulur ve ayrıca birden fazla ceza parametresine izin verir (örneğin, doğrusal ana efektler için bir, doğrusal olmayan ana efektler için bir, doğrusal etkileşim efektleri için bir ve doğrusal olmayan etkileşim efektleri için bir).λβ^rmspentraceλ


1
+1. seçmek için açık formülle (yani aslında CV gerçekleştirmeden) hesaplanan bir kerelik bırakma CV hatasını kullanmayı düşünüyorsunuz ? Pratikte "etkili AIC" ile nasıl karşılaştırıldığı hakkında bir fikriniz var mı? λ
amip diyor Reinstate Monica

Bunu ben incelemedim. LOOCV çok fazla hesaplama gerektirir.
Frank Harrell

Açık formül kullanılıyorsa değil: stats.stackexchange.com/questions/32542 .
amip diyor Reinstate Monica

1
Bu formül, genel olarak maksimum olasılık için değil, özel OLS vakası için geçerlidir. Ancak puan kalıntılarını kullanan yaklaşık bir formül vardır. Yine de bu tartışmada OLS hakkında konuştuğumuzu anlıyorum.
Frank Harrell

1

Analitik olarak değil, sayısal olarak yapıyorum. Ben genellikle RMSE vs λ arsa:

resim açıklamasını buraya girin

Şekil 1. RMSE ve sabit λ veya alfa.


Bu belli bir değere düzeltmek anlamına mı ve sonra bulmak için ifadesini ayırt 's RMSE hesaplamak ve yeni değerleri için baştan işlemi yapmanız bundan sonra ? λβjλ
Minaj
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.