Sırt regresyonunda, minimize edilecek objektif fonksiyon:
Bu, Lagrange çarpanı yöntemi kullanılarak optimize edilebilir mi? Yoksa düz bir ayrım mı?
Sırt regresyonunda, minimize edilecek objektif fonksiyon:
Bu, Lagrange çarpanı yöntemi kullanılarak optimize edilebilir mi? Yoksa düz bir ayrım mı?
Yanıtlar:
Sırt problemi için iki formülasyon vardır. Birincisi
tabi
Bu formülasyon, regresyon katsayıları üzerindeki boyut kısıtlamasını göstermektedir. Bu kısıtlamanın ne anlama geldiğine dikkat edin; katsayıları yarıçap ile köken etrafındaki bir topun içinde yatmaya zorluyoruz .
İkinci formülasyon tam olarak sizin probleminiz
Largrange çarpan formülasyonu olarak görülebilir. Burada bir ayar parametresi olduğunu ve daha büyük değerlerin daha fazla büzülmeye yol açacağını unutmayın. İfadeyi ile ayırt etmeye ve iyi bilinen sırt tahmincisini elde etmeye devam edebilirsiniz.
İki formülasyon tamamen eşdeğerdir , çünkü ve arasında bire bir yazışma vardır .
Bu konuyu biraz açıklayayım. İdeal dikey durumda olduğunuzu düşünün, . Bu oldukça basitleştirilmiş ve gerçekçi olmayan bir durum ama tahmin ediciyi biraz daha yakından araştırabiliriz. (1) denklemine ne olduğunu düşünün. Sırt tahmincisi
dikey durumda olduğu gibi OLS tahmincisi . Şimdi bu bileşen açısından bakıyoruz
O zaman, büzülmenin tüm katsayılar için sabit olduğuna dikkat edin. Bu, genel durumda geçerli olmayabilir ve gerçekten de matrisinde dejenerasyonlar varsa büzülmelerin büyük ölçüde değişeceği gösterilebilir .
Ancak kısıtlı optimizasyon sorununa geri dönelim. KKT teorisine göre , iyimserlik için gerekli bir koşul
yani veya (bu durumda kısıtlamanın bağlayıcı olduğunu söyleriz). Eğer o zaman hiçbir ceza yoktur ve geri düzenli EKK durumdayız. Diyelim ki kısıtlamanın bağlayıcı olduğunu ve ikinci durumda olduğumuzu varsayalım. (2) 'deki formülü kullanarak,
nereden alıyoruz
daha önce iddia edilen bire bir ilişki. Ortogonal olmayan durumda bunun daha zor olmasını bekliyorum ama sonuç ne olursa olsun devam ediyor.
Yine (2) tekrar bakmak ve göreceksiniz ki hala eksik . En uygun değeri elde etmek için, çapraz doğrulamayı kullanabilir veya sırt izine bakabilirsiniz. İkinci yöntem (0,1) ' de bir dizisi oluşturmayı ve tahminlerin nasıl değiştiğini incelemeyi içerir. Daha sonra onları sabitleyen seçersiniz . Bu yöntem, bu arada aşağıdaki referansların ikincisinde önerilmiştir ve en eskisidir.
Referanslar
Hoerl, Arthur E. ve Robert W. Kennard. "Ridge regresyon: Dikey olmayan problemler için önyargılı tahmin." Technometrics 12.1 (1970): 55-67.
Hoerl, Arthur E. ve Robert W. Kennard. "Ridge regresyon: dikey olmayan problemlere uygulamalar." Technometrics 12.1 (1970): 69-82.
Regresyon Modelleme Stratejileri kitabım seçmek için etkili AIC kullanımını araştırıyor . Bu, cezalandırılmış günlük olasılığı ve etkili serbestlik derecelerinden gelir; ikincisi, 'nın cezalandırma ile ne kadar varyansının azaltıldığının bir fonksiyonudur . Bununla ilgili bir sunum burada . R paketi , etkili AIC'yi optimize eden bulur ve ayrıca birden fazla ceza parametresine izin verir (örneğin, doğrusal ana efektler için bir, doğrusal olmayan ana efektler için bir, doğrusal etkileşim efektleri için bir ve doğrusal olmayan etkileşim efektleri için bir).rms
pentrace