Regresyon için ne zaman regülasyon yöntemleri kullanılır?


83

Hangi durumlarda, OLS yerine düzenlileştirme yöntemleri (sırt, kement veya en küçük açılar regresyonu) kullanılmalıdır?

Bunun tartışmayı yönlendirmesine yardımcı olması durumunda, temel ilgi alanım tahmin doğruluğunu iyileştirmektir.

Yanıtlar:


75

Kısa cevap: Bu durumlardan biriyle ne zaman karşı karşıya kalırsanız:

  • çok sayıda değişken veya düşük oran yok. hayır için gözlemler. (dahil değişkenler durumda),np
  • yüksek collinearity,
  • seyrek bir çözüm aramak (yani, model parametrelerini tahmin ederken özellik seçimini yerleştirmek) veya
  • yüksek boyutlu veri kümesinde değişken gruplaması muhasebesi.

Ridge regresyon genellikle, önyargı ve varyans arasındaki daha iyi bir uzlaşma yoluyla OLS çözümünden daha iyi tahminler verir. Başlıca dezavantajı, tüm tahmincilerin modelde tutulmasıdır; bu nedenle, temelli bir model aramak ya da bir tür özellik seçimi uygulamak istemeniz çok ilginç değildir.

Seyrekliği sağlamak için, kement daha uygundur, ancak yüksek collinearity varlığında mutlaka iyi sonuçlar vermeyecektir (prediktörler yüksek korelasyona sahipse, kementin tahmin performansının sırt regresyonunun egemen olduğu görülmüştür). L1 cezası ile ikinci sorun, değişken sayısının denek sayısından daha büyük olması durumunda Kement çözümünün benzersiz bir şekilde belirlenmemesidir (bu, regresyon gerilemesi söz konusu değildir). Kementin son dezavantajı, çift yönlü korelasyonları yüksek olan bir grup yordayıcı arasında yalnızca bir değişkeni seçme eğiliminde olmasıdır. Bu durumda, grup gibi alternatif çözümler vardır (yani, değişkenler bloğunda büzülme elde et, bazı regresyon katsayıları blokları tamamen sıfırdır) veya kaynaşıkkement. Grafiksel Kement da GGMs için umut verici özellikleri (R bkz sunmaktadır glasso paketi).

m>pnpβ

L(λ1,λ2,β)=YXβ2+λ2β2+λ1β1

β2=j=1pβj2β1=j=1p|βj|

Kement, Friedman ve coll. Tarafından yayınlanan son makalede açıklandığı gibi koordinat inişine, Koordinat İniş (JSS, 2010) veya LARS algoritması ile Genelleştirilmiş Doğrusal Modeller için Düzenlileştirme Yollarına dayanan bir algoritma ile hesaplanabilir . R olarak, ceza , Lars veya biglars ve glmnet paketleri yararlı paketler; Python'da scikit.learn araç seti var, üç tür düzenlileştirme planını uygulamak için kullanılan algoritmalar hakkında kapsamlı belgeler mevcut.

Genel referanslara gelince, Kement sayfasında L1 cezasıyla ilgili kement regresyonu ve teknik detaylara başlamak için ihtiyaç duyulanların çoğu yer almaktadır ve bu soru, kement vs sırtını ne zaman kullanmalıyım?


1
Nispeten az değişken, ancak çok düşük bir sinyal / gürültü oranı olan birçok gözlemim olursa ne olur? O kadar düşük ki, aslında, aşırı uydurma çok gerçek bir sorundur. Düzenleme, tahmine dayalı doğruluğu iyileştirmek için denemek ve bakmak için mantıklı bir şey midir?
NPE,

1
@aix Gerçekten birkaç değişken dediğinize ve ne tür değişkenlerle uğraştığınıza bağlı. Ancak, sizin durumunuzda bir sırt yaklaşımının tercih edilmesi gerektiğini düşünüyorum. Ayrıca Boostting Ridge Regression'a bakabilirsiniz (Tutz ve Binder, 2005). Cezalandırılmış ML tahmini aynı zamanda fazla takılmasını önlemek için yerleşik bir yöntem olarak önerilmiştir; bakınız, örneğin ikili sonuçları tahmin etmek için Cezalandırılmış Maksimum Olabilirlik Tahmini: Moons KG, Donders AR, Steyerberg EW, Harrell FE. J. Clin. Epidemiol. 2004, 57 (12): 1262–70.
chl

20

Sırt regresyonunun kullanımına ilişkin teorik bir gerekçe, çözümünün katsayılar üzerinde normal olarak verilen posterior ortalama olmasıdır. Diğer bir deyişle, kare hatasını önemsiyorsanız ve normal bir önceliğe inanıyorsanız, sırt tahminleri en uygunudur.

Benzer şekilde, kement tahmini, katsayılarınızdan önce çift-üstel olan arka moddur. Bu sıfır bir kayıp fonksiyonu altında en uygunudur.

Uygulamada, bu teknikler tipik olarak, çok fazla ilişkiniz olan değişkenlerin olmadığı ve çok fazla verinin olmadığı durumlarda, öngörüsel doğruluğu iyileştirir. OLS tahmincisi en iyi doğrusal yansız olsa da, bu durumlarda yüksek varyansa sahiptir. Önyargı varyans ticaretine bakarsanız, tahmin doğruluğu artar çünkü önyargıdaki küçük artış, varyanstaki büyük düşüş ile dengelenir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.