R Squared neden LASSO kullanarak regresyonlar için iyi bir önlem değil?


12

Birçok yerde R Squared'ın LASSO kullanarak bir model uygun olduğunda ideal bir ölçü olmadığını okudum. Ancak bunun tam olarak neden olduğu konusunda net değilim .

Ayrıca, en iyi alternatifi önerebilir misiniz?

Yanıtlar:


19

LASSO kullanmanın amacı, çok fazla değişkene sahip olmamak anlamında (öngörülen miktarda) seyrek bir temsil elde etmektir . ile modelleri karşılaştırmak , çok sayıda ortak değişkenli modelleri tercih etme eğilimindedir: aslında, sonuca ilgisiz ortak değişkenler eklemek asla azaltmaz ve neredeyse her zaman en azından biraz artırır. LASSO modeli, modeli en uygun cezalandırılmış log olabilirliği ile tanımlayacaktır (tekilleştirilmemiş log olasılığı ile monoton olarak ilişkilidir ). LASSO modellerini diğer modellerle karşılaştırmak için daha yaygın olarak kullanılan doğrulama istatistikleri, örneğin BIC veya çapraz doğrulanmış .R2R2R2R2


1
Nedeni açıkça sunmak ve alternatif sağlamak için +1
Haitao Du

1
Harika cevap için çok teşekkürler! "LASSO modeli, modeli en uygun cezalandırılmış log-olasılık ile tanımlayacaktır (tekilleştirilmemiş log-olasılık, R2 ile monoton olarak ilişkilidir). İlk kısmı, en az hata içeren modeli (tahmin ve ceza yoluyla) seçeceği anlamına geliyor mu? Ama parantez içindeki bitin ne anlama geldiğinden emin değilim. Bu, R2 düştükçe unpenalized LL'nin yükseldiği anlamına mı geliyor? Ayrıca, çapraz doğrulanmış R2'nin tamamen yeni bir veri kümesinde olması gerekir mi? Yoksa eğitim verilerine dayanabilir mi?
Dave

3
@ Sanırım doğru fikre sahipsin. Doğrusal regresyon modeli, cezası olmayan bir LASSO'dur ve günlük olasılığı sadece ancak R2 sadece . Ceza dolaylı olarak hataya katkıda bulunur, seyrekliği uygulamak için ödediğiniz bir fiyattır. Deneysiz model her zaman daha düşük (dahili) hataya sahip olacaktır. İnsanlar genellikle aynı veri kümesiyle çapraz doğrulama yaparlar. Modelleri yeni veri kümelerinde test etmek başka bir şeydir ("çapraz" parçaya gerek yoktur) ve yeterli değildir. log(2π)N+1log(N)+log(i=1nri2)1i=1nri2/i=1nyi2
AdamO

@AdamO Bence yorumunuzu cevabınıza düzenlemek iyi bir fikir olabilir, çok iyi.
Matthew Drury

Merhaba @AdamO bir son takip soru. Şimdi geleneksel R2'nin neden kötü bir ölçü olduğunu anlıyorum. Ancak, çapraz doğrulanmış R2'nin (aynı veri kümesinde) neden iyi olduğu konusunda net değilim?
Dave
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.