Sırt regresyonu ve LASSO'nun artıları ve eksileri hakkında zaten bir fikrim var.
LASSO için, L1 ceza süresi, bir özellik seçim yöntemi olarak görülebilen seyrek bir katsayı vektörü verecektir. Bununla birlikte, LASSO için bazı sınırlamalar vardır. Özelliklerin yüksek korelasyonu varsa, LASSO bunlardan sadece birini seçecektir. Ek olarak, > n olan problemler için LASSO en fazla n parametre seçecektir ( n ve p sırasıyla gözlem ve parametre sayısıdır). Bunlar LASSO'yu sırt regresyonuna kıyasla öngörülebilirlik açısından ampirik olarak suboptimal bir yöntem haline getirmektedir.
Sırt regresyonu için genel olarak daha iyi öngörülebilirlik sunar. Ancak, yorumlanabilirliği LASSO kadar hoş değildir.
Yukarıdaki açıklama genellikle makine öğrenimi / veri madenciliği ders kitaplarında bulunabilir. Ancak, hala iki şey hakkında kafam karıştı:
Özellik aralığını (0 ile 1 arasında veya sıfır ortalama ve birim varyansı ile) normalleştirir ve sırt regresyonunu çalıştırırsak, katsayıların mutlak değerlerini sıralayarak özellik önemi konusunda bir fikrimiz olabilir (en önemli özellik, katsayıların en yüksek mutlak değeri). Özellikleri açıkça seçmememize rağmen, yorumlanabilirlik sırt regresyonu kullanılarak kaybolmaz. Aynı zamanda hala yüksek tahmin gücüne ulaşabiliriz. Öyleyse neden LASSO'ya ihtiyacımız var? Burada bir şey mi eksik?
LASSO, özellik seçimi doğası nedeniyle tercih ediliyor mu? Anladığım kadarıyla, özellik seçimine ihtiyaç duymamızın nedenleri, genelleme ve hesaplama kolaylığıdır.
Hesaplama kolaylığı için, bazı NLP görevleri gerçekleştiriyorsak, 1 milyon özelliğin tamamını modelimize beslemek istemiyoruz, bu nedenle hesaplama maliyetini azaltmak için öncelikle işe yaramayan bazı özellikleri düşürüyoruz. Bununla birlikte, LASSO için, özellik seçim sonucunu (seyrek vektör) tüm verileri modelimize besledikten sonra bilebiliriz, bu nedenle hesaplama maliyetini azaltmak açısından LASSO'dan faydalanmayız. Tahminleri sadece biraz daha hızlandırabiliriz, çünkü tahmin edilen sonuçlar üretmek için özelliklerin alt kümesini (1 milyondan 500'ü) sadece modelimize besliyoruz.
LASSO genelleme yeteneği için tercih edilirse, aynı hedefi sırt regresyonunu (veya herhangi bir başka düzenlemeyi) kullanarak da başarabiliriz. Neden tekrar LASSO'ya (veya elastik ağlara) ihtiyacımız var? Neden sırt regresyonuna bağlı kalamıyoruz?
Birisi buna ışık tutabilir mi lütfen? Teşekkürler!