Hangi düzenlileştirmenin (L1 veya L2) kullanılacağına nasıl karar verilir?
Amacın ne? Her ikisi de katsayıları cezalandırarak model genellemesini geliştirebilir, çünkü sonuçla zıt bir ilişki içinde olan özellikler birbirini "telafi edebilir" (büyük bir pozitif değer büyük bir negatif değer ile dengelenir). Bu, collinear özellikler olduğunda ortaya çıkabilir. Verilerdeki küçük değişiklikler önemli ölçüde farklı parametre tahminlerine neden olabilir (yüksek varyans tahminleri). Cezalandırma her iki katsayının daha küçük olmasını engelleyebilir. (Hastie ve diğerleri, İstatistiksel Öğrenmenin Öğeleri , 2. baskı, s. 63)
L1 / L2 düzenlemelerinin her birinin artıları ve eksileri nelerdir?
L1 düzenlenmesi, katsayı normunu sınırlayarak ve bazı katsayı değerlerini 0'a sabitleyerek çok-doğrusallık problemini çözebilir. Hesaplamalı olarak, Kement regresyonu (bir L1 cezasıyla regresyon), çözülmesi gereken bazı özel araçlar gerektiren ikinci dereceden bir programdır. N gözlemlerinden daha fazla özelliğe sahip olduğunuzda , Kement en fazla N sıfır olmayan katsayıda tutacaktırN-N- . Bağlama bağlı olarak, istediğiniz şey olmayabilir.
L1 düzenlenmesi bazen bir özellik seçimi yöntemi olarak kullanılır. Kullanabileceğiniz özelliklerin sayısı konusunda bir miktar zorunluluğunu varsayalım ( tüm özellikler için veri toplama pahalı olduğundan veya kaç tane değer saklayabileceğinize dair sıkı mühendislik kısıtlamalarına sahip olduğunuzu vb.). İstediğiniz sıfır olmayan özellik için V1 cezasını ayarlamayı deneyebilirsiniz.
L2 düzenlileşmesi, katsayı normunu sınırlayarak ve tüm değişkenleri koruyarak çok doğrusallık problemini çözebilir. Bir katsayıyı tam olarak 0 olarak tahmin etmek pek mümkün değildir. Bir nedenden ötürü seyrek bir katsayı vektörü önemli olmadığı sürece bu mutlaka bir dezavantaj değildir.
Regresyon ayarında, gözlemlerden daha fazla özelliğe sahip bir regresyon tahmin etme sorununa "klasik" bir çözümdür. L2 düzenlileşmesi, gözlemlerden daha fazla özellik olsa bile, her özellik için bir katsayı tahmin edebilir (bu, "sırt regresyonu" için esas motivasyondu).
Alternatif olarak, elastik ağ, özel durumlar olarak L1 ve L2 düzenlenmesine izin verir. Endüstride bir veri bilimcisi için tipik bir kullanım örneği, sadece en iyi modeli seçmek istediğinizdir, ancak L1, L2 veya her ikisini de kullanarak cezalandırıldığına dikkat etmeyiniz. Elastik ağ bu gibi durumlarda iyidir.
L1 ile özellik seçimi yapıp, bu seçilen değişkenlere L2 uygulayarak yapılması önerilir mi?
L1 ve L2 boru hattını öneren bir yayını tanımadım, ama bu muhtemelen benim açımdan cehalettir. Bunda yanlış bir şey yok gibi görünüyor. Bir literatür taraması yaparım.
Benzer "fazlı" boru hatlarından birkaç örnek var. Bunlardan bir tanesi , bir kez büyük bir gruptan küçük bir özellik grubuna aşağı seçim yapmak için iki kez kement regresyonu uygulayan "rahat kement" ve ikincisi bir modelde kullanılacak katsayıları tahmin etmek. Bu, cezanın büyüklüğünü seçmek için her adımda çapraz doğrulama kullanır. Sebep, ilk adımda, çapraz onaylama yapmanız ve alakasız tahmincileri elemek için büyük bir ceza seçmeniz; İkinci adımda, çapraz onaylama yaparsınız ve muhtemelen daha küçük bir ceza alırsınız (ve dolayısıyla daha büyük katsayılar). Bu, Nicolai Meinshausen ("Relaxed Lasso.") Adlı bir alıntı yaparak İstatistiksel Öğrenme Öğelerinde kısaca açıklanmıştır. Hesaplamalı İstatistik ve Veri Analizi Cilt 52, Sayı 1, 15 Eylül 2007, s. 374-393).
Kullanıcı @ amoeba ayrıca bir L1-sonra-OLS boru hattını önerir; Bu iyi olabilir çünkü L1 cezasının büyüklüğü için sadece 1 hiperparametre vardır, bu yüzden daha az işe yaramaya gerek yoktur.
Bazı adımları ve ardından diğer bazı adımları ayrı ayrı yapan herhangi bir "aşamalı" analiz boru hattında ortaya çıkabilecek bir problem, bu farklı algoritmalar arasında "görünürlük" olmamasıdır, bu nedenle bir işlem önceki adımlarda gerçekleşen herhangi bir veri taramasını devralır. Bu etki ihmal edilemez; kötü düşünülmüş modellemeler çöp modelleriyle sonuçlanabilir.
Veri gizleme yan etkilerine karşı önlem almanın bir yolu, tüm seçeneklerinizi çapraz doğrulamaktır. Ancak, artan hesaplama maliyetleri yasaklayıcı olabilir.