L1 normalizasyonu L2'den daha iyi ne zaman işe yarayabilir?


30

Not: L1'in özellik seçimi özelliğine sahip olduğunu biliyorum. Özellik seçimi tamamen alakasız olduğunda hangisini seçeceğimi anlamaya çalışıyorum.

  1. Hangi düzenlileştirmenin (L1 veya L2) kullanılacağına nasıl karar verilir?
  2. L1 / L2 düzenlemelerinin her birinin artıları ve eksileri nelerdir?
  3. L1 ile özellik seçimi yapıp, bu seçilen değişkenlere L2 uygulayarak yapılması önerilir mi?

2
"L1 özellik seçimi" nin özellik alanının düzenlenmesi olarak adlandırılması gerektiğini unutmayın; modellenmiş problemle neyin ilgili olduğunu bilgi almak olarak anlaşılan özellik seçimini yapmanın daha iyi yöntemleri vardır .

@mbq: Burada hangi "çok daha iyi yöntemlerin" kastettiğini merak ediyorum?
amip Reinstate Monica

Yanıtlar:


31

Hangi düzenlileştirmenin (L1 veya L2) kullanılacağına nasıl karar verilir?

Amacın ne? Her ikisi de katsayıları cezalandırarak model genellemesini geliştirebilir, çünkü sonuçla zıt bir ilişki içinde olan özellikler birbirini "telafi edebilir" (büyük bir pozitif değer büyük bir negatif değer ile dengelenir). Bu, collinear özellikler olduğunda ortaya çıkabilir. Verilerdeki küçük değişiklikler önemli ölçüde farklı parametre tahminlerine neden olabilir (yüksek varyans tahminleri). Cezalandırma her iki katsayının daha küçük olmasını engelleyebilir. (Hastie ve diğerleri, İstatistiksel Öğrenmenin Öğeleri , 2. baskı, s. 63)

L1 / L2 düzenlemelerinin her birinin artıları ve eksileri nelerdir?

L1 düzenlenmesi, katsayı normunu sınırlayarak ve bazı katsayı değerlerini 0'a sabitleyerek çok-doğrusallık problemini çözebilir. Hesaplamalı olarak, Kement regresyonu (bir L1 cezasıyla regresyon), çözülmesi gereken bazı özel araçlar gerektiren ikinci dereceden bir programdır. N gözlemlerinden daha fazla özelliğe sahip olduğunuzda , Kement en fazla N sıfır olmayan katsayıda tutacaktırN-N- . Bağlama bağlı olarak, istediğiniz şey olmayabilir.

L1 düzenlenmesi bazen bir özellik seçimi yöntemi olarak kullanılır. Kullanabileceğiniz özelliklerin sayısı konusunda bir miktar zorunluluğunu varsayalım ( tüm özellikler için veri toplama pahalı olduğundan veya kaç tane değer saklayabileceğinize dair sıkı mühendislik kısıtlamalarına sahip olduğunuzu vb.). İstediğiniz sıfır olmayan özellik için V1 cezasını ayarlamayı deneyebilirsiniz.

L2 düzenlileşmesi, katsayı normunu sınırlayarak ve tüm değişkenleri koruyarak çok doğrusallık problemini çözebilir. Bir katsayıyı tam olarak 0 olarak tahmin etmek pek mümkün değildir. Bir nedenden ötürü seyrek bir katsayı vektörü önemli olmadığı sürece bu mutlaka bir dezavantaj değildir.

Regresyon ayarında, gözlemlerden daha fazla özelliğe sahip bir regresyon tahmin etme sorununa "klasik" bir çözümdür. L2 düzenlileşmesi, gözlemlerden daha fazla özellik olsa bile, her özellik için bir katsayı tahmin edebilir (bu, "sırt regresyonu" için esas motivasyondu).

Alternatif olarak, elastik ağ, özel durumlar olarak L1 ve L2 düzenlenmesine izin verir. Endüstride bir veri bilimcisi için tipik bir kullanım örneği, sadece en iyi modeli seçmek istediğinizdir, ancak L1, L2 veya her ikisini de kullanarak cezalandırıldığına dikkat etmeyiniz. Elastik ağ bu gibi durumlarda iyidir.

L1 ile özellik seçimi yapıp, bu seçilen değişkenlere L2 uygulayarak yapılması önerilir mi?

L1 ve L2 boru hattını öneren bir yayını tanımadım, ama bu muhtemelen benim açımdan cehalettir. Bunda yanlış bir şey yok gibi görünüyor. Bir literatür taraması yaparım.

Benzer "fazlı" boru hatlarından birkaç örnek var. Bunlardan bir tanesi , bir kez büyük bir gruptan küçük bir özellik grubuna aşağı seçim yapmak için iki kez kement regresyonu uygulayan "rahat kement" ve ikincisi bir modelde kullanılacak katsayıları tahmin etmek. Bu, cezanın büyüklüğünü seçmek için her adımda çapraz doğrulama kullanır. Sebep, ilk adımda, çapraz onaylama yapmanız ve alakasız tahmincileri elemek için büyük bir ceza seçmeniz; İkinci adımda, çapraz onaylama yaparsınız ve muhtemelen daha küçük bir ceza alırsınız (ve dolayısıyla daha büyük katsayılar). Bu, Nicolai Meinshausen ("Relaxed Lasso.") Adlı bir alıntı yaparak İstatistiksel Öğrenme Öğelerinde kısaca açıklanmıştır. Hesaplamalı İstatistik ve Veri Analizi Cilt 52, Sayı 1, 15 Eylül 2007, s. 374-393).

Kullanıcı @ amoeba ayrıca bir L1-sonra-OLS boru hattını önerir; Bu iyi olabilir çünkü L1 cezasının büyüklüğü için sadece 1 hiperparametre vardır, bu yüzden daha az işe yaramaya gerek yoktur.

Bazı adımları ve ardından diğer bazı adımları ayrı ayrı yapan herhangi bir "aşamalı" analiz boru hattında ortaya çıkabilecek bir problem, bu farklı algoritmalar arasında "görünürlük" olmamasıdır, bu nedenle bir işlem önceki adımlarda gerçekleşen herhangi bir veri taramasını devralır. Bu etki ihmal edilemez; kötü düşünülmüş modellemeler çöp modelleriyle sonuçlanabilir.

Veri gizleme yan etkilerine karşı önlem almanın bir yolu, tüm seçeneklerinizi çapraz doğrulamaktır. Ancak, artan hesaplama maliyetleri yasaklayıcı olabilir.


Üzgünüm 3. noktama verilen cevabı takip etmedim. Açıklayabilir misin?
GeorgeOfTheRF

1
Her şey iyimserlik için doğru bir şekilde muhasebe ile ilgili. Örnek dışı verilerdeki performansı ölçmemizin nedeni aynı zamanda tüm filtreleme / ön işleme adımlarını adımlar arasında bilgi sızıntısına izin vermeyecek şekilde yapmak gerekir. Tüm veri kümenizde özellik seçimi yaparsanız ve ardından bazı analizler yaparsanız, gürültüde sinyal bulacaksınız.
Sycorax, Reinstate Monica,

Tamam. Öyleyse, bir ML modeli çalıştırmadan önce özellik seçiminde önerilen yaklaşım nedir?
GeorgeOfTheRF

3
Benim tavsiyem "yapma" dır. Bunun nasıl ters gidebileceğine dair bir örnek için buraya bakın: stats.stackexchange.com/questions/164048/… Ancak bu, ilk sorunuzdan, yeni bir soru sormanız gerektiği konusunda yeterince farklı. (Bu, yeni soruya ek bir tekrar tahakkuk edebileceksiniz, çünkü sizin avantajınıza.)
Sycorax, Reinstate Monica,

3
(+1) L1’den L2’yi literatürde tartıştığımı görmedim, ama bu bana mantıklı geliyor. L1-takip eden-OLS ("LARS-OLS hibrid") ve L1-takip eden L1 (gevşemiş kement) vardır, L1 takip eden L2'yi de düşünebiliriz. Her iki hiperparametre çapraz onaylı olduğu sürece, uygulanabilir bir düzenlileştirme stratejisi olmalıdır.
amip diyor Reinstate Monica

19

Genel olarak, optimum tahminde bulunmak istiyorsanız, L2 kullanın. Öngörülü ayrımcılığın bazı fedakarlıklarında para cezası istiyorsanız L1 kullanın. Ancak, para cezasının aldatıcı olabileceğine dikkat edin, örneğin, önyükleme çubuğunu kullanarak kement işleminin tekrarlanması, özellikle “öngörücüler birbirleriyle ilişkilendirildiğinde” seçilen özellikler listesinde önemli dengesizlikler ortaya çıkarır.


"Optimum tahmin" - Genel olarak L2'nin görünmeyen verilerde daha iyi doğruluk sağladığını mı düşünüyorsunuz?
GeorgeOfTheRF

3
Evet, özellikle tahmine dayalı ayrımcılık konusunda.
Frank Harrell

1
L2L1

2
L2L1

Cool, açıklama için teşekkürler. Bu mantıklı geliyor. (Evet, haklısınız; PD'yi risk açısından doğru sınıflandırma ve / veya konu sıralaması olasılığına ilişkin tedbirlerle ilişkilendiririm, bu yüzden "sınıflandırma görevleri" demek için hızlı davrandım; kötüyüm, daha dikkatli olmalıyım.)
usεr11852 diyor Reinstate Monic,
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.