Elastik net düzeneği nedir ve Ridge (

Bu yöntemlerin dezavantajlarını çözdüğü için elastik net düzenlileştirme Lasso ve Ridge için her zaman tercih edilir mi? Sezgi nedir ve elastik ağın arkasındaki matematik nedir?

— GeorgeOfTheRF
kaynak

Hastie ve ark. "İstatistiksel Öğrenmenin Elemanları" bölüm 3 ve 18 ("esnek ağı araştırın").

— Richard Hardy

Yanıtlar:

1. Hangi yöntem tercih edilir?

Evet, elastik ağ her zaman özel durumlar olarak da dahil edilmekle birlikte her iki yöntemin sınırlarını da çözdüğü için, kement ve sırt regresyonu için tercih edilir. Öyleyse sırt veya kement çözümü gerçekten en iyisi ise, herhangi bir iyi model seçim rutini, bunu modelleme sürecinin bir parçası olarak tanımlayacaktır.

Yazıma yapılan yorumlar, elastik ağın avantajlarının niteliksiz olmadığını belirtti. Elastik net regresyonun genelliğinin hala kendi başına $L^1$ veya $L^2$ düzenlenmesi için tercih edildiğine inancım devam ediyor . Özellikle, kendim ve diğerleri arasındaki çekişme noktalarının, modelleme süreci hakkında ne gibi varsayımlarda bulunmak istediğimize doğrudan bağlı olduğunu düşünüyorum. Temel veriler hakkında güçlü bir bilgi varlığında, bazı yöntemler diğerlerine tercih edilecektir. Bununla birlikte, elastik ağ tercihim, kişinin şüphesiz $L^1$ ya da $L^2$ gerçek model olduğunu bileceği şüphesine dayanıyor .

Talep: Önceki bilgiler elastik net regresyon kullanma ihtiyacından birini ortadan kaldırabilir.

Bu biraz dairesel. Bu biraz glib ise beni bağışlayın, ancak LASSO'nun (sırtın) en iyi çözüm olduğunu biliyorsanız, kendinize nasıl uygun bir şekilde modelleyeceğinizi sormayacaksınız; sadece bir LASSO (sırt) modeline uyacaksınız. Eğer konum kesinlikle emin doğru cevap LASSO (sırt) regresyon olduğunu, o zaman açıkça elastik net uydurma atık zaman için hiçbir neden olacağını ikna ediyoruz. Ancak, LASSO'nun (sırtın) ilerlemenin doğru yolu olup olmadığından biraz daha az emin iseniz, daha esnek bir model tahmin etmenin ve verilerin önceki inancı ne kadar güçlü bir şekilde desteklediğini değerlendirmenin anlamlı olacağını düşünüyorum.

$L^1$ $L^2$ $L^1$ $L^2$

$\alpha\not\in \{0,1\},$ $\alpha=1$ $\alpha=0$

Talep: Ek hiperparametrelerin tanıtılması, modeli tahmin etmenin hesaplama maliyetini arttırır.

$\lambda$ $\lambda$ $\alpha$ $\lambda$

Talep: LASSO veya sırt regresyonu üzerine elastik ağın performansının arttırılması garanti edilmez.

Bu doğrudur, ancak hangi yöntemin kullanılacağına karar verilen adımda, hangisi elastik ağ, sırt veya LASSO'nun en iyisi olduğunu bilemez. En iyi çözümün LASSO ya da sırt regresyonu olmasının bir nedeni varsa, o zaman talep alanındayız (1). Hangisinin hala en iyi olduğundan emin değilsek, o zaman LASSO'yu, ridge ve elastik net çözümleri test edebilir ve bu noktada son bir model seçebiliriz (veya eğer akademik bir iseniz, üçünüz hakkında da bir makale yazabilirsiniz). ). Önceden belirsizliğin bu durumu bizi ya istem (2) 'nin alanına yerleştirecektir, burada gerçek model LASSO / sırttır, ancak zamanın ötesinde bunu bilmiyorduk ve yanlış tanımlanmış hiperparametreler nedeniyle yanlışlıkla yanlış modeli seçtik ya da elastik ağ aslında en iyi çözümdür.

Talep: Çapraz doğrulama olmadan hiperparametre seçimi oldukça önyargılı ve hataya açık .

$\alpha$

2. Elastik ağın ardındaki sezgi ve matematik nedir?

Residual Mean Square Error + α \cdot Ridge Penalty + (1 - α) \cdot LASSO Penalty

$\text{Residual Mean Square Error}+\alpha \cdot \text{Ridge Penalty}+(1-\alpha)\cdot \text{LASSO Penalty}$

$\alpha\in[0,1].$

Hui Zou ve Trevor Hastie. " Düzenlileştirme ve elastik ağ üzerinden değişken seçimi ." JR İstatistiği. Soc, cilt 67 (2005), Bölüm 2., sayfa 301-320.

Richard Hardy, bunun Hastie ve diğ. “İstatistiksel Öğrenmenin Öğeleri” bölüm 3 ve 18.

$L^q$

Bu yorumlarda bana yöneltilen bir soru:

$L^3$ $\gamma$ $\gamma\not =0$ $L^3$

Sorunun ruhunun "Sizin iddia ettiğiniz gibi ve iki penaltı iyidir, neden başka bir tane eklemiyorsunuz?" Olduğunu takdir ediyorum. Fakat bence cevap, ilk başta neden düzenli olduğumuzda yatıyor.

$L^1$ $n$ $n$ $L_2$ $p$ $L_2$ $p>n$

Bu sorunlardan herhangi birini bir kenara koyan düzenli model, ML modelinin performansını hala çıkarabilir çünkü tahmin edicilerin büzülme özellikleri "karamsar" ve katsayıları 0'a çeker.

$L^3$

$L^1$ $L^2$

$L_1$ $L_2$

$L^2$ $L^1$ $L^1$ $L^2$

$L^q$ $L^1$ $L^2$

— Monica'yı eski durumuna getir
kaynak

"Elastik ağın her zaman kement ve sırt regresyonu için tercih edildiğini" söylemek biraz fazla güçlü olabilir. Küçük veya orta örneklerde, elastik ağ, eski veya ikincisi aslında ilgili olsa bile, saf LASSO veya saf çıkıntı çözeltisini seçemez. Güçlü bir ön bilgi verildiğinde, elastik ağ yerine LASSO ya da sırtın seçilmesi mantıklı olabilir. Bununla birlikte, önceden bilgi yokluğunda, elastik ağ tercih edilen çözelti olmalıdır.

— Richard Hardy,

α

$\alpha$

γ

$\gamma$

γ \neq 0

$\gamma \ne 0$

L_{1}

$L_1$

L_{2}

$L_2$

L_{3}

$L_3$

"LASSO'yu, sırtı ve elastik ağ çözümlerini test edebilir ve son bir model seçebiliriz" - yapabiliriz, ancak elbette ki kendisi daha iyi bir performans gösterebilecek veya rasgele hataya maruz kalan bir kriteri optimize ederek yeni bir prosedürdür. LASSo veya sırt regresyonundan veya elastik ağdan tek başına

— Scortchi - Eski Monica

@Sycorax cevabına genel olarak katılıyorum, ancak bazı yeterlilikler eklemek istiyorum.

"Elastik ağın her zaman kement ve sırt regresyonu için tercih edildiğini" söylemek, biraz fazla güçlü olabilir. Küçük veya orta örneklerde, elastik ağ, eski veya ikincisi aslında ilgili olsa bile, saf LASSO veya saf çıkıntı çözeltisini seçemez. Güçlü bir ön bilgi verildiğinde, elastik ağ yerine LASSO ya da sırtın seçilmesi mantıklı olabilir. Bununla birlikte, önceden bilgi yokluğunda, elastik ağ tercih edilen çözelti olmalıdır.

Ayrıca, elastik ağ, LASSO ya da sırttan hesaplanırken daha pahalıdır, çünkü LASSO'ya karşı sırtın göreceli ağırlığı, çapraz doğrulama kullanılarak seçilmelidir. Eğer makul bir alfa değerleri ızgarası, 0,1 adım büyüklüğüne sahip [0,1] ise, bu, elastik ağın kabaca LASSO ya da çıkıntı kadar hesaplamalı olarak 11 kat daha pahalı olduğu anlamına gelir. (LASSO ve çıkıntı oldukça aynı hesaplama karmaşıklığına sahip olmadığından sonuç sadece kaba bir tahmindir.)

— Richard Hardy
kaynak

Veya gerçekten de LASSO veya sırt regresyonu, unpenalized regresyon üzerinde gelişmiş öngörücü performans vermeyebilir.

— Scortchi - Monica'yı yeniden yerleştir

Ne tür bir ön bilgi Lasso'yu tercih etmeye öncülük eder ve ne tür bir ön bilgi sırtını tercih etmeye yönlendirir?

— amip diyor Reinstate Monica

Amoeba, eğer bütün regresörlerin alakalı olması makul olsa da, bunlar yüksek oranda korelasyon gösteriyorsa, o zaman değişken seçim gerekli değildir ve bu yüzden sırt tercih edilebilir. Öte yandan, bazı regresörlerin tamamen alakasız olması muhtemelse (ancak hangisinin olduğunu bilmiyoruz), o zaman değişken seçim gereklidir ve LASSO tercih edilebilir. Bu bilgi konu alanından alınacaktır. Hastie ve arkadaşlarının bazı örnekleri olabileceğini düşünüyorum. "İstatistiksel Öğrenmenin Öğeleri" veya ilgili literatürde, sadece onu nerede okuduğumu hatırlamıyorum.

— Richard Hardy,

@kjetilbhalvorsen, teşekkür ederim, bu yardımcı oldu.

— Richard Hardy,

amamo, sırt, korelasyonlu veriler için daha iyidir, burada L2, girdiler üzerinde birçok küçük ağırlıkları teşvik eder (ortalama). 1 var diğerinin baskın olduğu yerde daha iyidir, klasik durum hiyerarşik veridir: katsayıların hiyerarşide en üst düzeyde tahmin edilmesi gerektiği.

— seanv507

Elastik net düzeneği nedir ve Ridge (

1. Hangi yöntem tercih edilir?

2. Elastik ağın ardındaki sezgi ve matematik nedir?

LqLqL^q

$L^q$