Elastik net lojistik regresyonda optimal alfa seçimi

0'dan 1'e birglmnet ızgarası üzerinde lambda değerleri seçerek R'deki paketi kullanarak sağlık veri setinde elastik-net bir lojistik regresyon yapıyorum. Kısaltılmış kodum aşağıda: $\alpha$

alphalist <- seq(0,1,by=0.1)
elasticnet <- lapply(alphalist, function(a){
  cv.glmnet(x, y, alpha=a, family="binomial", lambda.min.ratio=.001)
})
for (i in 1:11) {print(min(elasticnet[[i]]$cvm))}

bu, her bir alfa değeri için ortalama çaprazlama hatasını bir artışla ile arasında verir : $0.0$ $1.0$ $0.1$

[1] 0.2080167
[1] 0.1947478
[1] 0.1949832
[1] 0.1946211
[1] 0.1947906
[1] 0.1953286
[1] 0.194827
[1] 0.1944735
[1] 0.1942612
[1] 0.1944079
[1] 0.1948874

Literatürde okuduklarım temelinde, en uygun seçimi cv hatasının en aza indirildiği yerdir. Ancak alphas aralığında hatalarda çok fazla değişiklik var. Ben küresel asgari hata ile, çok sayıda yerel minimum görüyorum için . $\alpha$ 0.1942612alpha=0.8

Birlikte gitmek güvenli alpha=0.8mi? Ya da, varyasyon göz önüne alındığında, yeniden çalıştırın gereken cv.glmnetdaha fazla çapraz doğrulama kat (örn ile yerine , belki de) ya da daha büyük bir sayı arasındaki artışlarla ve ev hata yolun net bir görüntü elde etmek için? $20$ $10$ $\alpha$ alpha=0.01.0

— robertf
kaynak

caretTekrarlanan cv yapabilen ve hem alfa hem de lambda için ayar yapabilen bir pakete bakmak istersiniz (çok çekirdekli işlemeyi destekler!). Bellekten, glmnetbelgelerin burada yaptığınız gibi alfa ayarına karşı tavsiyelerde bulunduğunu düşünüyorum . Kullanıcı tarafından sağlanan lambda ayarının yanı sıra alfa için ayar yapıyorsa, kıvrımları sabit tutmanızı tavsiye eder cv.glmnet.

Ah, bu yazıyı

— RobertF

farklı şeyler denemeyi düzeltmeyi unutma

α

$\alpha$

— user4581

Çoğaltılabilirlik için, bilinen bir rastgele-tohumdan yaratılanı cv.glmnet()geçmeden asla foldidskoşmayın.

— smci

@amoeba cevabımı bir göz atın - l1 ve l2 arasındaki takaslar girdi!

— Xavier Bourret Sicotte

Yanıtlar:

ve Elastic Net parametreleriyle neyin kastedildiğini açıklama $\alpha$

Farklı terminoloji ve parametreler farklı paketler tarafından kullanılır, ancak anlamı genellikle aynıdır:

R paketi Glmnet aşağıdaki tanımı kullanır

$\min_{\beta_0,\beta} \frac{1}{N} \sum_{i=1}^{N} w_i l(y_i,\beta_0+\beta^T x_i) + \lambda\left[(1-\alpha)||\beta||_2^2/2 + \alpha ||\beta||_1\right]$

Sklearn kullanır

$\min_{w} \frac{1}{2N} \sum_{i=1}^{N} ||y - Xw ||^2_2 + \alpha \times l_1 \text{ratio} ||w||_1 + 0.5 \times \alpha \times (1 - l_1 \text{ratio}) \times ||w||_2^2$

Orada alternatif parametrelendirme kullanarak ve de .. $a$ $b$

Karışıklığı önlemek için arayacağım

$\lambda$ ceza gücü parametresi
$L_1 \text{ratio}$ ile cezası arasındaki oran , 0 (sırt) ile 1 (Kement) arasındaki oran $L_1$ $L_2$

Parametrelerin etkisini görselleştirmek

Bir simüle edilmiş bir veri kümesi düşünün gürültülü bir sinüs eğrisi oluşur ve aşağıdakilerden oluşan iki boyutlu bir özelliktir ve . ve arasındaki korelasyon nedeniyle , maliyet fonksiyonu dar bir vadidir. $y$ $X$ $X_1 = x$ $X_2 = x^2$ $X_1$ $X_2$

Aşağıdaki grafikler, iki farklı oran parametresi ile esneklik regresyonunun çözüm yolunu , kuvvet parametresinin bir işlevi olarak göstermektedir . $L_1$ $\lambda$

Her iki simülasyon için: olduğunda , çözüm ilişkili vadi şeklindeki maliyet fonksiyonuyla sağ alt kısımdaki OLS çözümüdür. $\lambda = 0$
Şöyle arttıkça, içinde düzenlilestirme başladı ve çözelti eğilimi $\lambda$ $(0,0)$
İki simülasyon arasındaki ana fark oran parametresidir. $L_1$
LHS : Küçük oranı için düzenli maliyet fonksiyonu yuvarlak konturlu Ridge regresyon sistemine çok benziyor. $L_1$
RHS : Büyük oranı için, maliyet fonksiyonu, tipik elmas şekli Lasso regresyonuna çok benziyor. $L_1$
Orta oranı için (gösterilmemiştir), maliyet fonksiyonu, iki bir karışımıdır. $L_1$

Parametrelerin etkisini anlama

ElasticNet, Kement'in bazı sınırlamalarına karşı koymak için tanıtıldı:

Veri noktalarından , daha fazla varsa , kement çoğu değişkenini seçer . $p$ $n$ $p>n$ $n$
Kement, özellikle korelasyonlu değişkenlerin varlığında gruplanmış seçim yapamamaktadır. Bir gruptan bir değişken seçme ve diğerlerini görmezden gelme eğiliminde olacaktır

Bir ile ikinci dereceden cezasını birleştirerek her ikisinin de avantajlarını elde ederiz: $L_1$ $L_2$

$L_1$ seyrek bir model oluşturur
$L_2$ , seçilen değişkenlerin sayısındaki sınırlamayı kaldırır, gruplandırmayı teşvik eder ve düzenlileştirme yolunu . $L_1$

Sen köşelerinde tekillik teşvik, yukarıdaki şemada üzerinde görsel olarak görebilirsiniz kıtlık sıkı dışbükey kenarları teşvik ediyoruz ederken, gruplama .

İşte Hastie'den (ElasticNet'in mucidi) alınan bir görselleştirme.

daha fazla okuma

— Xavier Bourret Sicotte
kaynak

Sorunun yaşına rağmen bazı pratik açıklamalar ekleyeyim. R kullanıcısı olmadığımdan kodun konuşmasına izin veremem, ancak yine de anlaşılabilir olması gerekir.

Normalde, sadece en iyi CV skoruna sahip olan hiperparametreleri (burada: ) seçmelisiniz . Seçenek olarak ise, en iyi seçebilir modelleri ve bir topluluk meydana aritmetik ortalamasının alınması karar işlevi. Bu, elbette, size çalışma zamanı karmaşıklığının artmasını sağlar. İpucu: bazen geometrik ortalamalar daha iyi çalışır . Sanırım bunun, daha yumuşak bir sonuçta karar sınırı olması nedeniyle olduğunu düşünüyorum. $\alpha$ $k$ $f_1, ..., f_k$ $f(x) = \frac{1}{k}\sum_i{f_i(x)}$ $f(x) = \sqrt[k]{\prod_{i=1}^k{f_i(x)}}$
Yeniden örneklemenin bir avantajı, burada cv'nin puanları olan test puanlarının sırasını inceleyebilmenizdir. Her zaman sadece ortalamaya değil, std sapmalarına da bakmalısınız (normal dağılıma değil, sanki hareket edersiniz). Genellikle bunu doğruluk için% 65,5 (±% 2,57) olarak gösterirsiniz. Bu şekilde "küçük sapmaların" şans eseri ya da yapısal olarak daha muhtemel olup olmadığını söyleyebilirsiniz. Daha iyi tam dizileri incelemek için bile olurdu . Herhangi bir nedenden dolayı her zaman bir katlama varsa, bölüşünüzü yapma şeklinizi yeniden düşünmek isteyebilirsiniz (hatalı bir deneysel tasarıma da işaret eder, ayrıca: karıştırdınız mı?). Scikit-in içindeki GridSearchCVmağaza kapanma süreleri ile ilgili ayrıntıları öğrenin cv_results_( buraya bakın ).
ile ilgili olarak : ne kadar yüksekse, elastik o kadar fazla seyreklik özelliğine sahip olacaktır . Elde edilen modellerin ağırlıklarını kontrol edebilirsiniz, değeri arttıkça sıfıra daha çok ayarlanır. Ağırlıkları sıfıra ayarlanmış ağırlıkları özniteliklerinizi boru hattınızdan hep birlikte kaldırmak yararlıdır. Diğer bir püf noktası, özellik seçimi için elastik ağ modelini kullanmak ve sonra bir varyantını yeniden . Genellikle bu, özellikler arasındaki karşılıklı ilişkilerin filtrelenmesinden dolayı dramatik bir model performans artışına yol açar. $\alpha$ $L_1$ $\alpha$ $L_2$

— uberwach
kaynak

Elastik net lojistik regresyonda optimal alfa seçimi

ve Elastic Net parametreleriyle neyin kastedildiğini açıklamaαα\alpha

Parametrelerin etkisini görselleştirmek

Parametrelerin etkisini anlama

daha fazla okuma

ve Elastic Net parametreleriyle neyin kastedildiğini açıklama $\alpha$