Kement ile karşılaştırıldığında neden en iyi altküme seçimi tercih edilmiyor?

İstatistiksel öğrenme kitabının Unsurları'nda en iyi altküme seçimini okuyorum. 3 tahmin edicim , altkümesi oluştururum: $x_1,x_2,x_3$ $2^3=8$

Tahmini olmayan alt küme
öngörücü ile alt küme $x_1$
öngörücülü alt küme $x_2$
öngörücülü alt küme $x_3$
öngörücülü alt küme $x_1,x_2$
öngörücülü alt küme $x_1,x_3$
öngörücülü alt küme $x_2,x_3$
öngörücülü alt küme $x_1,x_2,x_3$

Sonra en iyisini seçmek için tüm bu modelleri test verileri üzerinde test ediyorum.

Şimdi benim sorum neden en iyi alt küme seçimi örneğin kement ile karşılaştırıldığında tercih edilmez?

En iyi alt kümenin ve kementin eşikleme işlevlerini karşılaştırırsam, en iyi alt kümenin, kement gibi bazı katsayıları sıfıra ayarladığını görürüm. Ancak, diğer katsayı (sıfır olmayanlar) yine de ols değerlerine sahip olacak, onlar iri olacak. Oysa kementte bazı katsayılar sıfır, diğerleri (sıfırdan farklı) bazı sapmalara sahip olacaktır. Aşağıdaki şekil daha iyi göstermektedir:

$\lambda$

— Ville
kaynak

.. ve verilerdeki rasgelelik birçok yanlış altkümeden birini seçmenize neden olduğunda ve ilişkili katsayı tahminleri standart hatalarına göre sıfırdan uzak olduğunda eğriler nasıl görünür?

— jbowman

@jbowman Çok net anlamıyorum, neden verilerdeki rasgelelik yanlış olanı seçmeme neden olur? En iyi altkümeyi seçmek için çapraz doğrulamayı kullanırsam, yanlış altkümeyi seçmek için daha az şansım olur.

— Ville

"Daha az önyargı" yı "daha iyi" ile eşitliyorsunuz. Tarafsızlığa böyle yüksek bir değer vermenizi sağlayan nedir?

— Matthew Drury

Yanıtlar:

Alt küme seçiminde, sıfır olmayan parametreler yalnızca doğru modelin bir üst kümesini seçtiyseniz, yani yalnızca gerçek katsayı değerleri sıfır olan yordayıcıları kaldırdıysanız tarafsız olacaktır . Seçim prosedürünüz sizi sıfır olmayan gerçek katsayılı bir öngörücüyü hariç tutmaya yönlendirdiyse, tüm katsayı tahminleri önyargılı olacaktır. Seçimin genellikle mükemmel olmadığını kabul ederseniz, bu argümanınızı yener.

Bu nedenle, tarafsız bir model tahmininin "emin" olmasını sağlamak için, daha fazla, hatta potansiyel olarak alakalı tüm tahminleri dahil etme konusunda hata yapmalısınız. Yani, hiç seçmemelisiniz.

Bu neden kötü bir fikir? Önyargı-varyans dengesi nedeniyle. Evet, büyük modeliniz tarafsız olacaktır, ancak büyük bir varyansa sahip olacak ve varyans tahmin (veya diğer) hatasına baskın olacaktır.

Bu nedenle, alt-grup seçimimizin sadece gerçek sıfır parametrelerini kaldırdığından ve daha büyük varyansa sahip tarafsız bir modelimiz olduğunu ummak yerine , parametre tahminlerinin önyargılı olacağını ancak daha düşük varyansa (normalleştirme) sahip olduğunu kabul etmek daha iyidir .

$\lambda$ $\lambda_0$ $p$ $\lambda$ $\lambda_0$ $\hat{\beta}_p$ $\hat{\beta}_p=0$ $\hat{\beta}_p=\hat{\beta}_p^{\text{OLS}}$

Bu yardımcı olabilir: Büzülme neden işe yarar?

— Stephan Kolassa
kaynak

Hmm. Bunun en iyi alt kümenin neden kementten daha kötü olduğunu düşünmüyorum (buradaki ana soru).

— amip diyor Reinstate Monica

@amoeba: detaylandırmak ister misiniz?

— Stephan Kolassa

Peki, kementin neden en iyi alt kümeye tercih edildiğini soran soruyu anladım. Her ikisini de bir çapraz doğrulama döngüsüne koyduğumuzu ve sonra ya lasso parametresini ayarladığımızı ya da en iyi alt kümeyi bulduğumuzu düşünün. Kement genellikle önerilir. Neden diye soran soruyu anladım. (örneğin Q'nun başlığına bakın) ve cevabınızın buna cevap verdiğinden emin değilim. Yoksa cevabını yanlış mı anladım?

— amip diyor Reinstate Monica

λ

$\lambda$

λ_{0}

$\lambda_0$

p

$p$

p

$p$

λ \approx λ_{0}

$\lambda\approx\lambda_0$

{\hat{β}}_{p}

$\hat{\beta}_p$

Bu cevabın soruya gerçekten cevap vermediğini kabul et - Bunu

— almamı

Prensip olarak, eğer en iyi alt küme bulunursa, (1) gerçekten uyum sağlayan değişkenlerin seçilmesi, (2) uyum için katkıda bulunmayan değişkenlerin seçilmemesi açısından LASSO'dan daha iyidir, (3) tahmin doğruluğu ve (4) seçilen değişkenler için esasen tarafsız tahminler üretilmesi. LASSO üzerinden en iyi alt kümenin üstün kalitesini tartışan yeni bir makale Bertsimas ve arkadaşları (2016) "Modern bir optimizasyon lensi ile en iyi alt küme seçimi" dir . En iyi alt kümenin LASSO ya da sırttan daha iyi olduğu somut bir örnek veren (başak trenlerinin dekonvolüsyonunda) bir başka eski örnek de Rooi & Eilers (2011) tarafından yapılmıştır.

$L_0$ $L_1$ $L_0$ $L_q$ 0'a yakın q ile norm olarak cezalandırılmış regresyon prensipte LASSO'dan daha iyi alt küme seçimine daha yakın olacaktır, ancak bu artık dışbükey bir optimizasyon problemi değildir ve bu yüzden uyması oldukça zordur ).

LASSO'nun yanlılığını azaltmak için, uyarlanabilir LASSO (katsayıların en az kareler veya sırt regresyon uyumundan önceki bir tahmin temelinde farklı şekilde cezalandırıldığı) veya rahat LASSO (basit bir çözüm yapmak LASSO tarafından seçilen değişkenlere uyan en küçük kareler). En iyi alt kümeye kıyasla, LASSO biraz fazla değişken seçme eğilimindedir. En iyi alt küme seçimi daha iyidir, ancak sığması daha zordur.

$L_0$ en iyi alt küme, LASSO ve rahat LASSO gibi bazı LASSO varyantlarının kapsamlı bir karşılaştırmasını sağlar ve rahat LASSO'nun en geniş koşullar altında en yüksek model tahmin doğruluğunu üreten olan olduğunu iddia ederler, yani daha farklı bir sonuca vardılar. Bertsimas. Ancak hangisinin en iyi olduğu sonucu, en iyi düşündüğünüze çok bağlıdır (örneğin, en yüksek tahmin doğruluğu veya ilgili değişkenleri seçmede ve alakasız olanları seçmemekte en iyisi; sırt regresyonu tipik olarak çok fazla değişken seçer, ancak vakalar için tahmin doğruluğu yüksek oranda doğrusal değişkenler yine de gerçekten iyi olabilir).

Açıkladığınız gibi 3 değişken ile çok küçük bir sorun için açıkça anlaşılır en iyi alt küme seçimi tercih edilen seçenek olsa.

— Tom Wenseleers
kaynak

"Kementten daha iyidir" ifadesinde "daha iyi" ne anlama gelir?

— Matthew Drury

k

$k$

λ

$\lambda$

k

$k$

k

$k$

k

$k$

Cevabımı biraz daha ayrıntı vermek için biraz

— düzenledik

Cevapların hiçbirinin istikrar sorununu ele aldığını düşünmüyorum. Kademeli ve olası tüm altkümeler regresyonu gibi lasso, herkesin bildiği gibi istikrarsızdır. Başka bir deyişle, tüm süreci önyükleyecekseniz, seçilen özellikler listesinde çok fazla keyfilik bulacaksınız.

— Frank Harrell

Evet, LASSO tarafından seçilen değişkenler kararsız olabilir ve bu daha da iyi bir alt küme regresyonu için geçerlidir - elastik net regresyon bu açıdan biraz daha iyidir - o zaman çok fazla değişken içerir, ancak daha fazla istikrarlı bir şekilde, ve yüksek collinearity altında daha iyi tahmin doğruluğu verebilir. Ancak çok şey, uygulamanız için en önemli kriterin ne olduğuna bağlıdır - tahmin doğruluğu, alakasız değişkenleri dahil etmenin yanlış pozitif oranı veya yüksek derecede alakalı değişkenleri içermemenin yanlış negatif oranı ...

— Tom Wenseleers