Elastik bir ağ regresyonunda lambda neden “minimumdan bir standart hata içinde” lambda için önerilen bir değerdir?


24

Lamda'nın esnek-net bir regresyonda oynadığı rolü anlıyorum. Ve neden lambda.min'i seçtiğini anlayabiliyorum, çapraz doğrulanmış hatayı en aza indiren lambda'nın değeri.

Benim sorum şudur : İstatistik literatüründe lambda.1se kullanımı tavsiye edilir, yani CV hatasını artı bir standart hatayı en aza indiren lambda değeri nedir? Resmi bir alıntı ya da bunun genellikle iyi bir değer olmasının bir nedeni bile bulamıyorum. Bunun daha kısıtlayıcı bir düzenlileştirme olduğunu ve parametreleri sıfıra doğru daraltacağını biliyorum, ancak lambda.1se'nin lambda.min yerine daha iyi bir seçim olduğu koşullardan her zaman emin değilim. Biri açıklamaya yardımcı olabilir mi?


5
Resmi bir referans Hastie ve diğ. "İstatistiksel Öğrenmenin Elemanları" sayfa 61. Ancak, bu seçim için pek bir gerekçe göstermiyorlar ...
Richard Hardy

Yanıtlar:


22

Friedman, Hastie ve Tibshirani (2010) , İstatistiki Öğrenmenin Unsurlarına atıfta bulunarak ,

En iyi modeli seçerken genellikle “bir standart hata” kuralını kullanırız; bu, risk eğrilerinin yanlış tahmin edildiğini, dolayısıyla para cezasına çarptığını kabul eder.

Başka bir miktarın aksine bir standart hatanın kullanılmasının nedeni, bunun ... iyi olduğu gibi görünüyor. Krstajic, et al (2014) (kalın vurgulu maden) yazıyor:

Breiman ve diğ. [25], sınıflandırma ağacı modelleri için optimal ağaç boyutunun seçilmesi durumunda, minimum çapraz doğrulama hatası olan ağaç boyutunun, genellikle üste oturan bir model ürettiğini bulmuşlardır. Bu nedenle, Breiman ve ark. [25] en uygun ağaç boyutunu seçmek için bir standart hata kuralını (1 SE kuralı) tanımlar ve kitap boyunca uygularlar. Tek V-kat çapraz doğrulama için standart hatayı hesaplamak için her kat için doğruluk hesaplanmalı ve standart hata her kattan V doğruluklarından hesaplanmalıdır. Hastie ve diğ. [4], 1 SE kuralını, hatası en iyi modelin hatasının üzerinde bir standart hatadan daha fazla olmayan en temel modeli seçmek olarak tanımlarlar ve birçok yerde, genel çapraz doğrulama kullanımı için 1 SE kuralını kullanarak birkaç yerde önerirler.Kabul ettiğimiz 1 SE kuralının asıl amacı, doğruluğu en iyi modelle karşılaştırılabilecek en basit modeli seçmektir .

λ


1
Teşekkür ederim! Şimdi nihayet "standart" lambda seçimine aşina olmayanlar için soru ortaya çıktığında uygun bir şeyden alıntı yapabilirim. Krstajic ve arkadaşlarının bağlantısı da harika görünüyor.
jhersh

Bu alıntı sadece “ sınıflandırma için 1se'nin optimal olduğu bulundu” diyor . Ancak soru gerileme hakkında sordu ! Alternatifler var. Örneğin 2se'ye geri adım atmayı denersek, lambda'nın çok büyük olması ve katsayıları çok fazla küçültmesi sorununu yaşarız. Fakat örneğin orijinal modelde lambda.1se'de seçilmeyen tüm değişkenleri hariç tutan modeli yeniden inşa edebiliriz.
smci

@smci hangi alıntı? Çıkardığım alıntılardan hiçbirinde değil, her ikisi de 1-SE kuralının sadece sınıflandırmada değil, genel olarak geçerli olduğunu göstermektedir.
shadowtalker

6

Breiman ve diğ. (Diğer cevabın Krstajiç'ten yaptığı alıntıya atıfta bulunulan) kitabı 1SE kuralı için bulduğum en eski referans.

Bu Breiman, Friedman, Stone ve Olshen'in Sınıflandırma ve Regresyon Ağaçlarıdır (1984). Bu kuralı bölüm 3.4.3'te "türetmektedir".

Yani resmi bir alıntıya ihtiyacınız varsa, bu orijinal kaynak gibi görünüyor.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.