Kement için optimum ceza seçimi


15

ceza dönemi katsayısının optimum seçimine ilişkin analitik sonuçlar veya deneysel makaleler var mı ? By optimum , en iyi modeli, ya da bu en aza indirir beklenen kayıp seçilmesi olasılığını maksimize bir parametre anlamına gelir. Ben soruyorum çünkü sık sık çapraz doğrulama veya önyükleme ile parametre, ya çok sayıda örnek nedeniyle ya da eldeki sorunun boyutu nedeniyle seçmek pratik değildir. ettiğim tek olumlu sonuç Candes and Plan, minimizasyonuyla ideal model seçimi .111


2
Kement için tutarlılık sonuçları sağlayan kağıtların farkında mısınız? Knight & Fu (2000), Yu & Zhao (2006) ve Meinshausen'in çeşitli makaleleri.
kardinal

Evet, ama sorum asimptotik tutarlılıkla ilgili değil, bahsettiğiniz makalelerin konusu.
gappy

1
Bu makaleler (öncelikli olarak) model seçim tutarlılığıyla ilgilidir. Söylemiş olduğum soru ile çok ilgili olduğunu söyleyebilirim . :)
kardinal

Yanıtlar:


2

Bu Bickel ve ark. . Hata yönünden istatistiksel olarak uygun bir seçim olduğu \ lamda = A \ Sigma _ {\ metni {gürültü}} \ sqrt {\ dfrac {\ logP } {n}} (yüksek olasılıkla), sabit A> 2 \ sqrt {2} için .yy^(λ)22λ=AσnoiselogpnA>22


gerektirdiği için bu faturaya uymuyor gibi görünüyor . Aslında, kare kök kementini motive eden tam olarak bu problemdir ( arxiv.org/pdf/1009.5689.pdf )σnoise
user795305

5

makalede olduğu gibi çoğunlukla regresyonla ilgilendiğinizi ve -penalty'nin diğer uygulamalarıyla (grafik kement, diyelim) düşünüyorum.1

Daha sonra Zou ve ark. Tarafından Kementin “serbestlik derecesi” konulu makalede bazı cevapların bulunabileceğine inanıyorum . Kısaca, kare hata hatası için CV'yi analitik bir tipi istatistik ile değiştirmenize izin veren etkili serbestlik dereceleri için analitik bir formül verir .Cp

Bakılacak başka bir yer de Dantzig seçicisidir: p, n'den çok daha büyük olduğunda istatistiksel tahmin ve İstatistik Yıllıkları aynı sayıdaki tartışma kağıtları. Anladığım kadarıyla, kement regresyonu ile ilgili ancak sabit bir ceza katsayısı seçimi olan bir sorunu çözdükleri. Ancak lütfen tartışma belgelerine de bir göz atın.

Tahminle değil, model seçimiyle ilgileniyorsanız, benzer sonuçların farkında değilim. Tahmin optimal modelleri genellikle regresyon modellerinde çok fazla sayıda seçili değişkenle sonuçlanır. Kağıt olarak Stabilite seçimi Meinshausen ve Bühlmann hediyeler bir subsampling tekniği modeli seçimi için daha kullanışlı, ama çok hesaplama ihtiyaçlarınız için talep edilebilir.


(+1) Bu makalelerin üçü de bu konuyla ilgilenenler için dikkatli bir okumaya değer. Dantzig seçici kağıdında çok güzel bir matematik var; ancak, uygulamalarda çok fazla çekiş görmediğini de görmedim. Bence, diğer şeylerin yanı sıra, çok gürültülü düzenlenme yolları insanları sinirlendirir ve bu nedenle, kement üzerinde belirgin bir yararı olmadan, onu zor bir satış haline getirir.
kardinal

Hum, düzenlileştirme parametresinin belirli bir değeri için sıfır olmayan katsayıların sayısının, bu değerdeki DoF'ler için tarafsız bir tahmin olmasına rağmen, bu tahminin son derece yüksek varyans olduğunu unutmayın.
dohmatob

1

Bu soru sorulduğundan, ilginç ilerlemeler kaydedilmiştir. Örneğin, bu makaleyi düşünün

Chichignoud, M., Lederer, J. ve Wainwright, M. (2016). Kementi Optimallik Garantileri ile Ayarlamak için Pratik Bir Şema ve Hızlı Algoritma. Makine Öğrenimi Araştırmaları Dergisi, 17, 1-17.

Model seçimi için kanıtlanabilir sonlu örnek garantileri ile LASSO ayarlama parametresini seçmek için bir yöntem önerirler. Makalede söyledikleri gibi, "Standart Kalibrasyon şemaları için, aralarında Çapraz Geçerlilik, literatürde karşılaştırılabilir hiçbir garanti yoktur. Aslında, standart kalibrasyon şemaları için herhangi bir sınırlı numune garantisinin farkında değiliz".


0

Bu, sorunuza cevap vermez, ancak: büyük bir veri ayarında, düzenleyiciyi çapraz doğrulamada (veya önyükleme için daha fazla) 10 kez yapmak yerine, tek bir tren / test bölümü kullanarak ayarlamak iyi olabilir. Devset için seçilen örneğin büyüklüğü ve temsili, optimum düzenleyicinin tahmininin doğruluğunu belirler.

Deneyimlerime göre, uzak tutma kaybı önemli bir düzenleyici aralıkta nispeten düzdür. Eminim bu gerçek başka problemler için geçerli olmayabilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.