Çapraz doğrulama kullanılırken bir standart hata kuralı için ampirik gerekçe


38

Tek bir standart hata kuralının para cezası lehine kullanılmasını haklı çıkaran ampirik çalışmalar var mı? Açıkçası, verilerin veri oluşturma sürecine bağlıdır, ancak büyük bir veri kümesini analiz eden herhangi bir şey çok ilginç bir okuma olacaktır.


Modeller çapraz onaylama yoluyla (veya daha genel olarak herhangi bir randomizasyon temelli prosedür aracılığıyla) seçildiğinde "bir standart hata kuralı" uygulanır.

modellerini karmaşıklık parametresiyle indekslenmiş olarak kabul ettiğimizi farz edelim , öyle ki tam olarak olduğunda dan" daha karmaşık "olur . Ayrıca, modelinin kalitesini bazı çaprazlama süreçleriyle, örneğin çapraz doğrulama yoluyla değerlendirdiğimizi varsayın . nin "ortalama" kalitesini , örneğin birçok çapraz doğrulama çalışmasında ortalama torba dışı tahmin hatasını göstermesini sağlayın . Bu miktarı en aza indirmek istiyoruz . τ R M τ M τ ' τ > τ ' M q ( M ) MMττRMτMττ>τMq(M)M

Bununla birlikte, kalite ölçütümüz bazı randomizasyon prosedürlerinden geldiğinden değişkenlikle gelir. Let kalitesinin standart hata ifade randomizasyon çalışır arasında, örneğin, bir dışı torba tahmini hatanın standart sapma çapraz doğrulama ishal üzerinden.M Ms(M)MM

Sonra modeli seçmek nerede, küçüğüdür böyle τ τMτττ

q(Mτ)q(Mτ)+s(Mτ),

burada en iyi model, (ortalama) endeksler . q ( M τ ' ) = dakika τ q ( M τ )τq(Mτ)=minτq(Mτ)

Diğer bir deyişle, randomizasyon prosedüründe en iyi modelinden daha kötü bir standart hatadan daha basit olmayan en basit modeli (en küçük ) seçiyoruz .M τ τMτ

Bu "bir standart hata kuralı" nı, aşağıdaki yerlerde belirtilen, ancak hiçbir zaman kesin bir gerekçeyle belirtmedim:


7
"Bir Standart Hata Kuralı" ile neyi kastettiğinizi bilmeme rağmen, birçok insanın yapamayacağından, ancak bu soruya ilgi duyacaklarından şüpheleniyorum. Belki birkaç açıklayıcı cümle eklemek için düzenleme yapabilirsin? (Sadece bir öneri ...)
jbowman

2
@jbowman: Ben sadece bir standart hata kuralını açıklamak için soruyu düzelttim, bununla da ilgileniyorum çünkü onu çarpıyordum ... ve aşağıdaki cevap gerçekten sorularıma cevap vermiyor. Herkes geliştirmek için çekinmeyin.
S. Kolassa - Monica


2
Bir makale için iyi bir konu olur. Mantıklı bir mühendislik sezgiseline benziyor, ancak tüm SEH'ler pratikte çalışmıyor, bu nedenle çok sayıda veri kümesi üzerinde çalışmak ilginç olabilir. Çok iyi kalibre edilmediği anlamına gelebilecek bir çok hipotez test sorunu olup olmadığını merak ediyorum, ancak bu tür aşırı ayarlamaların veri bankasında hiçbir şey yapmamaktan daha iyi olacağını düşünmüştüm. sorun. Sorun, sorunu olmayan veri kümelerinde performansı daha da kötüleştiriyor mu?
Dikran Marsupial

Yanıtlar:


12

Aşağıdaki ampirik bir çalışma değildir , bu yüzden aslında bir yorum olarak göndermek istedim, bir cevap değil - ama gerçekten bir yorum için çok uzun olduğu ortaya çıktı.

Cawley ve Talbot ( Makine Öğrenimi Araştırması J , 2010) , model seçimi aşamasında fazladan takma ve model montajında ​​fazladan takma arasındaki farka dikkat çekmektedir.

İkinci tip fazladan takma, çoğu insanın aşina olduğu şeydir : belirli bir model göz önüne alındığında , onu fazladan almak istemeyiz, yani tipik olarak sahip olduğumuz tek veri setinin belirli tanımlarına çok yakından uydurmak istemeyiz. ( Bu, büzülme / düzenlileşmenin, varyanstaki büyük düşüşe karşı önyargıdaki küçük bir artışla işlem yapmasıyla yardımcı olabileceği yerdir. )

Ancak, Cawley ve Talbot, model seçim aşamasında da tam olarak kullanabileceğimizi savunuyor. Sonuçta, yine de tipik olarak sadece tek bir veri setimiz var ve farklı karmaşıklıktaki farklı modeller arasında karar veriyoruz. Bir aday modelini seçmek için her aday modelin değerlendirilmesi, genellikle bu modelin uygun hale getirilmesi veya yapılmaması ile yapılabilmesidir. Ancak bu değerlendirme kendi içinde tekrar rastgele bir değişkendir, çünkü sahip olduğumuz belirli veri setine bağlıdır. Bu nedenle “optimal” bir model seçimimiz kendi içinde bir önyargı sergileyebilir ve popülasyondan alabileceğimiz tüm veri kümelerindeki spesifik veri kümesine bağlı olarak bir farklılık gösterecektir .

Bu nedenle Cawley ve Talbot, bu değerlendirmede en iyi performansı gösteren modeli seçmenin küçük yanlılığa sahip bir seçim kuralı olabileceğini, ancak büyük farklılıklar gösterebileceğini savunuyor. Yani, aynı veri üretme sürecinden (DGP) farklı eğitim veri setleri göz önüne alındığında, bu kural daha sonra aynı DGP'yi takip eden yeni veri kümelerinin öngörülmesi için kullanılacak ve kullanılacak çok farklı modeller seçebilir. Bu ışıkta, model seçim prosedürünün varyansını sınırlamak, ancak daha basit modellere doğru küçük bir önyargıya maruz kalmak, örneklemeden daha küçük hatalara neden olabilir.

Cawley ve Talbot bunu açıkça tek bir standart hata kuralına bağlamamaktadır ve “modelleme modelini düzenleme” ile ilgili bölümleri çok kısadır. Bununla birlikte, tek bir standart hata kuralı tam olarak bu düzenlileştirmeyi gerçekleştirir ve model seçimindeki varyans ile çanta dışı çapraz doğrulama hatasının varyansı arasındaki ilişkiyi dikkate alır.

Örneğin, aşağıda, Hastie, Tibshirani ve Wainwright (2015) tarafından Sparsity ile İstatistiki Öğrenmenin Şekil 2.3 olduğu görülmektedir . Model seçiminde varyans, siyah çizginin taşınması en düşük düzeyde verilir. Burada, minimum çok belirgin değildir ve çizgi oldukça zayıf dışbükeydir, bu nedenle model seçimi muhtemelen yüksek bir değişkenlikle belirsizdir. Ve OOB CV hata tahmininin varyansı elbette standart hataları gösteren çoklu açık mavi çizgilerle verilmiştir.

bir standart hata kuralı


1
Haha, bu aramayı dene (veya sorguna kısa çizgi koy).
amip diyor Reinstate Monica

2
Eğer sadece bir düzenleme parametreniz varsa, o zaman bu tip aşırı uydurma çok fazla problemli olmayacak (optimizasyon problemi sadece bir serbestlik derecesine sahip olduğu için), ancak birçok düzenleme parametreniz varsa (örneğin, sinir ağları için otomatik alaka düzeyi tespiti) o zaman hızlı bir şekilde son derece önemli olabilir. Bir sd yöntemi, normalleştirme parametresini aşırı derecede optimize etmekten kaçınmak için güzel bir buluşsal yöntemdir, ancak biraz daha gerekçelendirecek bir şeyi denemek ve bir şeylere sahip olmak güzel olurdu (1/2)
Dikran Marsupial

1
(Bayan Marsupial ve ben) araştırdığımız iki yaklaşım, hiper parametrelerini analitik olarak entegre edilen bir hiper-hiper parametresi ile düzenlemek ( jmlr.csail.mit.edu/papers/volume8/cawley07a/cawley070.pdf) ) veya hiper parametrelerinin bazılarını parametrelere dönüştürmek ve ekstra bir düzenlileştirme parametresi eklemek pahasına bunları doğrudan verilere de sığdırmak (ancak yine de model seçiminde serbestlik derecelerini azaltan, bu yüzden yine de yardımcı olur) () theoval.cmp.uea.ac.uk/publications/pdf/nn2014a.pdf ) (2/2)
Dikran Marsupial

1
λ

1
@DikranMarsupial'ın bahsettiği optimizasyon-lambda-vs-marginalizing-over-lambda konusu ile ilgili bir konu, istatistik.stackexchange.com/questions/24799 . Bu tartışma, sırt regresyonu ile ilgilidir ve marjinalleşme muhtemelen (?) Kement / elastik net / etc için daha zordur, oysa CV'nin güzelliği bu kadar kolay değildir.
amip diyor Reinstate Monica

11

Ampirik bir gerekçelendirmek için, Tibshirani veri madenciliği ders notlarında sayfa 12'ye bakın, bu da CV hatalarını belirli bir modelleme problemi için lambda'nın bir işlevi olarak gösterir. Öneri, belli bir değerin altında, tüm lambadaların yaklaşık olarak aynı CV hatası verdiğini gösteriyor. Bu anlamlıdır, çünkü sırt regresyonundan farklı olarak, LASSO tipik olarak tahmin doğruluğunu arttırmak için yalnızca veya hatta birincil olarak kullanılmaz. Ana satış noktası, en az ilgili / değerli öngörücüleri ortadan kaldırarak modelleri daha basit ve daha yorumlanabilir hale getirmesidir.

λL1


1
Bu cevabın mantığını anlamıyorum. Örneğin: "sırt regresyonundan farklı olarak, LASSO tahmin doğruluğunu iyileştirmek için bir mekanizma değildir" - neden? L1 neden L2'den bu kadar farklı? Bir sonraki cümleyle, düşük lambdalar için L1 ile olanları tarif edersiniz, ama aynı şeylerin düşük lambdalar için L2 ile de olduğunu düşünüyorum.
amip diyor Reinstate Monica

1
Bunun bir sezgisel açıklama olduğunu ve tüm tahmincilerin bilgi verici olduğu gibi bazı dengesiz varsayımlara dayandığını unutmayın. Bir ton gürültü öngörücüsü ve birkaç bilgilendirici bilginiz varsa, aslında CV metrikini açık ve belirgin bir şekilde optimize eden bir lambda değeri olabilir: bilgilendirici öngörücüler alt kümesinin seçilmesine karşılık gelir. Lambda bu değerin altına düştüğünde, sadece gürültüye izin veriyor ve modele zarar veriyorsunuz.
Paul,

1
Bence argüman sırt ve kement için eşit derecede iyi çalışır, eğer daha fazla düzenlileştirme -> daha basit bir model olan geniş bir parantez tanımı kullanıyorsanız. Ancak, L1 için motive etmek, kullandıkları farklı sorun ve veri setleri nedeniyle L2'den daha kolaydır. L1 kullanan insanlar basit bir modele sahip olmakla daha fazla ilgileniyorlar ve Tibshirani tarafından sergilenen bir tür CV hata eğrisiyle karşılaşmaları daha olası.
Paul

1
Klasik ESL metninden, s. 224: “Genellikle“ tek standart bir hata ”kuralı, en iyi modelin hatasından daha fazla standart hatadan daha fazla olmayan en temel modeli seçtiğimiz çapraz doğrulama ile kullanılır.” Verilen örnek alt küme regresyonu olup, öngörücü sayısına karşı diz şeklinde bir eğri gösterilmiştir. Eğri, yukarıda belirttiğim açıklama ile tutarlı olan doğru tahmincilerin # üzerinde düz. Hiçbir titiz veya matematiksel gerekçeden söz edilmez.
Paul

1
Bu yüzden bence asıl mesele, asgari şartın düşük olduğu, ancak asgari oranın bir sigması içindeki en düzenli modelin iyi tanımlanmış olduğu.
Paul

1

λλS^(λ)λ

λP(S0S^(λ))1S0

Bu, Bühlmann ve van de Geer tarafından yüksek boyutlu veriler için İstatistikler'de rapor edilmelidir .

λ


1
Burada biraz daha ayrıntıya girebilir misiniz? Bu büyüleyici görünüyor.
DavidShor

1
λ

Gerçekte gereğinden fazla değişken seçmenin, tahmin performansını yeteri kadar değişken seçmemekten daha az düşüreceğini düşünüyorum. Bu nedenle CV daha fazla değişken seçme eğilimindedir.
Donbeo


Bu demek istediğim kitap
Donbeo
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.