Hiperparametre çapraz doğrulamanın dışında ne kadar kötü ayar yapıyor?

20

Çapraz doğrulama dışında hiperparametre ayarlaması yapmanın, dış geçerliliğin yanlı yüksek tahminlerine yol açabileceğini biliyorum, çünkü performansı ölçmek için kullandığınız veri seti özellikleri ayarlamak için kullandığınız veri kümesiyle aynıdır.

Merak ettiğim bir problemin ne kadar kötü olduğu . Özellik seçimi için nasıl kötü olacağını anlayabiliyorum, çünkü bu size ayarlamanız gereken çok sayıda parametre veriyor. Peki ya LASSO (sadece bir parametresi, düzenlenme gücü olan) veya özellik seçimi olmayan rastgele bir orman (birkaç parametreye sahip olabilir, ancak gürültü özellikleri eklemek / bırakmak gibi dramatik bir şey yok) gibi bir şey kullanıyorsanız ne olacak?

Bu senaryolarda, eğitim hatası tahmininizin ne kadar iyimser olmasını beklersiniz?

Bu konuda herhangi bir bilgi için minnettar olurum - vaka çalışmaları, makaleler, fıkralar, vb. Teşekkürler!

DÜZENLEME: Ben değilim, netleştirmek için değil (yani hiç çapraz doğrulama kullanarak değil) eğitim verilerine modeli performansını tahmin bahsediyorum. "Çapraz-validasyonun dışında hiperparametre ayarı" ile kastediyorum, sadece her bir modelin performansını tahmin etmek için çapraz-validasyon kullanmak, fakat hiperparametre ayarlama prosedüründe aşırı uyumu düzeltmek için bir dış, ikinci çapraz-doğrulama döngüsü içermemek eğitim prosedürü sırasında aşırı sığdırma). Örneğin buradaki cevaba bakınız .

cross-validation validation hyperparameter

— Ben Kuhn
kaynak

17

Bu yanlılığın etkileri çok büyük olabilir. Bunun iyi bir örneği, bazı makine öğrenimi konferanslarında yer alan açık makine öğrenimi yarışmaları tarafından verilmektedir. Bunlar genellikle bir eğitim setine, bir doğrulama setine ve bir test setine sahiptir. Yarışmacılar, doğrulama seti veya test seti (açıkça) etiketlerini göremezler. Doğrulama seti, yarışma devam ederken herkesin görebileceği bir skor tahtasında rakiplerin sıralamasını belirlemek için kullanılır. Yarışma sonunda skor tablosunun başındaki kişilerin test verilerine dayanarak son sıralamada çok düşük olması çok yaygındır. Bunun nedeni, liderlik tablosundaki performanslarını en üst düzeye çıkarmak için öğrenme sistemlerinin hiper parametrelerini ayarlamış olmalarıdır ve bunu yaparken doğrulama verilerini fazla takmışlardır.modellerini ayarlayarak. Daha deneyimli kullanıcılar, lider tablosuna çok az dikkat eder veya hiç dikkat etmez ve yöntemlerini yönlendirmek için daha titiz tarafsız performans tahminleri benimser.

Makalemdeki örnek (Jacques tarafından bahsedilen), bu tür önyargıların etkilerinin öğrenme algoritmaları arasındaki farkla aynı boyutta olabileceğini göstermektedir, bu nedenle kısa cevap, eğer yanlıysanız önyargılı performans değerlendirme protokolleri kullanılmaz. neyin işe yarayıp neyin yaramadığını bulmakla gerçekten ilgilenir. Temel kural, "model seçimini (örn. Hiper-parametre ayarlama) model montaj prosedürünün ayrılmaz bir parçası olarak ele al ve performans değerlendirmesi için kullanılan çapraz validasyonun her katına dahil etmesidir.

Düzenlemenin özellik seçiminden daha fazla uyuma daha az eğilimli olması, LASSO vb.'nin özellik seçimini gerçekleştirmenin iyi yolları olmasının sebebidir. Bununla birlikte, yanlılığın boyutu özelliklerin sayısına, veri kümesinin büyüklüğüne ve öğrenme görevinin doğasına bağlıdır (yani, belirli bir veri kümesine bağlı olan ve uygulamadan uygulamaya değişecek bir öğe vardır). Bunun verilere bağlı doğası, tarafsız bir protokol kullanarak sapmanın boyutunu tahmin etmekten ve farkı karşılaştırmaktan daha iyi olduğunuz anlamına gelir (yöntemin, bu özel durumda model seçiminde aşırı uydurmaya dayanıklı olduğunu bildirmek ilgi çekici olabilir) kendi içinde).

GC Cawley ve NLC Talbot (2010), "Model seçiminde aşırı uyum ve performans değerlendirmede müteakip seçim yanlılığı", Makine Öğrenimi Araştırmaları Dergisi, 11, s.2079, bölüm 5.2.)

— Dikran Keseli
kaynak

7

Bahsettiğiniz önyargı hala esas olarak aşırı takmaya bağlıdır.
Düzenleme hiperparametresini düzeltmek için sadece çok az modeli değerlendirerek ve makul seçimde düşük bir karmaşıklığa giderek riski düşük tutabilirsiniz.
@MarcClaesen'in belirttiği gibi, sizin için çalışan öğrenme eğrisine sahipsiniz, bu da önyargıyı biraz azaltacaktır. Ancak öğrenme eğrisi tipik olarak sadece çok az durum için diktir ve daha sonra aşırı uydurma çok daha fazla bir sorundur.

Sonunda, önyargının çok fazla

veriler (tek değişkenli bir problemi değiştirmek zor ...) ve
senin deneyim ve modelleme davranışı: Ben modelin tipine ve uygulama ve hem de yeterince deneyime sahip olmadığını modeliniz için kabaca uygun karmaşıklığına karar ediyorum mümkündür düşünüyorum son derece iyi davrandım ve sonuç çıkmadığı takdirde daha karmaşık modeller için cazip. Ama elbette, sizi tanımıyoruz ve bu nedenle modellemenizin ne kadar muhafazakar olduğunu yargılayamıyoruz.
Ayrıca, süslü istatistiksel modelinizin oldukça öznel olduğunu ve bir doğrulama yapmak için vakanızın olmadığını kabul etmek, genellikle istediğiniz şey değildir. (Genel sonucun daha iyi olacağı tahmin edilen durumlarda bile.)

LASSO kullanmıyorum (değişken seçim fiziksel nedenlerle verilerim için pek mantıklı değil), ancak PCA veya PLS genellikle iyi çalışır. Bir sırt, LASSO'ya yakın ve bu tür veriler için daha uygun bir alternatif olacaktır. Bu verilerle "kısayol validasyonu" üzerinde uygun bağımsız (dış) çapraz validasyona karşı daha büyük bir yanlış sınıflandırma gördüm. Ancak bu aşırı durumlarda, deneyimim kısayol doğrulamasının kuşkuyla iyi göründüğünü söylüyor, örn.% 2 yanlış sınıflandırma =>% 20 uygun çapraz doğrulama ile.

Yine de, sorunuza doğrudan uygulanan gerçek sayılar veremem:

Şimdiye kadar, alanımda meydana gelen ve veri sızıntılarına yol açan diğer "kısayollar" türlerine daha fazla önem verdim, örneğin hastalar yerine çapraz doğrulama spektrumları (büyük önyargı!% 10 yanlış sınıflandırma gösterebilirim ->% 70 = arasında tahmin 3 sınıf) veya çapraz doğrulamaya PCA dahil değildir (% 2 - 5 ->% 20 - 30).
Karşılayabileceğim tek çapraz doğrulamanın model optimizasyonu veya doğrulamaya harcanması gerekip gerekmediğine karar vermem durumunda, her zaman doğrulamaya karar verir ve karmaşıklık parametresini deneyime göre düzeltirim. PCA ve PLS, düzenlileştirme tekniklerinin yanı sıra iyi çalışır, çünkü karmaşıklık parametresi (# bileşenleri) sorunun fiziksel / kimyasal özellikleriyle doğrudan ilişkilidir (örneğin, kaç tane kimyasal olarak farklı madde grubunun önemli olmasını beklediğime dair iyi bir tahminim olabilir). Ayrıca, fiziko-kimyasal nedenlerden dolayı, bileşenlerin spektrumlara benzemesi gerektiğini biliyorum ve gürültülü ise, aşırı uyuyorum. Ancak deneyim, önceki bir deneyden elde edilen eski bir veri setindeki model karmaşıklığını, genel olarak hiperparametrelerin transferini haklı gösterecek ve daha sonra kullanacak kadar benzer hale getirebilir.yeni veriler için normalleştirme parametresi.
Bu şekilde, en uygun modele sahip olduğunu iddia edemem, ancak elde edebileceğim performans hakkında makul bir tahmin yaptığımı iddia edebilirim.
Ve sahip olduğum hasta sayısı ile, istatistiksel olarak anlamlı model karşılaştırmaları yapmak imkansızdır (unutmayın, toplam hasta numaram, tek bir oranın tahmin edilmesi için önerilen örnek boyutunun altındadır [@FrankHarrell'in verdiği kurala göre]).

Neden verilerinize olabildiğince yakın bazı simülasyonlar çalıştırmıyorsunuz ve ne olduğunu bize bildirmiyorsunuz?

Verilerim hakkında: Spektroskopik verilerle çalışıyorum. Veri setleri tipik olarak geniştir: birkaç on bağımsız vaka (hastalar; vaka başına tipik olarak çok sayıda ölçüm olsa da. Ham verilerde yaklaşık 10³ değişkenlik gösterir. ve spektral çözünürlüğü azaltmak için.

— cbeleites Monica'yı destekler
kaynak

5

Eğer varsa sadece kement için hyperparameter seçerek, iç içe geçmiş bir CV gerek yoktur. Hiper parametre seçimi tek / düz CV etkileşimlerinde yapılır.

$\lambda$

$L_i$ $T_i$ $\lambda^*$ $T_i$ $L_i$

$\lambda^*$

(Bu, hiperparametreleri seçmek için tek yöntem değildir, ancak en yaygın olanıdır - GC Cawley ve NLC Talbot (2010) tarafından tartışılan ve eleştirilen "medyan" prosedür de vardır , "Model seçimine ve sonradan seçim yanlılığına aşırı uyum performans değerlendirmesinde ", Makine Öğrenimi Araştırmaları Dergisi, 11 , s.2079 , bölüm 5.2.)

$\lambda^*$ $\lambda^*$

Bu tahminin yanlılığını ölçmede iki deneysel sonuç biliyorum (sentetik veri kümeleri için gerçek bir genelleme hatasına kıyasla)

yukarıdaki Cawley ve Talbot gazetesi
Varna ve Simon (2006), "Model seçimi için çapraz validasyon kullanılırken hata tahmininde yanlılık", BMC Biyoinformatik , 7 , 91.

her ikisi de açık erişim.

Aşağıdaki durumlarda yuvalanmış bir CV'ye ihtiyacınız vardır:

a) LASSO ve diğer algoritmalar arasında, özellikle hiperparametreleri varsa,

$\lambda^*$

$\lambda ^*$

Son olarak, iç içe CV, beklenen genelleme hatasının makul bir tarafsız tahminini hesaplamanın tek yolu değildir. En az üç teklif daha var

Ding ve diğ. Birçok makine öğrenimi modelinden minimal hata sınıflandırıcısını seçmek için önyargı düzeltmesi BioInformatics 30 (22) bir önermeye sahiptir ve ağırlıklı ortalama düzeltme ve Tibshirani-Tibshirani prosedürünü diğer iki ile karşılaştırır (makaledeki referanslara bakın).

— Jacques Wainer
kaynak

2

"Hiperparametre seçimi için CV yok" ile ne demek istediğinizi açıklayabilir misiniz? Yazdıklarından, OP'yi yuvalamayı yapmadığı konusunda uyarmak isteyip istemediğini veya genel olarak böyle bir şeyin olmadığını belirterek anlayamıyorum.

— cbeleites

(+1) sorunun kısa bir açıklaması ve iyi referanslar için. Ancak, @cbeleites'in belirttiği gibi, ilk cümle oldukça kafa karıştırıcı: OP'nin sahip olmadığı bir yanlış anlaşılmayı düzeltmek gibi görünüyor.

— Scortchi - Monica'yı eski durumuna döndürün

@cbeleites (ve Scortchi) - OP "EDIT:" 'a yanıt veriyorum (burada (inanıyorum) parametreleri seçmek için CV kullandığını iddia ediyor ("sadece her bir modelin performansını tahmin etmek için çapraz doğrulama") ve iç içe bir CV kullanmadığından endişe duyuyor ("hiperparametre ayarlama prosedüründe aşırı sığdırmayı düzeltmek için dış, ikinci bir çapraz doğrulama döngüsü içermiyor"). Ona parametre seçiminde hiçbir dış CV olmadığını söylemeye çalışıyordum.

— Jacques Wainer

@JacquesWainer: Prosedürün örnek dışı performansını (durumunuz b ) tahmin ederken , iç içe CV kullanarak bir şekilde hiperparametrenin seçilen değerini düzeltmek yerine "hiperparametre ayarlama prosedürü dahilinde aşırı takma düzeltmek" istediğine inanıyorum . Her halükarda, düzenlemeniz cevabınızın başlangıcını netleştirir.

— Scortchi - Monica'yı eski durumuna döndürün

Evet, "hiperparametre ayarlama prosedürü dahilinde aşırı uyum için [saf performans tahmini] 'ni düzeltmek", "aşırı uyum sağlamak için [ayarlanmış hiperparametreleri] düzeltmek değil" ya da bunun gibi bir şey demek istedim. Karışıklık için özür dilerim; Daha açık bir şekilde parametre seçimi değil, hata tahmini konusunda endişelendiğimi belirtmeliydim.

— Ben Kuhn

2

SVM, sinir ağları, rastgele orman gibi herhangi bir karmaşık öğrenme algoritması, sonuç olarak kesinlikle korkunç genelleştirme performansı ile (örneğin zayıf / düzenli olmayan bir şekilde) izin verirseniz% 100 eğitim doğruluğuna ulaşabilir.

$\kappa(\mathbf{x}_i,\mathbf{x}_j) = \exp(-\gamma\|\mathbf{x}_i-\mathbf{x}_j\|^2)$ $\gamma=\infty$ $100\%$

Kısacası, egzersiz setinizde bağımsız bir test setinde kesinlikle hiçbir şey öğrenmeyen mükemmel bir sınıflandırıcıyla kolayca sonuçlanabilirsiniz. Bu ne kadar kötü.

— Marc Claesen
kaynak

Modeli çapraz geçerliliğin dışında eğitmekten bahsetmiyorum . Hiperparametrelerin ayarlanması hakkında konuşuyorum (ve yine de her bir hiperparametre kümesinin performansını tahmin etmek için çapraz doğrulamayı kullanıyorum). Bunu açıklığa kavuşturmak için yayını düzenleyeceğim.

— Ben Kuhn

100 %

$100\%$

Neden çapraz doğrulamayı kullanmamayı düşünüyorsun? Özellikle, "... ve yine de her hiperparametre kümesinin performansını tahmin etmek için çapraz doğrulamayı kullanıyorum" dedim.

— Ben Kuhn

1

γ = \infty

$\gamma = \infty$

γ

$\gamma$

γ

$\gamma$

2

Sorunuzu tamamen yanlış anladım. Düzenlemeden önce oldukça kafa karıştırıcıydı. İlgilendiğiniz önyargı bu arada mutlaka olumlu değildir; çünkü birçok yaklaşım daha fazla eğitim verisi verildiğinde, özellikle küçük eğitim setleri + çapraz doğrulama için önemli ölçüde daha iyi modeller ortaya çıkarmaktadır.

— Marc Claesen