-kat çapraz onaylamada optimum kıvrım sayısı : bir-bir-dışa CV bırakma her zaman en iyi seçenek midir?


47

Hesaplama gücü hususları bir yana, çapraz onaylamada katlanma sayısının arttırılmasının daha iyi model seçimi / onaylamaya yol açtığına inanmak için herhangi bir sebep var mı (yani kat sayısı arttıkça daha iyi)?

Tartışmayı aşırı uç noktaya götürmek, dışarıda bırakmayı bırakma çapraz doğrulama mutlaka -katlı çapraz doğrulamadan daha iyi modellere yol açar mı?K

Bu soruya ilişkin bazı bilgiler: Çok az sayıda örneği olan bir sorun üzerinde çalışıyorum (örneğin, 10 pozitif ve 10 negatif) ve modellerimin çok az veriye genelleme yapamayacağından / bu konuda çok az veriye sahip olacağından korkuyorum.



Bu soru yinelenmez çünkü küçük veri kümeleri ve "Hesaplama gücü ile ilgili hususlar bir kenara" sınırlıdır. Bu, büyük veri setlerine sahip olanları ve hesaplama karmaşıklığına sahip eğitim algoritmasını örneklerin sayısında en az doğrusal olan (veya örneklerin sayısının en azının karekökü kestirimi) olan soruna uygulanamaz hale getiren ciddi bir sınırlamadır.
Serge Rogatch

Yanıtlar:


46

Bire bir arada bırakılma çapraz onaylama genellikle K-katlamadan daha iyi performansa yol açmaz ve göreceli olarak yüksek bir varyansa sahip olduğundan daha kötü olma olasılığı yüksektir (yani değeri, farklı veri örnekleri için değerinden daha fazla değişir. k-katlama çapraz doğrulama). Bu, bir model seçim kriterinde kötüdür çünkü model seçim kriterinin, performanstaki gerçek iyileştirmeleri yapmak yerine, belirli bir veri örneğindeki rastgele varyasyondan yararlanan yollarla optimize edilebileceği, yani aşırı uyum sağlama olasılığınızın yüksek olduğu anlamına gelir. model seçim kriteri. Biri dışarıda bırakma çapraz onayının pratikte kullanılmasının nedeni, birçok model için, modelin uygun bir yan ürünü olarak çok ucuza değerlendirilebilmesidir.

Eğer hesaplama gideri öncelikli bir sorun değilse, daha iyi bir yaklaşım tekrarlanan k-kat çapraz doğrulama yapmaktır, burada k-kat çapraz doğrulama prosedürü her seferinde farklı rasgele bölümler ile k ayrık alt kümelere tekrarlanır. Bu, varyansı azaltır.

(Utanmaz bir fiş: my bkz sadece 20 desenleri varsa, uyan üzerinde istatistik ve makine öğrenimi çok daha ihmal tuzak modeli seçme kriterini, çok büyük olasılıkla sen yaşayacaksınız ise kağıt konuda). Nispeten basit bir model seçmekten daha iyi olabilir ve çok agresif bir şekilde optimize etmemeye çalışabilir veya uygunluklarına göre ağırlıklandırılmış tüm model seçeneklerine göre bir Bayesian yaklaşımı ve ortalamasını benimseyebilirsiniz. IMHO optimizasyonu, istatistiklerdeki tüm kötülüklerin kökenidir, bu yüzden gerekmediğinde optimizasyon yapmamak ve ne zaman yaparsanız dikkatli bir şekilde optimize etmek daha iyidir.

Ayrıca, model seçimi yapacaksanız, aynı zamanda bir performans tahminine ihtiyacınız varsa iç içe çapraz doğrulama gibi bir şey kullanmanız gerekir (yani, model seçimini, model montaj prosedürünün ayrılmaz bir parçası olarak düşünmeniz ve bunun çapraz doğrulamasını yapmanız gerekir. yanı sıra).


8
+1. "Optimizasyon istatistikteki tüm kötülüklerin
kökenidir

5
@ DinranMarsupial teşekkürler. Tam olarak takip etmiyorum. Dışarıda bırakma ile öğrenilen modellerin neden normal k-kat çapraz onaylamaya göre daha yüksek varyansı var ? Sezgim bana, katlar arasında yalnızca bir veri noktasını değiştirdiğimize göre, katlar arası eğitim setlerinin yoğun bir şekilde üst üste geldiğini, bu yüzden modeller arasında küçük farklılıklar görmeyi beklediğimi söylüyor. Veya diğer yöne gitmek, K katında, eğer K düşükse, her kat için antrenman setleri oldukça farklı olacaktır ve sonuçta ortaya çıkan modellerin farklı olma olasılığı daha yüksektir. Yanlış mıyım?
Amelio Vazquez-Reina,

Bu kendi başına çok iyi bir soru, bu yüzden soruyu yeni bir soru olarak sormanızı öneririm ve nasıl cevaplanacağı hakkında bir fikrim olacak!
Dikran Marsupial

Teşekkürler @DikranMarsupial Tavsiyenizi takip ettim ve burada ayrı bir soru başlattım .
Amelio Vazquez-Reina,

1
@DikranMarsupial Ben bir daha başladıklarını burada söz düşündüm iplik bu yanıtında comment "istatistiklerinde optimizasyonu" senin esinlenerek. Yorumunuz, alıştığım daha geniş bir perspektiften daha fazla göz atmamı sağladı.
Amelio Vazquez-Reina,

8

Öğrenme kıvrımını dikkate alarak K kat sayısını seçmek

K

K

Özetlemek gerekirse, öğrenme eğrisi verilen eğitim seti boyutunda önemli bir eğime sahipse, beş veya on kat çapraz doğrulama doğru tahmin hatasını geçersiz kılacaktır. Bu önyargının pratikte bir sakınca olup olmadığı hedefe bağlıdır. Öte yandan, bir kez dışarıda bırakılan onaylamanın geçerliliği düşük önyargılıdır, ancak yüksek fark olabilir.

Bir oyuncak örneği kullanarak sezgisel bir görselleştirme

Bu argümanı görsel olarak anlamak için, gürültülü bir sinüs eğrisine 4. derece polinom eklediğimiz aşağıdaki oyuncak örneğini göz önünde bulundurun:

görüntü tanımını buraya girin

1±

görüntü tanımını buraya girin

Argümanı tartışmak

Eğitimin boyutu 50 gözleme yükseldikçe, modelin performansı önemli ölçüde artmaktadır. Sayıyı 200'e kadar yükseltmek, örneğin sadece küçük faydalar sağlar. Aşağıdaki iki durumu göz önünde bulundurun:

  1. 5K

  2. 505K

görüntü tanımını buraya girin

[Güncelleme] - Metodoloji üzerine yorumlar

Bu simülasyon kodunu burada bulabilirsiniz . Yaklaşım şuydu:

  1. sin(x)+ϵϵ
  2. iN
  3. i
    • Bir değeri için K katlama çapraz doğrulama yapınK
    • Ortalama Ortalama Kare Hatası (MSE) K-kıvrımları arasında saklayın
  4. iiK
  5. K{5,...,N}

Alternatif bir yaklaşım, her bir yinelemede ayarlanan yeni bir veriyi yeniden örneklememek ve bunun yerine her seferinde aynı veri kümesini yeniden karıştırmaktır. Bu da benzer sonuçlar veriyor gibi görünüyor.



@ Kod için teşekkür ederiz! Kodu çalıştırdım ama gerçek nasıl bildiğini anlamıyorum.1MSE1112

MSE=Var+Bias2ϵU(.5,.5)1/12(ba)21/12
Xavier Bourret Sicotte 17:18
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.