Bire bir arada bırakılma çapraz onaylama genellikle K-katlamadan daha iyi performansa yol açmaz ve göreceli olarak yüksek bir varyansa sahip olduğundan daha kötü olma olasılığı yüksektir (yani değeri, farklı veri örnekleri için değerinden daha fazla değişir. k-katlama çapraz doğrulama). Bu, bir model seçim kriterinde kötüdür çünkü model seçim kriterinin, performanstaki gerçek iyileştirmeleri yapmak yerine, belirli bir veri örneğindeki rastgele varyasyondan yararlanan yollarla optimize edilebileceği, yani aşırı uyum sağlama olasılığınızın yüksek olduğu anlamına gelir. model seçim kriteri. Biri dışarıda bırakma çapraz onayının pratikte kullanılmasının nedeni, birçok model için, modelin uygun bir yan ürünü olarak çok ucuza değerlendirilebilmesidir.
Eğer hesaplama gideri öncelikli bir sorun değilse, daha iyi bir yaklaşım tekrarlanan k-kat çapraz doğrulama yapmaktır, burada k-kat çapraz doğrulama prosedürü her seferinde farklı rasgele bölümler ile k ayrık alt kümelere tekrarlanır. Bu, varyansı azaltır.
(Utanmaz bir fiş: my bkz sadece 20 desenleri varsa, uyan üzerinde istatistik ve makine öğrenimi çok daha ihmal tuzak modeli seçme kriterini, çok büyük olasılıkla sen yaşayacaksınız ise kağıt konuda). Nispeten basit bir model seçmekten daha iyi olabilir ve çok agresif bir şekilde optimize etmemeye çalışabilir veya uygunluklarına göre ağırlıklandırılmış tüm model seçeneklerine göre bir Bayesian yaklaşımı ve ortalamasını benimseyebilirsiniz. IMHO optimizasyonu, istatistiklerdeki tüm kötülüklerin kökenidir, bu yüzden gerekmediğinde optimizasyon yapmamak ve ne zaman yaparsanız dikkatli bir şekilde optimize etmek daha iyidir.
Ayrıca, model seçimi yapacaksanız, aynı zamanda bir performans tahminine ihtiyacınız varsa iç içe çapraz doğrulama gibi bir şey kullanmanız gerekir (yani, model seçimini, model montaj prosedürünün ayrılmaz bir parçası olarak düşünmeniz ve bunun çapraz doğrulamasını yapmanız gerekir. yanı sıra).