Çapraz doğrulama işleminden sonra tam veri setiyle çalışmak her zaman iyi bir fikir midir? Başka bir yol tut, çok ile tren ok tüm benim veri kümesindeki örnekleri ve değil bu özel uydurma olmadığını kontrol edememek overfits ?
Sorun hakkında bazı bilgiler:
Diyelim ki parametreleştirilmiş bir model ailesi var . Ayrıca, bir veri noktalarım olduğunu ve verileri en iyi şekilde genelleştiren modeli seçmek için k-kat çapraz doğrulama ile model seçimi yaptığımı söyleyin . N
Model seçimi için, örneğin, her aday için k-kat çapraz onaylama yaparak üzerinde bir arama yapabilir (örneğin bir ızgara araması) . Çapraz doğrulamadaki kıvrımların her birinde, öğrenilen model .
Çapraz onaylama noktası, bu kıvrımların her biri için, öğrenilen modelin "görünmeyen veriler" üzerinde test ederek aşırı yüklenip giyilmediğini kontrol edebilmemdir. Sonuçlara bağlı olarak , ızgara aramada çapraz doğrulama sırasında en iyi şekilde genelleştirilen parametreleri için öğrenilen modelini seçebilirim .→ α en iyi
Şimdi, bu demek modeli seçiminden sonra , ben kullanmak istiyorum tüm daha iyi bir modeli öğrenmek umarım benim veri kümesindeki noktaları ve. Bunun için , model seçimi sırasında seçtiğim modele karşılık gelen parametrelerini kullanabilirim ve ardından tam veri setinde eğitimden sonra, yeni öğrenilen bir model . Sorun şu ki, veri tüm noktaları eğitim için kullanırsam, bu yeni öğrenilen modelin herhangi bir görünmeyen verinin üzerinde olup olmadığını kontrol edemem . Bu sorunu düşünmenin doğru yolu nedir?→ a b , e s t β f u l l β f u l l