Modelleri geniş bir veri kümesine sığdırmaya çalışırken, ortak tavsiye, verileri üç bölüme ayırmaktır: eğitim, doğrulama ve test veri kümesi.
Bunun nedeni, modellerin genellikle üç "seviye" parametresine sahip olmalarıdır: ilk "parametre", model sınıfıdır (örneğin, SVM, sinir ağı, rasgele orman), ikinci parametre grubu, "düzenlileştirme" parametreleri veya "hiperparametreler" dir ( örneğin, kement ceza katsayısı, çekirdek seçimi, sinir ağı yapısı) ve üçüncü küme genellikle "parametreler" olarak kabul edilenlerdir (örneğin, eş değişkenler için katsayılar).
Bir model sınıfı ve bir dizi hiperparametre seçeneği göz önüne alındığında, biri eğitim setindeki hatayı minimize eden parametreleri seçerek parametreleri seçer. Bir model verildiğinde, doğrulama setindeki hatayı minimize ederek hiperparametreleri ayarlar. Biri, test setindeki performansa göre model sınıfını seçer.
Ama neden daha fazla bölüm değil? Çoğu zaman, hiperparametreleri iki gruba ayırabilir ve birinci sığdırmak için bir "doğrulama 1" ve ikinciyi sığdırmak için "doğrulama 2" kullanabilirsiniz. Hatta bir kişi, eğitim verilerinin / doğrulama verilerinin boyutunun ayarlanacak bir hiperparametre olarak bile ele alınabilir.
Bu, bazı uygulamalarda zaten yaygın bir uygulama mıdır? Verilerin en iyi şekilde bölümlenmesi ile ilgili teorik bir çalışma var mı?