Soru yanlış bir varsayım altında. Birçok insan "yapamayacağını" söylediklerini yapar.
Aslında, yaygın olarak kullanılan sklearn paketindeki ızgara arama uygulaması tam da bunu yapar. Aksi takdirde refit=False
, tüm verileri kullanarak son modeli yeniden eğitecektir.
Bazı hiperparametreler için bu çok arzu edilmeyebilir, çünkü veri hacmine göre. Örneğin, min_samples_leaf
bir karar ağacı için budama öncesi taktiği düşünün . Daha fazla veriye sahipseniz, budama işlemi istediğiniz gibi çalışmayabilir.
Fakat yine de, çoğu insan çapraz doğrulamadan sonra tüm verileri kullanarak yeniden eğitiyorlar, böylece mümkün olan en iyi modelle sonuçlanıyorlar.
Zeyilname: @NeilSlater, aşağıda bazı kişilerin CV üzerinde bekletme yaptığını söylüyor. Başka bir deyişle, bir tren-test ayrımı vardır ve daha sonra eğitim üzerinde model seçimi yaparlar. Ona göre, orijinal eğitim seti bölünmesini kullanarak yeniden antrenman yapıyorlar, ancak test setini değil. Daha sonra test seti, nihai bir model tahmini gerçekleştirmek için kullanılır. Şahsen, bu konuda üç kusur görüyorum: (a) bahsettiğim problemi çözmüyor, çünkü yine de tekrar antrenman yaptığınız için bazı hiperparametrelerin eğitim hacmine bağlı olması, (b) birçok modeli test ederken, daha sofistike olmayı tercih ederim hiçbir verinin boşa gitmemesi için iç içe çapraz doğrulama gibi yöntemler ve (c) uzatma, bir modelin çok az veriniz olduğunda nasıl genelleştirileceğini belirlemek için korkunç bir yöntemdir.