Seçenek 1 doğru olanıdır. Modelinizin parametrelerini güncellemek için doğrulama veri kümesini ekleyebilirsiniz.
Cevap bu. Şimdi tartışalım. Yaptığınız şey 1. seçeneğinizdi. Eğer önyüklemenin k-kat çapraz doğrulamasını yaptıysanız (ve bunu yapmış olmalısınız - sorunuzdan net değil).
5 kat çapraz doğrulamada, sahip olduğunuz verileri eşit boyutta 5 rastgele kümeye böldünüz. Onlara A, B, C, D ve E diyelim. Sonra modelinizin (modelin kendisinin) parametrelerini A, B, C ve D gibi 4 sette öğrenirsiniz ve test eder veya doğrularsınız. beşinci model E. (Bunu sen yaptın). Ancak daha sonra test / doğrulama (D diyelim) olarak başka bir küme seçersiniz ve diğer 4'ü (A, B, C ve E) kullanmayı öğrenirsiniz. D'de test edin, tekrarlayın.
Tahmin modelinizdeki hata, 5 testin ortalama hatasıdır - ve tahmin hatasının nasıl öğrenme ve test setlerine bağlı olduğuna dair biraz bilginiz vardır. En iyi senaryoda, 5 hata ölçüsünün tümü benzerdir ve modelinizin gelecekte bu düzeyde performans göstereceğinden emin olabilirsiniz.
Ama hangi model? Her öğrenme seti için model için farklı bir parametreniz olacaktır. A, B, C, D ile öğrenme, P1 parametre seti üretir, A, B, C, E, parametre seti P2, P5'e kadar. Hiçbiri sizin modeliniz değil.
Test ettiğiniz, modelleri oluşturmak için bir prosedürün beklenen hatası , öğrenme seti A, B, C, D ve A, B, C, E vb. Beklenen hatayla bir model oluşturan bu yordam mı?
Son model nedir? Prosedürün mevcut tüm verilerinize uygulanmasıdır (A, B, C, D ve E). Daha önce hiç üretmediğiniz P0 parametre setine sahip yeni bir model, test etmek için verileriniz yok (P0 parametrelerini belirlemede tüm verileri "kullandığınızdan") ve yine de gelecekte gerçekleştireceği konusunda makul bir beklentiniz var Veriler diğer modellerle (P1, P2 ...) aynı prosedür kullanılarak oluşturulmuştur.
Çapraz doğrulama veya önyükleme gerçekleştirmediyseniz (bootstrap açıklamak biraz daha karmaşıktır - bu tartışmadan çıkarırım)? Yalnızca bir öğrenme / doğrulama bölümü ve bir hata ölçüsü gerçekleştirdiyseniz ne olur? Daha sonra, 2. argüman biraz doğru olabilir, ancak daha büyük bir sorununuz var - modelin hatasında sadece bir ölçü var ve bu hatanın doğrulamak için kullanılan verilere ne kadar bağımlı olduğunu bilmiyorsunuz. Belki de şans eseri,% 20 doğrulama setinizi tahmin etmek özellikle kolaydı. Birden fazla hata ölçüsü yapmadıysanız, tahmin modelinizin beklenen hata oranının gelecekteki veriler için aynı kalacağını varsaymak çok riskli olacaktır.
"Daha büyük risk" hangisi? Bu hatanın temelde gelecekteki veriler için aynı kalacağını varsaymak veya modelinizi öğrenmek için daha fazla veri eklemenin bir şekilde modeli "vidalayacağını" ve gelecekte hata oranını artıracağını varsayalım? Buna nasıl cevap vereceğimi gerçekten bilmiyorum, ancak daha fazla veriyle kötüleşen modellerden şüphelenirim ....