Test seti ve çapraz doğrulama setinin farklı amaçları vardır. İkisinden birini düşürürseniz faydalarını kaybedersiniz:
Çapraz doğrulama seti, aşırı uydurmanın algılanmasına ve hiper parametre aramasına yardımcı olmak için kullanılır.
Test seti modelin performansını ölçmek için kullanılır.
Modelinizin performansını doğru bir şekilde ölçmek için çapraz doğrulama kümesini kullanamazsınız, çünkü parametrelerinizin belki de yüzlerce varyasyonu boyunca sonuçlarınızı mümkün olan en iyi metriği elde etmek için bilinçli olarak ayarlayacaksınız . Çapraz doğrulama sonucunun bu nedenle çok iyimser olması muhtemeldir.
Aynı nedenden ötürü, çapraz doğrulama setini düşüremez ve hiper parametreleri seçmek için test setini kullanamazsınız, çünkü o zaman modelinizin ne kadar iyi olduğunu tahmin etmeniz neredeyse garantilidir. İdeal dünyada, test setini sadece bir kez veya farklı deneyleri karşılaştırmak için "nötr" bir şekilde kullanırsınız.
Geçerliliği doğrularsanız, en iyi modeli bulursanız, eğitmek için test verilerini ekleyin, modeliniz mümkün olabilir (ve bazı durumlarda büyük olasılıkla). Bununla birlikte, bunun gerçekten olup olmadığından emin olmanın hiçbir yolu yoktur ve olsa bile, yeni performansın ne olduğuna dair tarafsız bir tahmininiz yoktur.
Birçok Kaggle yarışmasına tanık olmaktan, deneyimim, test setini aşırı kullanmakla ayarlamak gerçek bir şeydir ve bu yarışmaları büyük bir şekilde etkilemektedir. Genel liderlik tablosuna tırmanan ve testte en iyi modellerini seçen bir grup yarışmacı vardır (genel liderlik tablosu etkili bir şekilde bir test setidir), ancak çapraz doğrulamaları konusunda çok kapsamlı değildir. . . bu yarışmacılar sonunda yeni bir test seti eklendiğinde skor tablosunu düşürür.
Makul bir yaklaşım, testten önce bulduğunuz hiper-paramları kullanarak verileri yeniden eğitmek için yeniden kullanmak (tren + cv). Bu şekilde daha fazla veri üzerinde eğitim alırsınız ve sonunda bağımsız bir performans ölçüsü elde edersiniz.
Çapraz doğrulamadan daha fazla yararlanmak istiyorsanız, olağan yaklaşım k-kat çapraz doğrulamadır . Kaggle yarışmalarında ortak bir hile, k-kat çapraz doğrulamayı kullanmak ve cv sonuçlarını bir meta-modelde birleştirmek veya yığınlamak için verileri daha büyük (tren + cv) bir eğitim setinde yeniden birleştirmek yerine kullanmaktır.
Son olarak, her zaman doğrulama ve test bölümlerinizin veri kümenizdeki olası korelasyona karşı sağlam olup olmadığını kontrol edin.