Benim asıl sorum, k / kat çapraz doğrulamanın eğitim / doğrulama / test setlerine sahip olma bağlamında nasıl uyduğunu anlamaya çalışmakla ilgilidir (eğer bu bağlamda uyuyorsa).
Genellikle, insanlar verileri bir eğitim, validasyon ve test setine - örneğin Andrew Ng'in kursu başına 60/20/20 oranında) bölmekten söz ederler, böylece doğrulama seti model eğitimi için en uygun parametreleri tanımlamak için kullanılır.
Ancak, veri miktarı nispeten küçük olduğunda daha temsili bir doğruluk ölçüsü elde etmek umuduyla k-kat çapraz doğrulamayı kullanmak isterse, k-kat çapraz doğrulaması yapmanın tam olarak bu 60/20/20 ayrımında yapılması gerekir senaryo?
Örneğin, bu, eğitim ve test setlerini (verilerin% 80'i) gerçekten bir araya getireceğimiz ve doğruluk ölçümümüzü (açık bir 'test setine sahip olmakla etkili bir şekilde atarak) elde etmek için üzerlerinde k-kat çapraz doğrulama yapacağımız anlamına mı gelir? Öyleyse, hangi eğitimli modeli a) üretimde ve b) doğrulama setine karşı kullanmak ve en uygun eğitim parametrelerini belirlemek için kullanıyoruz? Örneğin, a ve b için olası bir cevap belki de en iyi modeli kullanmaktır.