Bazı konferanslar ve öğreticiler eğitim, doğrulama ve test: Gördüğüm, bunlar üç bölüme verilerinizi bölmek düşündürmektedir. Ancak test veri setinin nasıl kullanılması gerektiği ve bu yaklaşımın tüm veri setindeki çapraz doğrulamadan nasıl daha iyi olduğu açık değildir.
Diyelim ki verilerimizin% 20'sini bir test seti olarak kaydettik. Sonra gerisini alırız, onu katlara ayırırız ve çapraz doğrulama kullanarak bu veri setinden bilinmeyen veriler üzerinde en iyi tahmini yapan modeli buluruz. Diyelim ki bulduğumuz en iyi model bize % 75 doğruluk veriyor .
Çeşitli soru-cevap web sitelerinde çeşitli eğitimler ve çok sayıda soru, artık modelimizi kaydedilmiş (test) bir veri setinde doğrulayabileceğimizi söylüyor. Ama yine de tam olarak nasıl yapıldığını ve ne anlama geldiğini anlamadım.
Diyelim ki test veri setinde % 70 doğruluk var . Peki sonra ne yapacağız? Test veri setimizde yüksek bir puan elde edinceye kadar başka bir model ve daha sonra başka bir model deneyecek miyiz? Ancak bu durumda gerçekten sınırlı (sadece% 20) test setimize uyan modeli bulacağız gibi görünüyor . Bu, genel olarak en iyi modeli bulacağımız anlamına gelmez.
Dahası, bu puanı, yalnızca sınırlı bir veri setinde hesaplanmışsa, modelin genel bir değerlendirmesi olarak nasıl değerlendirebiliriz? Eğer bu puan düşükse, belki şanssız ve "kötü" test verilerini seçtik.
Öte yandan, elimizdeki tüm verileri kullanırsak ve sonra k-kat çapraz doğrulama kullanarak modeli seçersek, sahip olduğumuz tüm veri kümesinden bilinmeyen veriler üzerinde en iyi tahmini yapan modeli bulacağız .