Öncelikle, anladığım gibi soruda kullanılan terimleri netleştireyim. Normalde bir eğitim veri kümesiyle başlarız, farklı modelleri (veya hiperparametre setlerini) test etmek için k-kat çapraz doğrulamayı kullanırız ve en düşük CV hatası olan en iyi modeli seçeriz. Dolayısıyla, 'test hatasının çapraz doğrulama tahmini', rastgele bir modelin CV hatası değil, en az CV hatasını test hatası olarak kullanmak anlamına gelir (ki bu durum cbeleites tarafından tartışılır, ancak normalde yaptığımız şey değildir). Söz konusu 'gerçek test hatası', sonsuz test veri kümesine en iyi CV modelini uygularken elde edebileceğimiz varsayılarak elde ettiğimiz hatadır. CV hatası, sahip olduğumuz belirli veri kümesine bağlıdır ve gerçek test hatası seçilen en iyi CV modeline bağlıdır, bu da eğitim veri kümesine bağlıdır. Bu nedenle, CV hatası ile test hatası arasındaki fark, farklı eğitim veri kümelerine bağlıdır. Daha sonra soru, eğer yukarıdaki işlemi farklı eğitim veri kümeleri ile birçok kez tekrarlar ve sırasıyla iki hatayı ortalama yaparsak, ortalama CV hatası neden ortalama test hatasından daha düşük, yani CV hatası aşağıya doğru eğilirse? Ama ondan önce, bu her zaman olur mu?
Normalde çok sayıda eğitim veri seti almak ve sonsuz satır içeren test veri setini almak imkansızdır. Ancak bunu simülasyon tarafından üretilen verileri kullanarak yapmak mümkündür. Trevor Hastie ve ark. Tarafından yayınlanan "İstatistiksel Öğrenmenin Unsurları" kitabının "Bölüm 7 Model Değerlendirmesi ve Seçimi" bölümünde. , böyle bir simülasyon deneyi içerir.
Sonuç olarak, CV veya bootstrap kullanılarak, "... sadece aynı eğitim setinden elde edilen veriler göz önüne alındığında, belirli bir eğitim seti için test hatasının tahmini genel olarak kolay değildir". 'Kolay değil' ile, CV hatasının farklı egzersiz veri setlerine bağlı olarak gerçek test hatasını hafife alabileceği veya fazla tahmin edebileceği anlamına gelir, yani farklı eğitim veri setlerinin neden olduğu varyans oldukça büyüktür. Önyargıya ne dersiniz? Test ettikleri kNN ve doğrusal model neredeyse önyargılı değildir: CV hatası gerçek test hatasını% 0-4 oranında abartır, ancak ağaçlar, çapraz doğrulama ve önyükleme kayışı gibi bazı modeller gerçek hatayı% 10 olduğundan daha az tahmin edebilir, çünkü msgstr "en iyi ağacın aranması doğrulama kümesinden büyük ölçüde etkilenir" + + msgid ".
Özetlemek gerekirse, belirli bir eğitim veri kümesi için, CV hatası gerçek test hatasından daha yüksek veya daha düşük olabilir. Sapma için ortalama CV hatası, modelleme yöntemlerine bağlı olarak ortalama gerçek test hatasından biraz daha yüksek ila çok daha düşük arasında olabilir.
Yukarıda belirtildiği gibi, az tahmin etmenin nedeni, en iyi model için hiperparametre seçiminin nihayetinde elde ettiğimiz özel eğitim veri kümesine bağlı olmasıdır. Biraz detay, Bu özel eğitim veri setinde en iyi hiperparametrelerin M1 olmasına izin verin. Ancak, M1 diğer eğitim veri kümesindeki en iyi hiperparametreler olmayabilir, bu da minimum CV hatasının M1'deki CV hatasından daha az olduğu anlamına gelir. Bu nedenle, eğitim sürecinden aldığımız beklenen CV hataları, M1'in beklenen CV hatasından çok daha azdır. Belirli bir eğitim veri kümesinden minimum CV hatasının önyargısız kaldığı tek zaman, en iyi modelin eğitim veri kümelerinden her zaman en iyi bağımsız olmasıdır. Öte yandan, CV hatası cbeleites tarafından tartışıldığı gibi gerçek test hatasını biraz fazla tahmin edebilir. Bunun nedeni, k katlamalı CV hatasının, modeli eğitmek için biraz daha az eğitim verisi kullanılarak elde edilmesidir (10 kat cv için,% 90 veri kullanın), gerçek hataya karşı yukarı doğru meyillidir, ancak çok fazla değildir. Farklı yönlere giden iki önyargı var. Modelleme yöntemi için, daha az kat CV, örneğin 5 kat veya 10 kat, daha fazla sapma ile sonuçlanabilir.
Bununla birlikte, pratikte çok fazla yardımcı olmuyor: genellikle sadece bir 'belirli' veri kümesi alıyoruz. test verisi olarak% 15 ila% 30'u tutarsak ve geri kalanı üzerinde egzersiz verisi olarak CV tarafından en iyi modeli seçersek, her ikisi de beklenen test hatasından farklı olduğu için CV hatasının test hatasından farklı olacağı ihtimali vardır. CV hatası test hatasından çok daha düşükse şüpheli olabiliriz, ancak hangisinin gerçek test hatasına daha yakın olduğunu bilemeyiz. En iyi uygulama her iki metriği de sunmak olabilir.