Sadece @SubravetiSuraj (+1) yanıtına biraz eklemek için
Çapraz doğrulama, karamsar bir performans tahminine dayanıyor çünkü çoğu istatistiksel model, eğer eğitim seti daha büyük yapılırsa gelişecek. Bu, k-katlama çapraz onaylamanın,% 100'den ziyade, mevcut verilerin% 100 * (k-1) / k veri kümesi üzerinde eğitilmiş bir modelin performansını tahmin ettiği anlamına gelir. Bu nedenle, performansı tahmin etmek için çapraz doğrulama yapar ve ardından operasyonel kullanım için tüm veriler üzerinde eğitilmiş bir model kullanırsanız, çapraz doğrulama tahmininin önerdiğinden biraz daha iyi bir performans gösterecektir.
Biri dışarıda bırakma çapraz doğrulama işlemi yaklaşık olarak tarafsızdır , çünkü her katlamada kullanılan eğitim seti ile tüm veri kümesi arasındaki boyut farkı yalnızca tek bir düzendir. Bu konuda Luntz ve Brailovsky (Rusça) tarafından bir makale var.
Luntz, Aleksandr ve Viktor Brailovsky. "İstatistiki istatistiksel prosedürde elde edilen karakterlerin tahmininde." Technicheskaya Kibernetica 3.6 (1969): 6-12.
Ayrıca bakınız
Diskriminant Analizinde Hata Oranlarının Tahmini Peter A. Lachenbruch ve M. Ray Mickey Technometrics Vol. 10, Sayı. 1,1968
Bununla birlikte, bir kez dışarıda bırakılan çapraz doğrulama yaklaşık olarak tarafsız olsa da, yüksek bir varyansa sahip olma eğilimindedir (bu yüzden, aynı dağılımdaki farklı veri örnekleriyle tahminin tekrarlanması durumunda çok farklı tahminler alırsınız). Tahmin edicinin hatası yanlılık ve varyansın bir birleşimi olduğu için, bir-bir-dış çapraz onaylamanın 10-kat çapraz onaylamanın daha iyi olup olmadığı her iki miktara da bağlıdır.
Şimdi, modelin yerleştirilmesindeki varyans, küçük bir veri setine yerleştirilirse daha yüksek olma eğilimindedir (kullanılan belirli eğitim örneğindeki herhangi bir gürültü / örnekleme esasına karşı daha duyarlı olduğu için). Bu, eğitim setinin büyüklüğü LOOCV'den daha küçük olacağından, yalnızca sınırlı miktarda veriye sahipseniz 10 kat çapraz doğrulama yapmanın yüksek bir varyansa (ve daha yüksek bir önyargıya) sahip olabileceği anlamına gelir. Bu yüzden, k-kat çapraz doğrulama, aynı zamanda farklı nedenlerle de varyans sorunlarına sahip olabilir. Bu nedenle LOOCV veri setinin büyüklüğü küçük olduğunda genellikle daha iyidir.
Ancak, benim görüşüme göre LOOCV kullanmanın asıl nedeni, bazı modeller (örneğin doğrusal regresyon, çoğu çekirdek yöntemleri, en yakın komşu sınıflandırıcıları, vb.) İçin hesaplama açısından ucuz olmasıdır ve veri kümesi çok küçük olmadığı sürece, kullanacağım Hesaplama bütçeme uyuyorsa ya da daha iyisi önyükleme tahmini ve torbalama işlemlerinde 10 kat çapraz doğrulama.