Kat Çapraz Doğrulamak
100 veri noktanız olduğunu varsayalım. İçin çapraz doğrulama kat, ayrılır, bu 100 puan k boyutlu ve karşılıklı münhasır 'kat' eşittir. İçin k = 10, sen puanları 1-10 2. katlamak 1., 11-20 katlamak atayabilirsiniz ve benzeri, 10. katlamak atama noktaları 91-100 ile bitirme. Ardından, test seti olarak hareket etmek için bir kat seçeriz ve kalan k - 1 katları egzersiz verilerini oluşturmak için kullanırız. İlk çalıştırmada, test seti olarak 1-10 ve eğitim seti olarak 11-100 puanları kullanabilirsiniz. Bir sonraki çalıştırma, test seti olarak 11-20 noktalarını kullanır ve her katlama test seti olarak bir kez kullanılıncaya kadar 1-10 ve 21-100 arasındaki noktalara ilerler.kkkk−1
Monte-Carlo Çapraz Doğrulama
Monte Carlo biraz farklı çalışıyor. Eğitim setini oluşturmak için rastgele verilerinizin bir kısmını (değiştirilmeden) seçersiniz ve ardından kalan noktaları test setine atarsınız. Bu işlem daha sonra birçok kez tekrarlanır, (rastgele) her seferinde yeni eğitim ve test bölümleri oluşturur. Örneğin, verilerinizin% 10'unu test verileri olarak kullanmayı tercih ettiğinizi varsayalım. Öyleyse rep # 1'deki test setiniz 64, 90 , 63, 42 , 65, 49, 10, 64, 96 ve 48 puan olabilir. Bir sonraki çalıştırmada test setiniz 90 , 60, 23, 67, 16, 78, 42 , 17, 73 ve 26. Her bölüm için bölümler bağımsız olarak yapıldığından, aynı nokta test setinde birden çok kez görünebilir.Monte Carlo ve çapraz doğrulama arasındaki en büyük fark budur .
karşılaştırma
Her yöntemin kendi avantajları ve dezavantajları vardır. Çapraz onaylama altında, her nokta tam olarak bir kez test edilir, ki bu adil görünmektedir. Bununla birlikte, çapraz doğrulama, verilerinizin bölümlenmesinin olası yollarından yalnızca birkaçını araştırır. Vardır - Monte Carlo sen hepsini alma ihtimaliniz çok olsa da, biraz daha olası bölümleri keşfetmenize olanak tanır olası 100 yoldan 50/50 ayırma yolu; (!).(10050)≈1028
Çıkarım yapmaya çalışıyorsanız (yani, iki algoritmayı istatistiksel olarak karşılaştırın), bir katlama çapraz doğrulama çalışmasının sonuçlarının ortalaması alındığında , algoritmanın performansının (neredeyse) tarafsız bir tahminini elde edersiniz, ancak yüksek varyansla (olduğu gibi) sadece 5 veya 10 veri noktasına sahip olmayı bekler). Prensip olarak, istediğiniz kadar parası yetebildiği sürece çalıştırabileceğiniz için, Monte Carlo çapraz doğrulama size daha az değişken fakat daha taraflı bir tahmin verebilir.k
Bazı yaklaşımlar, 5x2 çapraz onaylamada olduğu gibi ikisini birleştiriyor ( o zamandan beri daha fazla gelişme olduğunu düşünüyorum) veya önyargıları düzelterek (örneğin, Nadeau ve Bengio, 2003 ) , fikir için Dietterich'e (1998) bakınız. .