Önyükleme örnekleri algoritmanın performansını birçok yinelemeyle değerlendirmek için kullanılır. Bunu yaparken, rasgele değiştirilen setlerdeki performans değerlendirilir.
Bunun aksine, örneğin 10 Katlı Çapraz Doğrulama yaparken, farklı tren ve test veri setlerinde sadece 10 tekrarlama yapıyorsunuz.
Şimdi örnek büyüklüğünüz küçük olduğunda, diyelim ve bootstrap yineleme sayısı yüksek, seçelim ve tren veri setinizde yaptığınız gibi test verilerinizi yeniden örneklemiyorsunuz, algoritma aynı veya çok benzer testi birden fazla kez görür. Başlangıçta bootstrap kullanarak kaçınmak istediğiniz bir durum.n = 20i = 10 , 000
Gönderdiğiniz bağlantı aşağı, bu nedenle sklearn'in geçerli (0.14) sürümünde işlevin açıklamasını ekledim
Yöntemin açıklaması
Değiştirme çapraz doğrulama yineleyici ile rastgele örnekleme Giriş n_iter kez yeniden örneklenirken, tren test setlerindeki verileri ayırmak için tren / test indeksleri sağlar: her seferinde yeni bir rastgele veri bölünmesi gerçekleştirildikten sonra (her iki tarafta da numuneler çekilir) Eğitim ve test setlerini oluşturmak için bölünmüş. Not: diğer çapraz doğrulama stratejilerinin aksine, önyükleme bazı örneklerin her bölünmede birkaç kez oluşmasına izin verecektir. Bununla birlikte, tren bölünmesinde meydana gelen bir numune hiçbir zaman test bölünmesinde meydana gelmez ve bunun tersi de geçerlidir. Her örneğin en fazla bir kez oluşmasını istiyorsanız, bunun yerine büyük olasılıkla ShuffleSplit çapraz doğrulamasını kullanmalısınız.