Scikit-öğrenme önyükleme işlevi neden test kümesini yeniden örnekliyor?


15

Model değerlendirmesi için bootstrapping kullanırken, her zaman kullanıma hazır örneklerin doğrudan bir test seti olarak kullanıldığını düşündüm. Ancak, bunun için durum olmadığı görülüyor kaldırılan scikit-öğrenmeBootstrap dışı torba veri alt kümeden değiştirme ile çizim test kümesi oluşturmak gibi görünüyor yaklaşımı,. Bunun arkasındaki istatistiksel mantık nedir? Bu tekniğin sadece torba dışı örnek üzerinde değerlendirmekten daha iyi olduğu özel senaryolar var mı?


çapraz doğrulama? yeniden örnekleme?
EngrStudent

Etikete başvuruyorsanız, bu benim tarafımdan eklenmedi. Aslında CV'ye alternatif olarak önyükleme yapıyorum.
gibberfish

Sanırım yanlış anladın. Çapraz doğrulamada, işlemi bir veri alt kümesinde birkaç kez tekrarlayacak ve sonuçlardaki veya model parametrelerindeki değişime bakacaklardır. Bu durumda parametre varyasyonunun kendisi uyum kalitesini bildirir ve OOB hatası olması gerekmez. Belirli bir kütüphaneye aşina değilim, bu yüzden sadece fikirle bir yorum bıraktım.
EngrStudent

Yanıtlar:


3

Önyükleme örnekleri algoritmanın performansını birçok yinelemeyle değerlendirmek için kullanılır. Bunu yaparken, rasgele değiştirilen setlerdeki performans değerlendirilir.

Bunun aksine, örneğin 10 Katlı Çapraz Doğrulama yaparken, farklı tren ve test veri setlerinde sadece 10 tekrarlama yapıyorsunuz.

Şimdi örnek büyüklüğünüz küçük olduğunda, diyelim ve bootstrap yineleme sayısı yüksek, seçelim ve tren veri setinizde yaptığınız gibi test verilerinizi yeniden örneklemiyorsunuz, algoritma aynı veya çok benzer testi birden fazla kez görür. Başlangıçta bootstrap kullanarak kaçınmak istediğiniz bir durum.n=20ben=10,000

Gönderdiğiniz bağlantı aşağı, bu nedenle sklearn'in geçerli (0.14) sürümünde işlevin açıklamasını ekledim

Yöntemin açıklaması

Değiştirme çapraz doğrulama yineleyici ile rastgele örnekleme Giriş n_iter kez yeniden örneklenirken, tren test setlerindeki verileri ayırmak için tren / test indeksleri sağlar: her seferinde yeni bir rastgele veri bölünmesi gerçekleştirildikten sonra (her iki tarafta da numuneler çekilir) Eğitim ve test setlerini oluşturmak için bölünmüş. Not: diğer çapraz doğrulama stratejilerinin aksine, önyükleme bazı örneklerin her bölünmede birkaç kez oluşmasına izin verecektir. Bununla birlikte, tren bölünmesinde meydana gelen bir numune hiçbir zaman test bölünmesinde meydana gelmez ve bunun tersi de geçerlidir. Her örneğin en fazla bir kez oluşmasını istiyorsanız, bunun yerine büyük olasılıkla ShuffleSplit çapraz doğrulamasını kullanmalısınız.


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.