Küçük örneklem büyüklüğü verileri için eğitim, çapraz doğrulama ve test seti boyutları nasıl seçilir?


10

Küçük bir örnek boyutum olduğunu varsayalım, örneğin N = 100 ve iki sınıf. Makine öğrenimi için eğitim, çapraz doğrulama ve test seti boyutlarını nasıl seçmeliyim?

Sezgisel olarak seçerdim

  • Eğitim seti boyutu 50
  • Çapraz doğrulama seti boyutu 25 ve
  • Boyutu 25 olarak test edin.

Ama muhtemelen bu az ya da çok mantıklı. Bu değerlere gerçekten nasıl karar vermeliyim? Farklı seçenekler deneyebilir miyim (sanırım bu çok tercih edilmez ... artan öğrenme olasılığı)?

İkiden fazla sınıfım olsaydı ne olurdu?


2
100 benim için çok küçük. Hem çapraz onaylama hem de test değerlendirmesi için bir kereye mahsus bırakma stratejisi seçerim.
Memming

Bununla ilgili herhangi bir literatür görmedim (doğrulama için minimum örnek boyutları). Emin değilim neden. Önemli bir konu gibi görünüyor.
charles

Yanıtlar:


15

Sadece parametre optimizasyonu ve model karmaşıklığı ile ilgili öneriler için +1. ama tüm bu tavsiye harika.
charles

1

Örneklem büyüklüğünüzün küçük olması nedeniyle, çapraz doğrulama bölümünü dışarıda bırakmak ve 60-40 veya 70-30 oranını kullanmak iyi bir uygulamadır.

Clementine ve Veri Madenciliğine Giriş bölüm 2.8 ve ayrıca MSDN Kütüphanesi - Veri Madenciliği - Eğitim ve Test Setleri bölümünde de görebileceğiniz gibi, 70 - 30 oranı yaygındır. Andrew Ng'in Machine Learning derslerine göre 60 - 20 - 20 oranında bir oran önerilir.

Umarım yardımcı oldum. Saygılarımla.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.