İstatistiksel modellerin eğitimi için “yeterli” veri kavramı var mı?


10

Gizli Markov Modelleri ve Gauss Karışım Modelleri gibi bir çok istatistiksel modelleme üzerinde çalışıyorum. Bu örneklerin her birinde iyi modeller yetiştirmenin, son kullanımla benzer ortamlardan alınan büyük miktarda (HMM'ler için>> 20000 cümle) gerektirdiğini görüyorum. Sorum şu:

  1. Literatürde “yeterli” eğitim verisi kavramı var mı? Ne kadar egzersiz verisi "yeterince iyi"?
  2. Eğitilecek "iyi" (iyi tanıma doğruluğu (>% 80) veren) modeller için kaç cümlenin gerekli olduğunu nasıl hesaplayabilirim?
  3. Bir modelin uygun şekilde eğitilip eğitilmediğini nasıl bilebilirim? Modeldeki katsayılar rastgele dalgalanmalar göstermeye başlayacak mı? Öyleyse, model güncellemesi nedeniyle rastgele dalgalanmaları ve gerçek değişiklikleri nasıl ayırt edebilirim?

Daha fazla etikete ihtiyaç duyması durumunda lütfen bu soruyu yeniden etiketlemekten çekinmeyin.

Yanıtlar:


10

Veri kümenizi, verilerinizin% 10,% 20,% 30, ...,% 100'üyle ardışık alt kümelere bölebilirsiniz ve her alt küme için k-kat çapraz doğrulama veya önyükleme kullanarak tahminci doğruluğunuzun varyansını tahmin edebilirsiniz. "Yeterli" verileriniz varsa, varyansları çizmek,% 100'den önce bir platoya ulaşması gereken azalan monotonik bir çizgi göstermelidir: daha fazla veri eklemek, tahmin edicinin doğruluğunun varyansını önemli bir şekilde azaltmaz.


bunu denemem gerekecek. Kulağa ilginç geliyor. Teşekkürler!
Sriram
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.