Gizli Markov Modelleri ve Gauss Karışım Modelleri gibi bir çok istatistiksel modelleme üzerinde çalışıyorum. Bu örneklerin her birinde iyi modeller yetiştirmenin, son kullanımla benzer ortamlardan alınan büyük miktarda (HMM'ler için>> 20000 cümle) gerektirdiğini görüyorum. Sorum şu:
- Literatürde “yeterli” eğitim verisi kavramı var mı? Ne kadar egzersiz verisi "yeterince iyi"?
- Eğitilecek "iyi" (iyi tanıma doğruluğu (>% 80) veren) modeller için kaç cümlenin gerekli olduğunu nasıl hesaplayabilirim?
- Bir modelin uygun şekilde eğitilip eğitilmediğini nasıl bilebilirim? Modeldeki katsayılar rastgele dalgalanmalar göstermeye başlayacak mı? Öyleyse, model güncellemesi nedeniyle rastgele dalgalanmaları ve gerçek değişiklikleri nasıl ayırt edebilirim?
Daha fazla etikete ihtiyaç duyması durumunda lütfen bu soruyu yeniden etiketlemekten çekinmeyin.