En önemli şey, verilerinizdeki örneklerin iyi yayılmış olmasıdır, çünkü ne kadar veriye sahip olursanız olun, daha fazla veri her zaman daha iyi olurdu. Sonuçta, kedi ve köpek resimlerini ayırt etmeyi öğrenmeye çalışırsanız, modelinizin sadece kedi resimlerini beslerseniz iyi performans göstermesini bekleyemezsiniz.
Kevin L' nin cevabında önerildiği gibi, eğitim hatası ile test hatası arasındaki farkı dikkate almak mantıklıdır. Test verileriniz egzersiz verilerinizden bağımsızsa, modelinizin kullanılamayan verilere ne kadar iyi genelleştiğine dair bir gösterge verir. Eklemek istediğim bir şey, eğitim ve test hatası arasındaki büyük bir farkın sadece modelinizin iyi bir şekilde genelleştirilmediğini, yani eğitim verilerine fazla uyduğunuzu söylemesi. Daha fazla veri muhtemelen yardımcı olacaktır, çünkü şimdi ağın fazladan veri noktalarını modellemesi gerekiyor, bu yüzden artık bu kadar çok şey geçemiyor. Bununla birlikte, modelinizi daha iyi genelleştirmek için değiştirmek daha değerli olabilir. Mükemmel bir kitaptan bu bölüm daha iyi genelleme elde etmek için ne tür bir düzenlemenin var olduğunu ve ağlarda nasıl uygulanabileceğini açıklar.
Daha niceliksel bir önlem arıyorsanız, bu soruyu quora'da buldum. Bu bir otomatik kodlayıcı ile ilgili, ancak sanırım örnek için de geçerli olmalı. Bunun doğru olup olmadığı hakkında hiçbir fikrim yok (lütfen bana bildirin), ancak örneğin MNIST için bir kişinin maksimum 28 * 28 * 8 * 10 000 = 62 720 000 ile görüntüleri azaltmaya çalıştığınızı iddia edebilirim. 10 x 10 x 10000 = 1 000 000 bit entropi ile bir sıcak kodlamada on sınıfa entropi. Çıktıdaki sadece 1000 000 bit entropi ile ilgilendiğimizden, 1000 000 parametre ile her parametrenin, örnek başına 1e-4 bit olan tek bir biti temsil ettiğini söyleyebiliriz. Bu, daha fazla veriye ihtiyacınız olacağı anlamına gelir. Veya çok fazla parametreniz var, çünkü 100 parametreyle, parametre başına 10000 bit ve dolayısıyla örnek başına 1 bitiniz var. Ancak,