Daha büyük doğrulama setleri örnek dışı performans için daha doğru tahminler verir. Ancak fark ettiğiniz gibi, bir noktada bu tahmin, olması gerektiği kadar doğru olabilir ve o noktaya ulaşmak için gereken doğrulama örneği boyutu hakkında kabaca tahminler yapabilirsiniz.
Basit doğru / yanlış sınıflandırma doğruluğu için, tahminin standart hatasını (Bernouilli değişkeninin standart sapması) olarak hesaplayabilirsiniz; burada doğru bir sınıflandırma olasılığıdır ve , doğrulama kümesinin boyutudur. Elbette bilmiyorsunuz , ancak aralığı hakkında bir fikriniz olabilir. : Ör Diyelim ki 60-80% arasında bir doğruluk bekliyoruz diyor ve tahminleriniz standart hatayı daha küçük% 0.1 olmasını istediğiniz izin
ne kadar büyük olmalıdır (boyutunu doğrulama seti)? İçin elde ederiz:
için pnp √p(1−p)/n−−−−−−−−−√pnpnp=0.6n> 0.6 - 0.6 2
p(1−p)/n−−−−−−−−−√<0.001
np=0.6p=0.8n>0.8-0.82n>0.6−0.620.0012=240,000
p=0.8şunu elde ederiz:
Bu, bize doğrulama için 5 milyon veri örneğinizin% 5'inden daha azını kullanmaktan kurtulabileceğinizi söyler. Daha yüksek performans beklerseniz veya özellikle örnek dışı performans tahmininizde daha düşük bir standart hatadan memnunsanız (örn. ve se <% 1 için yalnızca 2100 doğrulama örneğine ihtiyacınız vardır) veya verilerinizin yüzde yirmisinden daha azını).
p=0.7n>0.8−0.820.0012=160,000
p=0.7
Bu hesaplamalar, Tim'in cevabında belirttiği noktayı da gösterir; tahminlerinizin doğruluğunun , eğitim setine göre boyutundan ziyade , doğrulama setinizin mutlak boyutuna (yani ) bağlı olduğunu gösterir.n
(Ayrıca burada temsili örnekleme olduğunu varsaydığımı da ekleyebilirim. Verileriniz çok heterojen ise, doğrulama verilerinin tren ve test verilerinizle aynı koşulları vb. İçerdiğinden emin olmak için daha büyük doğrulama setleri kullanmanız gerekebilir. )