80/20'nin genellikle Pareto prensibi olarak adlandırılan oldukça yaygın bir oran olduğunu bulmak sizi şaşırttı . Bu oranı kullanırsanız genellikle güvenli bir bahistir.
Ancak, kullandığınız eğitim / doğrulama yöntemine bağlı olarak, oran değişebilir. Örneğin: 10 kat çapraz doğrulama kullanırsanız, her katta% 10'luk bir doğrulama kümesi elde edersiniz.
Eğitim seti ile doğrulama seti arasında doğru oranın ne olduğu konusunda bazı araştırmalar yapılmıştır :
Doğrulama seti için ayrılan kalıpların oranı, serbest ayarlanabilir parametre sayısının karekökü ile ters orantılı olmalıdır.
Sonuçlarında bir formül belirtirler:
Doğrulama seti (v) ile eğitim seti (t) büyüklük oranı, v / t, ln (N / h-max) gibi ölçekler; burada N, tanıyıcı ailesinin sayısıdır ve h-max bu ailelerin en büyük karmaşıklığıdır.
Karmaşıklık ile ne demek istedikleri:
Her tanıyıcı ailesi, VC boyutu , açıklama uzunluğu, ayarlanabilir parametre sayısı veya diğer karmaşıklık ölçüleri ile ilişkili olabilen veya olmayabilen karmaşıklığı ile karakterize edilir .
Başparmak kuralını alarak (doğrulama seti, serbest ayarlanabilir parametre sayısının karekökü ile ters orantılı olmalıdır), 32 ayarlanabilir parametreniz varsa, 32'nin kare kökü ~ 5.65'tir, kesirin 1 / 5.65 veya 0.177 (v / t). Kabaca% 17.7'si eğitim ve% 82.3'ü eğitim için ayrılmalıdır.