İlginç soru. Şahsen bunu üretime giren ürünler için görmedim ama mantığı anlıyorum.
Teorik olarak, konuşlandırılmış modeliniz ne kadar çok veri görürse, o kadar iyi genellemelisiniz. Bu nedenle, modeli elinizdeki tüm veri kümesi üzerinde eğitmişseniz, sadece örneğin tam veri setindeki train / val setlerini (örn. ~% 90) görmüş olan bir modelden daha iyi genellemelidir.
Bununla ilgili sorun (ve ilk başta verileri tren / val / test setlerine bölmemizin nedeni!), Görünmeyen verilerin doğruluğu hakkında istatistiksel iddialarda bulunabilmeyi istememizdir. Tüm veriler üzerinde bir modeli tekrar eğittiğimizde , bu iddialarda bulunmak mümkün değildir.
[Düzenle]
Burada, onaylanan cevabın bana benzer puanlar verdiği ve başka şeyler yapmanın başka yollarından bahsettiği Çapraz Doğrulama ile ilgili bir soru var .
Dönüyoruz:
- manken yetiştir
- →
- model değiştir
- 1. adıma gidin
- Test setindeki performansı değerlendirmek
- 5. adımda bulunan test hassasiyetine sahip mevcut model
Sonunda, test setinde mükemmel bir puan almayı başarırsanız, bunun genel olarak iyi olduğunu iddia edebilirsiniz. Bu nedenle, tam veri setinde yeniden eğitim yapmanın gelecekteki görünmeyen veriler üzerindeki performansı artıracağı sorusu, kesinlikle test edebileceğiniz bir şey değildir. İlgili diğer problem setlerinde daha iyi performansa dair ampirik kanıt, o zaman karar vermeniz gereken zamandaki tek kaynak veya rehber olacaktır.
Sağlıklı bir kontrol, nihai yeniden eğitilmiş modeli, orijinal test setinde tekrar test etmek olacaktır; Modelin sadece tren / val setini gördüğünde, şimdiye kadar olduğundan daha yüksek puan almasını beklemek, çünkü eğitim sırasında gerçekten test setini gördü. Bu, gelecekteki tüm vakalarda bu son modelin üstün olduğuna kendimi% 100 güvende hissetmemi sağlamaz, ancak en azından verilen verilerle olabileceği kadar iyi.
Belki de söylediklerinizi yapmayla ilgili daha katı argümanlar vardır (muhtemelen akademik olarak yönlendirilir), ancak pratik uygulamalar için çekici görünmektedir!