Umarım aşağıdaki alıntılar sorumun ne olacağına dair bir fikir verecektir. Bunlar http://neuralnetworksanddeeplearning.com/chap3.html adresinden
Daha sonra öğrenme yavaş yavaş yavaşlar. Son olarak, 280 dönemi civarında, sınıflandırma doğruluğu gelişmeyi hemen hemen durdurur. Daha sonraki dönemler sadece çağ 280'deki doğruluk değerine yakın küçük stokastik dalgalanmalar görürler. Bunu, eğitim verileriyle ilişkili maliyetin sorunsuz bir şekilde düşmeye devam ettiği önceki grafikle karşılaştırın. Sadece bu maliyete bakarsak, modelimizin hala "daha iyi" olduğu anlaşılıyor. Ancak test doğruluğu sonuçları iyileşmenin bir yanılsama olduğunu göstermektedir. Tıpkı Fermi'nin sevmediği model gibi, ağ 280'den sonra ağımızın öğrendikleri artık test verilerine genelleşmiyor. Ve bu yüzden yararlı bir öğrenme değil. Ağın, 280 dönemi ötesinde fazla uyduğunu veya aştığını söylüyoruz.
Bir sinir ağını eğitiyoruz ve maliyet (eğitim verilerinde) çağa 400 kadar düşüyor, ancak dönem 280'den sonra sınıflandırma doğruluğu statik hale geliyor (birkaç stokastik dalgalanmayı engelliyor), bu nedenle modelin 280 dönemi sonrası eğitim verilerine fazla uyduğu sonucuna varıyoruz.
Test verilerinin maliyetinin 15'e kadar iyileştiğini görebiliriz, ancak bundan sonra eğitim verilerindeki maliyet iyileşmeye devam etse bile, aslında daha da kötüleşmeye başlar. Bu, modelimizin aşırı uyduğunun başka bir işaretidir. Yine de bir bulmaca ortaya koyuyor, bu da 15'inci çağını mı yoksa 280 çağını da aşırı uymanın öğrenmeye egemen olduğu nokta olarak mı görmeliyiz? Pratik bir bakış açısından, gerçekten önemsediğimiz şey test verileri üzerinde sınıflandırma doğruluğunu iyileştirmektir; test verileri üzerindeki maliyet ise sınıflandırma doğruluğu için bir proxy'den fazla değildir. Bu nedenle, çağ 280'i aşırı uymanın sinirsel ağımızdaki öğrenmeye egemen olduğu nokta olarak kabul etmek en mantıklıdır.
Test verilerindeki sınıflandırma doğruluğunun aksine, daha önce eğitim maliyetine kıyasla, şimdi eğitim verilerine karşı test verilerine maliyet uyguluyoruz.
Daha sonra kitap, 280'in neden aşırı uydurmanın başladığı doğru dönem olduğunu açıklamaya devam ediyor. Bir sorunum var. Başımı bunun etrafına satamıyorum.
Modelden maliyeti en aza indirmesini istiyoruz ve dolayısıyla maliyet, doğru sınıflandırmak için kendi gücünün bir ölçüsü olarak kullandığı metriktir. 280'i aşırı uyumun başladığı doğru dönem olarak düşünürsek, bir şekilde, belirli test verileri üzerinde daha iyi bir sınıflandırıcı olmasına rağmen, ancak düşük güvenle kararlar veren ve dolayısıyla sapmaya daha eğilimli olan önyargılı bir model yaratmadık mı? test verilerinde gösterilen sonuçlardan?