Doğruluk tanımını doğru anlarsam, doğruluk (doğru şekilde sınıflandırılmış veri noktalarının yüzdesi), MSE (ortalama kare hatası) diyilenden daha az kümülatiftir. Bu yüzden loss
doğruluk dalgalanırken, sizin hızınızın arttığını görüyorsunuz .
Sezgisel olarak, bu temelde, örneklerin bir kısmının rasgele sınıflandırıldığı , doğru rasgele tahminlerin her zaman dalgalandığı gibi dalgalanmalara neden olduğu anlamına gelir (madalyonun her zaman "kafaları" döndürmesi gerektiğinde doğruluk hayal edin). Temel olarak gürültüye duyarlılık (sınıflandırma rastgele sonuç ürettiğinde), aşırı uydurmanın yaygın bir tanımıdır (bkz. Wikipedia):
İstatistik ve makine öğrenmesinde, en yaygın görevlerden biri, genel eğitimsiz veriler üzerinde güvenilir tahminler yapabilmek için bir dizi eğitim verisine bir "model" koymaktır. Aşırı uyumda, istatistiksel bir model altta yatan ilişki yerine rastgele hata ya da gürültüyü tanımlar.
Aşırı uyuma ilişkin başka bir kanıt, kaybınızın arttığını, Zararın daha kesin bir şekilde ölçüldüğünü, sigmoidler / eşiklerle ezilmediği (gürültünün kendisi için sizin durumunuz gibi) olması durumunda gürültülü tahminlere karşı daha hassastır. Sezgisel olarak, ağın çıktıdan çok emin olduğundan (yanlış olduğunda) bir durum olduğunu hayal edebilirsiniz, bu nedenle rastgele yanlış sınıflandırma durumunda eşikten uzakta bir değer verir.
Durumunuzla ilgili olarak, modeliniz uygun şekilde düzenli değildir, olası nedenler:
- Yeterli veri noktası yok, çok fazla kapasite
- sipariş
- yanlış / yanlış özellik ölçeklendirme / normalizasyon
- öğrenme hızı: çok büyük, bu yüzden SGD çok uzak atlıyor ve bölgeyi minimuma yakın olarak özlüyor. Bu, aşırı "uygun olmayan" (verinin kendisine duyarsızlığı) durumudur, ancak girdiden veri karıştırırken çıktıda "düşük frekanslı" gürültü yaratabilir - aşırı sezginin tersine, Bir madeni parayı tahmin ederken her zaman kafaları tahmin etmek gibi . @JanKukacka'nın belirttiği gibi, bir bölgeye "çok yakın" bir bölgeye gelmek aşırı sarsıntıya neden olabilir, bu nedenle çok küçükse verilerinizdeki "yüksek frekanslı" gürültüye duyarlı hale gelir. , aralarında bir yerde olmalı.αα ααα
Olası çözümler:
- daha fazla veri puanı elde etmek (veya mevcut olanları kümesini yapay olarak genişletmek)
- Hiper parametrelerle oynama (örneğin, kapasiteyi arttır / azalt veya normalizasyon terimi)
- Düzenleme : Bırakma, erken durdurma vb.