Aşırı sığdırma için matematiksel / Algoritmik tanım


18

Aşırı uyumun matematiksel veya algoritmik bir tanımı var mı?

Genellikle verilen tanımlar, her bir noktadan geçen bir çizgi ve doğrulama kaybı eğrisinin aniden yükseldiği klasik 2-B nokta grafiğidir.

Fakat matematiksel olarak titiz bir tanım var mı?

Yanıtlar:


22

Evet (biraz daha) titiz bir tanım var:

Bir dizi parametreye sahip bir model verildiğinde, modelin belirli sayıda eğitim adımından sonra, örnek dışı (test) hatası artmaya başlarken eğitim hatasının azalmaya devam etmesi durumunda, verilere fazla uyduğu söylenebilir.

resim açıklamasını buraya girin Bu örnekte örnek dışı (test / validasyon) hatası ilk olarak tren hatasıyla senkronize olarak azalır, daha sonra 90. çağda, yani aşırı sığdırma başladığında artar.

Buna bakmanın bir başka yolu, önyargı ve varyanstır. Bir model için örnekleme hatası iki bileşene ayrılabilir:

  • Önyargı: Tahmini modelden beklenen değerin, gerçek modelin beklenen değerinden farklı olmasından kaynaklanan hata.
  • Sapma: Modelin veri kümesindeki küçük dalgalanmalara duyarlı olması nedeniyle hata oluştu.

Aşırı takma, sapma düşük olduğunda, ancak sapma yüksek olduğunda ortaya çıkar. Gerçek (bilinmeyen) modelin bulunduğu veri kümesi için:X

Y=f(X)+ε - , ve ile veri kümesindeki indirgenemez gürültüdür , εE(ε)=0Vbirr(ε)=σε

ve tahmini model:

Y^=f^(X) ,

daha sonra test hatası (test veri noktası ) şu şekilde yazılabilir:xt

Err(xt)=σε+Bbenbirs2+Vbirrbenbirnce

ile ve Bbenbirs2=E[f(xt)-f^(xt)]2Vbirrbenbirnce=E[f^(xt)-E[f^(xt)]]2

(Açıkça söylemek gerekirse, bu ayrışma regresyon durumunda geçerlidir, ancak benzer bir ayrışma herhangi bir kayıp fonksiyonu için, yani sınıflandırma durumunda da çalışır).

Yukarıdaki tanımların her ikisi de model karmaşıklığına bağlıdır (modeldeki parametre sayısı açısından ölçülmüştür): Modelin karmaşıklığı ne kadar yüksek olursa, aşırı sığmanın gerçekleşme olasılığı o kadar yüksektir.

Konunun titiz bir matematiksel tedavisi için İstatistiksel Öğrenme Unsurları'nın 7. bölümüne bakın .

resim açıklamasını buraya girin Önyargı-Varyans toleransı ve Varyans (yani aşırı sığdırma) model karmaşıklığıyla birlikte artmaktadır. ESL Bölüm 7'den alınmıştır


1
Hem eğitim hem de test hatasının azalması mümkün mü, ancak model hala fazla uyuyor mu? Zihnimde, eğitim ve test hatasının farklılığı aşırı uyumu gösterir, ancak aşırı uyuşma mutlaka ıraksamayı gerektirmez. Örneğin, hapishane fotoğraflarının beyaz arka planını tanıyarak suçluları suçlu olmayanlardan ayırt etmeyi öğrenen bir NN aşırı uyuyor, ancak eğitim ve test hataları muhtemelen farklı değil.
1919'da

@yters bu durumda, ortaya çıkan aşırı uyumu ölçmenin herhangi bir yolu olacağını sanmıyorum. Tüm Eğer bir eğitim ve test verilere erişim ve her iki veri setleri hem sergi NN (beyaz zemin) yararlanır aynı özellik ise, o basitçe en geçerli özellik gerektiğini faydalanarak almış ve mutlaka overfitting edilmeyecektir. Bu özelliği istemediyseniz, veri kümelerinizde varyasyonlar eklemeniz gerekir.
Calvin Godfrey

1
@yters senin örnek "sosyal aşırı sığdırma" olarak düşündüğüm şeydir: Matematiksel olarak, model aşırı sığmıyor, ama tahmin edicinin iyi performans göstermemesine yol açan bazı dış sosyal düşünceler var. Daha ilginç bir örnek, bazı Kaggle yarışmaları ve Boston Housing, MNIST, vb.Gibi çeşitli açık veri kümeleri ... modelin kendisi aşırı sığmıyor olabilir (önyargı, varyans vb. Açısından), ancak çok fazla genel olarak toplumdaki sorun hakkında bilgi (aşırı ekiplere yol açan önceki ekipler ve araştırma kağıtları, kamuya açık paylaşılan çekirdekler vb.).
Skander H. - Monica'yı geri

1
@yters (devamı) bu yüzden teoride ayrı bir doğrulama veri seti (test veri setinin yanı sıra) bir "kasa" içinde kalmalı ve son validasyona kadar kullanılmamalıdır.
Skander H. - Monica'yı

1
@CalvinGodfrey daha teknik bir örnek. Diyelim ki iki sınıf arasında eşit olarak bölünmüş bir ikili sınıflandırma veri kümem var ve daha sonra sınıflandırmaya oldukça dengesiz bir Bernoulli dağılımından gürültü ekleyerek veri kümesinin sınıflardan birine doğru eğrilmiş olmasını sağlayalım. Veri kümesini bir trene ve teste böldüm ve kısmen dengesiz dağılım nedeniyle yüksek doğruluk elde ediyorum. Bununla birlikte, modelin doğruluğu, gerçek veri kümesi sınıflandırmasında o kadar yüksek değildir, çünkü model çarpık Bernoulli dağılımını öğrenmiştir.
yters
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.