Veri seti boyutu ile fazla takma / takma


11

Aşağıdaki grafikte,

  • x-axis => Veri kümesi Boyutu
  • y ekseni => Çapraz doğrulama Skoru

resim açıklamasını buraya girin

  • Kırmızı çizgi Eğitim Verileri içindir

  • Yeşil hat Verileri Test Etmek İçin

Bahsettiğim bir öğreticide, yazar kırmızı çizginin ve yeşil çizginin çakıştığı noktanın ,

Daha fazla veri toplamanın, genelleme performansını artırması pek olası değildir ve biz de verilerin altında durabileceğimiz bir bölgedeyiz. Bu nedenle, daha fazla kapasiteye sahip bir modelle denemek mantıklıdır

Cesur ifadenin anlamını ve nasıl olduğunu tam olarak anlayamıyorum .

Herhangi bir yardım için teşekkür ederiz.


Kırmızı ve yeşil çizgiler nelerdir?
Kasra Manshaei

1
@KasraManshaei: Soruyu güncelledim.
tharindu_DG

1
Mümkünse, öğreticiye bağlantı ekleyin. Cevabı ve bağlamı daha iyi anlamamıza yardımcı olur :)
Dawny33

@ Dawny33: Bu bir video eğitimi ve yükleme sanırım telif hakkı sorunlarını ihlal edecek. :)
tharindu_DG

Yanıtlar:


6

Bu nedenle, yetersiz yerleştirme, aşırı takarken öğrenmenizi geliştirmeye devam edebileceğiniz anlamına gelir, öğrenme için gerekenden daha fazla bir kapasite kullandığınız anlamına gelir.

Yeşil alan test hatasının arttığı yerdir, yani daha iyi sonuçlar elde etmek için kapasite (veri noktaları veya model karmaşıklığı) sağlamaya devam etmelisiniz. Daha fazla yeşil çizgi gider, daha düz hale gelir, yani sağlanan kapasitenin (veri olan), model karmaşıklığı olan diğer kapasite türünü sağlamaya çalışmak için yeterli ve daha iyi olduğu noktaya ulaşırsınız.

Test puanınızı artırmazsa veya hatta düşürmezse, Veri Karmaşıklığı kombinasyonunun bir şekilde optimal olduğu ve eğitimi durdurabileceğiniz anlamına gelir.


Cevap için teşekkür ederim. Çok az belirsizliğim var. - Grafiğin sonunda, yeşil çizgi ve kırmızı çizgi birleşti. Modelimiz için yeterli veriye sahip olduğumuz anlamına gelmiyor mu? - Test setinden eğitim setinden daha iyi bir doğruluk elde etmek mümkün müdür? - Diyelim ki daha iyi bir modelimiz var ve bu grafik nasıl olmalı?
tharindu_DG

1
"Modelimiz için yeterli veriye sahip olduğumuz anlamına gelmiyor mu?" Ben de öyle yazdım. Evet, yeterli veriye sahipsiniz, bu yüzden iyileştirmek istiyorsanız daha fazla karmaşıklık denemelisiniz. Veri yeterlidir. "Test setinden eğitim setinden daha iyi bir doğruluk elde etmek mümkün mü?" Hiç böyle bir şey görmedim. Bu tek bir deneyde olabilir, ancak genel olarak değil. Bu soru "Bildiklerimden daha fazlasını bilebilir miyim?" ve cevap "Elbette hayır!"
Kasra Manshaei

1
"Diyelim ki daha iyi bir modelimiz var ve bu grafik nasıl olmalı?" Hem eğitim hem de testin gelişip iyileşmediğini varsayıyorum (doğru olup olmadığını bana bildirin :). Eğitimin düşmesi ve testin düşmesi mümkündür, ancak bunun tersi de mümkün değildir ve aynı zamanda her ikisinin de bir süre daha gelişmesi ve daha sonra Overfitting adı verilen test düşmesi mümkündür. Test çizgisinin düşmeye başladığı noktada antrenmanı durdurmalısınız
Kasra Manshaei

5

Kasra Manshaei iyi bir genel cevap verirken (+1), anlaşılması kolay bir örnek vermek istiyorum.

Çok basit bir problem düşünün: İşlev takma f:[0,1]R. Bunu yapmak için, polinom sınıfından bir model alırsınız. Tartışma uğruna, diyelim ki 0 derecelik bir polinom aldınız. Bu modellerin kapasitesi sadece sabitlere sığabileceğinden çok sınırlıdır. Temel olarak ortalama değeri tahmin edecektir (elbette hata fonksiyonuna bağlıdır, ancak basit tutun). Yani nispeten hızlı, bu tür bir model için en iyi parametrelerin ne olduğunu oldukça iyi bir tahmin edeceksiniz. Kaç örnek ekleseniz de test ve egzersiz hatanız hemen hemen aynı olacaktır. Sorun yeterli veriye sahip olmadığını değil, sorun modeli yeterince güçlü olmadığı şudur: underfit .

Öyleyse tersini yapalım: 1000 veri noktanız olduğunu varsayalım. Biraz matematik bilmek, 999 derece bir polinom seçersiniz. Şimdi eğitim verilerine mükemmel bir şekilde sığabilirsiniz. Ancak, verileriniz verilere çok iyi uyuyor olabilir. Örneğin, bkz. ( Blogumdan )

resim açıklamasını buraya girin

Bu durumda, verilere mükemmel şekilde uyan başka modelleriniz de vardır. Açıkçası, mavi model veri noktaları arasında biraz doğal görünmüyor. Modelin kendisi, dağıtım türünü iyi yakalayamayabilir, bu nedenle modeli daha basit bir şeyle sınırlamak aslında yardımcı olabilir. Bu, aşırı takmanın bir örneği olabilir .


1
Çok güzel @ geyik! (+1) açıklamanın anlaşılması için
Kasra Manshaei

0

Sizin durumunuzda - trenin ve test eğrileri arasında, modelin yüksek bir önyargı / eksikliğe sahip olduğunu gösteren bir çözüm olan çok küçük (veya hayır) bir boşluk var: daha karmaşık bir model seçmeniz gerekiyor; - tamamlama uğruna, tren ve test eğrileri arasındaki boşluk çok büyük olduğunda, yüksek bir varyans / aşırı takma olduğunu gösteren bir çözüm eklemeniz gerekir: a) Veri seti boyutunu artırmaya devam edin; b) daha az karmaşık bir model seçin, c) düzenli hale getirin.


0

Aşağıdakilerden herhangi birini / hepsini yapabilirsiniz:

1) modele beslediğiniz özellikleri değiştirin

2) çalışmak için farklı bir model seçin

3) modele daha fazla veri yükleyin (sizin için bir seçenek olmayabilir, ancak normalde bu bir seçenektir)

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.