Fazla takma ve takma


Yanıtlar:


30

En basit şekilde cevap vermeye çalışacağım. Bu sorunların her birinin kendi ana kaynağı vardır:

Aşırı uydurma: Veriler gürültülüdür, yani açıklayıcı faktörlerimizle gerçek ilişkilerini görmemizi zorlaştıran gerçeklikten (ölçüm hataları, etkili rasgele faktörler, gözlemlenmeyen değişkenler ve çöp korelasyonları nedeniyle) bazı sapmalar vardır. Ayrıca, genellikle tam değildir (her şeyden örneklerimiz yoktur).

Örnek olarak, erkekleri ve kızları boylarına göre sınıflandırmaya çalıştığımı varsayalım, çünkü onlar hakkında sahip olduğum tek bilgi bu. Hepimiz biliyoruz ki, erkekler ortalama olarak kızlardan daha uzun boylu olsalar da, büyük bir çakışma bölgesi vardır, bu da onları bu bilgilerle mükemmel bir şekilde ayırmayı imkansız hale getirir. Verilerin yoğunluğuna bağlı olarak, yeterince karmaşık bir model, bu görevde teorik olarak eğitimde mümkün olandan daha iyi bir başarı oranı elde edebilir.veri kümesi çünkü bazı noktaların kendi başlarına tek başına durmasına izin veren sınırlar çizebilir. Yani, sadece 2.04 metre boyunda bir kişimiz varsa ve o bir kadınsa, model o bölgenin etrafına küçük bir daire çizebilir, bu da 2.04 metre boyunda rastgele bir kişinin kadın olması muhtemeldir.

Her şeyin altında yatan neden , eğitim verilerine çok fazla güveniyor (ve örnekte, model 2.04 boyunda erkek olmadığından, sadece kadınlar için mümkün olduğunu söylüyor).

Yetersiz yerleştirme, modelin verilerimizdeki gerçek karmaşıklıkları (yani verilerimizdeki rasgele olmayan değişiklikler) tanımadığı ters problemdir. Model, gürültünün gerçekte olduğundan daha büyük olduğunu varsayar ve bu nedenle çok basit bir şekil kullanır. Dolayısıyla, veri kümesinin herhangi bir nedenden ötürü erkeklerden çok daha fazla kızı varsa, model onları sadece kızlar gibi sınıflandırabilir.

Bu durumda, model verilere yeterince güvenmedi ve sadece sapmaların tüm gürültü olduğunu varsaydı (ve örnekte, model erkeklerin sadece var olmadığını varsayar).

Sonuç olarak, bu sorunlarla karşı karşıya olduğumuz için:

  • Tam bilgiye sahip değiliz.
  • Verilerin ne kadar gürültülü olduğunu bilmiyoruz (ne kadar güvenmemiz gerektiğini bilmiyoruz).
  • Verilerimizi oluşturan temel işlevi ve dolayısıyla en uygun model karmaşıklığını önceden bilmiyoruz.

2
CV'ye hoş geldiniz. güzel bir cevap, bu da cevabımı
delmek

1
"Sınırları çizmek" ve "daireler" ile ilgili bölüm biraz kafa karıştırıcı olduğunu düşünüyorum ...
Easymode44

Sadece erkekler ve kadınlar arasındaki yüksekliği tahmin etme örneğinin aşırı sığdırmaktan çok eksik düştüğünü iddia ediyorum.
Digio

6

Aşırı sığdırma, bir modelin orijinal veriler üzerinde gerçekten iyi modellediğiniz değişkeni tahmin etmesi, ancak yeni veri kümesinde (bekletme, çapraz doğrulama, öngörme vb.) Modelinizde çok fazla değişken veya tahminciniz (kukla değişkenler vb.) Var ve bunlar modelinizin orijinal verilerinizdeki gürültüye karşı çok hassas olmasına neden oluyor. Orijinal verilerinizdeki gürültüye aşırı uyumun bir sonucu olarak, model kötü tahmin ediyor.

Yetersiz yerleştirme, bir modelin orijinal verilerdeki veya yeni verilerdeki değişkeni iyi tahmin etmediğidir. Modelinizde, bağımlı değişkeninizin davranışını daha iyi tahmin etmek ve tahmin etmek için gerekli olan bazı değişkenler eksik.

Aşırı ve düşük takma arasındaki dengeleme işlemi zordur ve bazen net bir bitiş çizgisi yoktur. Ekonometri zaman serilerini modellerken, modelinizdeki değişken sayısını azaltarak, özellikle de modelinizdeki değişken sayısını azaltarak aşırı sığmayı azaltmaya yönelik olarak düzenlenmiş düzenlileştirme modelleri (LASSO, Ridge Regresyon, Elastik-Net) ile bu sorun oldukça iyi bir şekilde çözülür. verileriniz veya her ikisinin bir kombinasyonu.


5

Belki araştırmanız sırasında aşağıdaki denkleme rastladınız:

Error = IrreducibleError + Bias² + Variance.

Bir model eğitiminde neden bu iki sorunla karşı karşıyayız?

Öğrenme probleminin kendisi temel olarak önyargı ile sapma arasında bir değiş tokuştur .

Aşırı takma ve yetersiz takmanın başlıca nedenleri nelerdir?

Kısa: Gürültü.

Uzun: Düzeltilemeyen hata : Verilerdeki ölçüm hataları / dalgalanmalarının yanı sıra hedef fonksiyonun model tarafından temsil edilemeyen kısmı. Hedef değişkeni yeniden ölçmek veya hipotez alanını değiştirmek (yani farklı bir model seçmek) bu bileşeni değiştirir.

Düzenle (diğer cevaplara bağlantı vermek için): Karmaşıklık olarak model performansı değişiklik gösterir:

.

Burada errorD , tüm dağıtım D (uygulamada test setleri ile tahmin edilir) üzerindeki hatadır .


3
Terminolojinizi tanımlamanız gerektiğini düşünüyorum. OP, soruda "yanlılık" veya "sapma" terimlerini kullanmaz, cevabınızda (sorunun alıntısı hariç) "fazla sığdırma" veya "az sığdırma" terimlerini kullanmazsınız. Bu terimler arasındaki ilişkiyi açıklarsanız, bunun daha açık bir cevap olacağını düşünüyorum.
Gregor - Monica adlı kişiyi geri al

4

Hemen hemen tüm istatistiksel problemler aşağıdaki biçimde ifade edilebilir:

  1. Veriler verildiğinde üreten bulun .(y,x)ff^y = f ( x )y^=f^(x)

  2. Bu yi "doğru" olabildiğince yakın yapın; burada ,f^ff

y=f(x)+ε

Cazibesi yapmak her zaman üretmek çok yakın veriler olan . Ancak yeni veri noktası geldiğinde ya da için kullanılmayan verileri kullandığımızda , tahmin yoldan çıkabilir. Bunun nedeni , yerine açıklamaya çalışmamızdır . Bunu yaptığımızda "gerçek" ve dolayısıyla yeni gözlem geldiğinde kötü bir tahmin alırız. Aşırı takma olduğunda bu. f^y y f εffy^yf^εff

Öte yandan bulduğumuzda soru her zaman belki daha iyi uyum sağlayan ve "gerçek" yakın olan daha iyi bir elde edebiliriz ? Eğer yapabilirsek, ilk durumda fazla donmamıştık. f^f~f

İstatistiksel soruna bu şekilde bakarsanız, modelin takılması her zaman uygunluk ve aşırı uyum arasında bir denge ve herhangi bir çözüm her zaman bir uzlaşmadır. Verilerimiz rastgele ve gürültülü olduğu için bu sorunla karşı karşıyayız.


2

Aşırı takma ve yetersiz takmanın başlıca nedenleri nelerdir?

Aşırı sığdırma için model, eğitim verilerine iyi sığmayacak kadar karmaşıktır. Yetersiz takmak için model çok basit.

Bir model eğitiminde neden bu iki sorunla karşı karşıyayız?

Veriler için "doğru" modeli ve parametreleri seçmek zordur.


0

Aşırı takma ve yetersiz takma, temelde varsayılmış bir model tarafından verilerin yetersiz açıklamasıdır ve verileri açıklayan veya az açıklayan bir model olarak görülebilir. Bu, verileri açıklamak için kullanılan model ile veri üreten model arasındaki ilişki tarafından oluşturulur. Açıklamaya yönelik girişimimizde temel modele erişemeyiz, böylece kararımız başka bir faktör tarafından yönlendirilir: belirsizlikler veya hata çubukları.

Tüm varyansı sığdırmak için çok karmaşık bir model kullandığımızda, fazla uyuyoruz. Bu, model seçiminde serbest saltanatı olan ve hata çubuklarına çok önem veren (veya aynı olan tüm değişkenliği açıklamaya çalışarak) tarafından yaratılır. Kendimizi verileri tanımlamak için çok basit olan bir modelle kısıtlarken ve hata çubuklarına yeterince önem vermiyorken (veya değişkenliği açıklamıyorken), yetersiz kalıyoruz.

Kişi bu ikisinden nasıl kaçınabilir? Bilgi destekli modeller (verilerden değil, sorunun önceki bilgisinden türetilmiştir) ve anlamlı belirsizlikler.


0

Özetle, aşırı uygunluk, eğitim veri kümenizde ortaya çıkan ancak tüm popülasyonda mevcut olmayan (şanssız olarak ortaya çıkan) modellerin bir sonucu olarak ortaya çıkar. Basit bir model kullanıyorsanız (örneğin doğrusal regresyon düşünün) algılayabileceği olası desenlerin sayısı az olduğundan ve örnekte rastgele gösterilenlerden birinin şansı da o kadar büyük değildir. 100 bireysel örnek alan bir popülasyonda 1.000.000 değişkeni ilişkilendirmeye çalıştığınızda bunun bir örneği oluşabilir. Bazı özelliklerin birbirinden tamamen bağımsız olmasına rağmen rastgele büyük bir örnek korelasyonu gösterebilir

Aşırı sığmanın bir başka nedeni de önyargılı örneklemedir ("örnek sahte desenler" vardır, çünkü örnek gerçekten rastgele değildir) Örneğin, belirli bir tür mantarın ortalama büyüklüğünü oraya gidip doğada bularak incelemek istiyorsanız , büyük olasılıkla fazla tahmin edersiniz (daha büyük mantarları bulmak daha kolaydır)

Öte yandan, yetersiz takma oldukça basit bir fenomendir. Bu çok temel iki şey anlamına gelebilir: A) Modelin nüfus modelini öğrenmesi için yeterli veriye sahip değiliz veya B) Modelimiz bunu yansıtacak kadar güçlü değil.

gibi bir fenomeniz varsa, burada ortalama 0 ve standart sapma 1000 ile rastgele bir değişken ve a'nın gerçek değeri (tahmin etmek istediğiniz parametre) ia 1. Yeterli veri almazsanız, a'yı 0'dan ayıramayabilirsiniz, böylece y ve x'in birbiriyle ilişkisiz / bağımsız olduğunu iddia edebilirsiniz.y=ax+ϵϵ

B modeliniz basit bir yol ise, örneğin ve doğrusal regresyon deneyin, iyi olabilir .... İyi şanslar!y=x2+ϵ


0

Kısa cevap:

Aşırı takmanın ana nedeni, küçük bir eğitim setiniz olduğunda karmaşık bir model kullanmaktır.

Yetersiz takmanın ana nedeni , çok basit ve eğitim setinde iyi performans gösteremeyen bir model kullanmaktır.


Aşırı takmanın ana nedeni?

  • Yüksek kapasiteye sahip modeller, eğitim setinin test setinde iyi hizmet etmeyen özelliklerini ezberleyerek overfit edebilir.

-Derin Öğrenme kitabı, Goodfellow ve ark.

Makine öğrenmesinin amacı, test verilerinde olduğu gibi gerçekleştireceği ümidiyle belirlenen bir model üzerinde bir model yetiştirmektir. Ancak eğitim setinde iyi performans elde etmek her zaman test setinde iyi performans anlamına mı geliyor? Bu olmaz, çünkü egzersiz verileriniz sınırlıdır . Sınırlı veriye sahipseniz, modeliniz bu sınırlı eğitim seti için çalışan bazı modeller bulabilir, ancak bu modeller diğer vakalara (yani test seti) genelleme yapmaz . Bu, aşağıdakilerden biri ile çözülebilir:

A- Eğitim setinde gelişigüzel kalıplara sahip olma olasılığını azaltmak için modele daha büyük bir eğitim seti sağlamak.

B- Modelin eğitim setinde bu rasgele kalıpları bulamayacağı şekilde daha basit bir model kullanılması. Daha karmaşık bir model daha karmaşık modeller bulabilir, bu nedenle egzersiz setinizin keyfi desenler içermeyecek kadar büyük olduğundan emin olmak için daha fazla veriye ihtiyacınız vardır.

(örneğin, kamyonlardan gemileri tespit etmek için bir modele öğretmek istediğinizi ve her birinin 10 görüntüsüne sahip olduğunuzu düşünün. Resimlerinizdeki gemilerin çoğu sudaysa, modeliniz mavi arka planı olan herhangi bir resmi bir gemi olarak sınıflandırmayı öğrenebilir Şimdi, 10.000 gemi ve kamyon resminiz varsa, eğitim setinizin çeşitli arka planlarda gemi ve kamyon içermesi daha olasıdır ve modeliniz artık sadece mavi arka plana güvenemez.)

Underfit yapmak için ana neden?

  • Yetersiz takma, model eğitim setinde yeterince düşük bir hata değeri elde edemediğinde ortaya çıkar.

  • Düşük kapasiteli modeller eğitim setine uymaya zorlanabilir.

-Derin Öğrenme kitabı, Goodfellow ve ark.

Yetersiz takma, modeliniz eğitim setini öğrenecek kadar iyi olmadığında gerçekleşir, yani modeliniz çok basittir. Bir problemi çözmeye başladığımızda, en azından eğitim setinde iyi bir performans elde edebilecek bir model istiyoruz ve sonra aşırı takmayı azaltmayı düşünmeye başlıyoruz. Genel olarak, uygun olmayan takma çözümü oldukça basittir: Daha karmaşık bir model kullanın.


0

Bir hipotez / model denklemine sahip olduğumuz bir örneği ele alalım,

y=q*X+c,

burada X = özellik listesi, y = etiket ve q ve c, eğitmemiz gereken katsayılardır.

Eğer katsayı değerlerini yeterince büyük olacak şekilde bulursak ve böyle bir durumda özellik değerini (yani X) bastırmaya başlarsak, herhangi bir X değerinden bağımsız olarak her zaman y sabit değerini alırız. Buna çok taraflı veya uygun olmayan model denir.

Başka bir karmaşık hipotez örneğini ele alalım,

y=q*X+r*sqr(X)+s*cube(X)+c, where q,r,s and c are the coefficients.

En iyi katsayı değerini belirledikten sonra, eğitim verileri için minimum kaybı elde edebilmemiz mümkündür. Sadece modelimizi bu kadar karmaşık ve sıkı bir şekilde birleştirdiğimiz için, eğitim verileriyle çok iyi davrandığı için. Oysa görünmeyen verilerle oldukça zıt sonuçlar elde edebiliriz. Buna çok değişkenli veya overfit modeli denir.

Önyargılı model, Model seçiminde daha fazla karmaşıklığa ihtiyaç duyarken, çok değişken modelin model seçiminde karmaşıklıkta düşmeye ihtiyacı vardır. Düzenleme tekniği, model karmaşıklığının uygun seviyesini belirlememize yardımcı olabilir ve bu teknik sayesinde her iki konunun üstesinden gelebiliriz.


Cevabınızda matematik biçimlendirmesini kullanabilirsiniz. Daha fazla bilgi: math.meta.stackexchange.com/questions/5020/…
Sycorax,
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.