Bayesian vs MLE, aşırı uyum sorunu


13

Bishop'un PRML kitabında, aşırı sığmanın Maksimum Olabilirlik Tahmini (MLE) ile ilgili bir sorun olduğunu ve Bayesian'ın bundan kaçınabileceğini söylüyor.

Ama bence, aşırı takma, parametre tahmini yapmak için kullanılan yöntemle değil, model seçimi ile ilgili bir sorundur. Yani, diyelim ki ile oluşturulan bir veri kümesi sahibim, şimdi verilere uymak ve bulmak için farklı modelleri seçebilirim hangisi en iyisi. Ve göz önünde bulundurulan modeller, farklı siparişleri olan polinomlardır, sipariş 1, sipariş 2, sipariş 9'dur.D

f(x)=sin(x),x[0,1]
HiH1H2H3

Şimdi veri 3 modelin her birine uydurmaya çalışıyorum , her modelin parametreleri için olarak belirtiliyor .DwiHi

, model parametreleri hakkında bir nokta tahminim olacak ve çok basit ve her zaman verilerin altında , çok karmaşık ve verileri , sadece verilere iyi uyacak.wH1H3H2

Sorularım,

1) Model verileri geçersiz kılacaktır, ancak bunun ML sorunu olduğunu düşünmüyorum, ancak modelin kendi başına sorunu olduğunu düşünüyorum. Çünkü, için ML kullanmak aşırı neden olmaz. Haklı mıyım?H3H1,H2

2) Bayesian ile karşılaştırıldığında, ML'nin bazı dezavantajları vardır, çünkü sadece model parametrelerinin nokta tahminini verir ve fazla güvenlidir. Bayesian parametrenin sadece en olası değerine güvenmemekle birlikte, gözlemlenen veriler verilen parametrelerin tüm olası değerleri değil mi?wD

3) Bayesian neden aşırı sığmayı önleyebilir veya azaltabilir? Anladığım kadarıyla, model karşılaştırması için Bayesian kullanabiliriz, yani verileri verildiğinde , dikkate alınan her model için marjinal olabilirliği (veya model kanıtını) bulabilir ve sonra en yüksek marjinal olasılığa sahip olanı seçebiliriz, doğru ? Eğer öyleyse, neden böyle?D

Yanıtlar:


20

Optimizasyon, istatistikteki tüm kötülüklerin köküdür. Her zaman size modeli hakkında seçimler yapmak Eğer yani genelleme performansında iyileştirmeler elde edilir noktası ve azaltma ötesinde istatistik azaltır kriterini aşırı uydurma riskiyle verilerin sonlu numunesi üzerinde değerlendirilmiştir bazı uygun ölçüt optimize ederek bunun yerine, örneğin gürültü gibi veri örneğinin özelliklerinden yararlanarak elde edilir. Bayesian yönteminin daha iyi çalışmasının nedeni, hiçbir şeyi optimize etmemeniz, bunun yerine olası tüm seçenekler üzerinde marjinalleştirmeniz (bütünleştirmeniz). Sorun daha sonra modele ilişkin önceki inançların seçiminde yatmaktadır, bu nedenle bir sorun ortadan kalkmıştır, ancak başka bir sorun yerinde ortaya çıkmaktadır.1


1 Bu, Bayesci bir ortamda kanıtların (marjinal olasılık) en üst düzeye çıkarılmasını içerir. Bunun bir örneği için, makalemdeki Gauss Süreci sınıflandırıcılarının sonuçlarına bakın, burada çok fazla hiper parametreniz varsa marjinal olasılığı optimize etmek modeli daha da kötüleştirir (marjinal olasılığa göre not seçimi çok fazla hiper olan modelleri tercih etme eğilimindedir) -bu aşırı takma formunun bir sonucu olarak parametreler).

GC Cawley ve NLC Talbot, Model seçiminde aşırı uyum ve performans değerlendirmesinde müteakip seçim eğilimi, Journal of Machine Learning Research, 2010. Research, cilt. 11, s.2079-2107, Temmuz 2010. ( pdf )


+1, çok teşekkür ederim, makalenizi okuyacağım ve başka sorularım olup olmadığını göreceğim, ;-)
avokado

1
Burada, optimizasyonun genellikle yaklaşık olarak entegre olduğu düşünülebileceğine dikkat etmek gerekir - Laplace yöntemi buna bir örnektir. Optimizasyon genellikle entegrasyona iyi bir yaklaşım olmadığında başarısız olur - bu nedenle REML genellikle ML'den daha iyidir.
olasılık

@probabilityislogic, anladığımdan emin değilim, ML biraz MAP gibi, yapılan entegrasyon yok. Laplace yaklaşımını kullanmak (kullandığım şekilde), bunu entegre etmek ve entegre etmek istediğiniz işleve göre bir yaklaşımı optimize ettiğiniz için optimizasyon yapmaktır, ancak hala entegrasyon devam etmektedir.
Dikran Marsupial

1
@dikran marsupial - Belki de bunu açıklamanın daha iyi bir yolu, bir parametrenin ML tarafından tahmin edilmesi ve bu parametrenin MLE'ye eşit olmasıyla sınırlandırılmasıyla entegrasyonun genellikle iyi bir şekilde tahmin edilmesidir. Laplace yaklaşımı, REML'nin yaptığı gibi bu sezgiye bir "düzeltme faktörü" sağlar.
olasılık

@probabilityislogic cevap için teşekkürler, biraz düşüneceğim!
Dikran Marsupial

8

Genel bir yanıt olarak, "en küçük kareler" tipi regresyon modellerini kullanıyorsanız, regresyon parametreleri için önceden bilgilendirici bir bilgi kullanmadığınız sürece, bayes ve ML arasında gerçekten çok fazla fark yoktur. Özelliklere yanıt olarak:

1) , yalnızca 9'a yakın gözleminiz olduğunda verileri geçersiz kılamaz. Eğer 100 gözleminiz varsa, sözde "fazla yüklenmiş" katsayıların çoğu sıfıra yakın olacaktır. Ayrıca neredeyse her zaman " " ile sonuçlanacaktır - çünkü açık eğrilik kaçırılmıştır.H9H1

2) Bu, "lineer" gibi polinom açılımları için geçerli değildir ("lineer", parametrelere göre lineer anlamına gelir, değil ). En küçük kareler için ML tahminleri, bilgilendirici olmayan öncelikler veya büyük numune boyutları altında posterior araçlarla aynıdır. Aslında, ML tahminlerinin çeşitli modeller altında "asimptotik" posterior araçlar olarak düşünülebileceğini gösterebilirsiniz.x

3) Bayesci yaklaşım, sadece uygun öncelikler için fazla takılmayı önleyebilir. Bu, bazı montaj algoritmalarında gördüğünüz ceza koşullarına benzer şekilde çalışır. Örneğin, L2 penaltı = normal önceki, L1 penaltı = laplace önceki.


oy verdiğinizde ve elinizde daha fazla gözlem olduğunda, fazla konusunda haklısınız. Ancak, aşırı sığmanın, ML'yi değil, yanlış modeli seçme problemi olduğu iddiasında haklı mıyım? Model seçiminde Bayesian kullanabiliriz, ancak bunu ML ile yapamayız, değil mi? H9
avokado

Elbette buradaki H seçeneklerinin tümü dışında yanlış model olacaktır . Sorun, hem sapma hem de varyans bileşenlerine sahip olan modelin parametrelerini tahmin etme hatasıdır. Bir Bayes ölçütü kullanarak modeli seçerseniz, yine de buna aşırı sığabilirsiniz (cevabımda bunu desteklemek için bir referans ekleyeceğim). H
Dikran Marsupial

@loganecolss - Sanırım burada diğerlerine göre gerçeğe daha yakın olurdu. Aşırı sığdırma, örnek boyutu ve destek sağlayabileceği model yapısının türü ile daha yakından bağlantılıdır (bazen "kesin olan şey" modeli olarak da adlandırılır). H9
olasılık

5

Temel olarak, polinomlarınızın derecelerini artırarak yaptığınız şey , model alanınızın parametre sayısını veya serbestlik derecesini arttırmaktır . onun boyutu. Ne kadar çok parametre eklerseniz, model egzersiz verilerine o kadar kolay uyabilir. Ancak bu aynı zamanda büyük ölçüde gözlem sayısına da bağlıdır. ve modelleriniz , gözlem sayısı düşükse, eğitim verilerinin sayısı kadar olabilir , tıpkı eğitim örneklerinin sayısı yeterince büyükse hiç uymayabilir.H1H2H3

Örneğin, ağır bir şekilde abartıp size sadece eğitim örneği verildiğini varsayalım , bile verilerinizi her zaman geçersiz kılacaktır.2H1

Örneğin, normalleştirme yoluyla öncelikleri koymanın avantajı, parametrelerin sıfıra küçültülmüş veya başka bir önceden tanımlanmış değere sahip olmasıdır (isterseniz katsayıları "bağlamak" için parametreler bile ekleyebilirsiniz) ve böylece parametreleri dolaylı olarak kısıtlıyorsunuz ve modelinizin "takma özgürlüğü" nü azaltmak. Örneğin, kement (yani, düzenlenmesi veya eşdeğer bir Önceden Laplace) kullanılması ve karşılık gelen parametrenin ayarlanması (örneğin 10x çapraz doğrulama kullanılarak) fazlalık parametrelerinden otomatik olarak kurtulur. Bayes yorumu benzerdir: Öncelikleri uygulayarak, parametrelerinizi genel verilerden çıkarılan daha olası bir değerle kısıtlıyorsunuz.l1


Yetersiz eğitim örneklerine sahip basit bir hipotez (örn. H1, h2), verilen birkaç eğitim örneğindeki model yanlılığına bağlı olarak yetersiz uyuma (cv için) bir örnek olabilir ve fazla uyumaya neden olmaz.
yekta
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.