Maksimum olabilirlik kestirimi (MLE) ve Bayes Teoreminin karşılaştırılması


12

Bayesian teoremi, içinde , ve ben okuyorum kitaptan denir olabilirlik , ama sadece varsayıyoruz koşullu olasılık ait verilen , doğru mu? p(x|y)xy

p(y|x)=p(x|y)p(y)p(x)
p(x|y)xy

En büyük olabilirlik kestirimi çalışır maksimize etmek doğru? Eğer öyleyse, kafam karıştı, çünkü ikisi de rastgele değişken, değil mi? Maksimize etmek için sadece bulmaktır ? Bir sorun daha, eğer bu 2 rasgele değişken bağımsız ise, sadece , değil mi? Daha sonra değerini en üst düzeye çıkarmak, değerini en üst düzeye çıkarmaktır .x , y p ( x | y )p(x|y)x,yp(x|y) p(x|y)p(X)p(x|y)p(X)y^p(x|y)p(x)p(x|y)p(x)

Ya da belki, bazı parametrelerin bir fonksiyonudur olduğunu ve MLE bulmaya çalışır maksimize edebilirsiniz ? Ya da aslında modelin parametreleri, rastgele değişken değil, en yüksek seviyedeki ?θ p ( x | y ; θ ) θ p ( x | y ) y yp(x|y)θp(x|y;θ)θp(x|y)yy^

GÜNCELLEME

Makine öğrenimi konusunda acemi biriyim ve bu sorun, bir makine öğrenimi öğreticisinden okuduğum şeylerden kaynaklanan bir karışıklık. Burada, gözlenen bir veri kümesi hedef değerler ve bu veri kümesine bir model yerleştirmeye çalışıyorum , bu nedenle, verildiğinde , tarafından parametrelenen adında bir dağıtım biçimi olduğunu, olduğunu ve bunun arka olasılık olduğunu varsayıyorum , değil mi?{ y 1 , y 2 , . . . , y n } x y W θ p ( y | x ; θ ){x1,x2,...,xn}{y1,y2,...,yn}xyWθp(y|x;θ)

Şimdi değerini tahmin etmek için MLE kullanıyorum. Tamam, işte benim sorunum, sanırım , değil mi? Olabilirlik araçlarını buna hakkım almalı maksimize ve ?p ( x | y ; θ ) θ yθp(x|y;θ)θy

Olabilirlik anlayışım yanlışsa, lütfen bana doğru yolu gösterin.


Bence kafa karışıklığı şudur: Bayes'in teoremi , sorunuzun başında verdiğiniz koşullu olasılıkların manipülasyonudur. Bayes Tahmin parametre tahminlerini yapmak için Bayes teoremi kullanır. Sadece ikincisinde, maksimum olabilirlik kestirimini (MLE) yapın ve teta, vs. parametresi devreye girer.
Zhubarb

@Berkan, aslında verildiğinde olasılıkın ne olduğunu anlamaya çalışıyorum . x,y,θ
avokado

1
Görüyorum ki, parametre kestiriminde bu harika giriş dersi slaytlarına göz atmanızı tavsiye ederim .
Zhubarb

1
Okunması gereken bir diğer harika konu da Ampirical Bayes Tahmincileri. Sınıfımdakileri
bdeonovic

Yanıtlar:


16

Temel yanlış anlama, sorunuzun ilk yarısında sorduğunuz sorulardan kaynaklanıyor. Bu cevaba zıt MLE ve Bayesci çıkarımsal paradigmalar olarak yaklaşıyorum. MLE hakkında çok yaklaşılabilir bir tartışma, Gary King'in Unifying Political Methodology bölümünün 1. bölümünde bulunabilir . Gelman'ın Bayes Veri Analizi Bayes tarafında ayrıntılar sağlayabilir.

Bayes teoreminde ve okuduğum kitaptan,p(x|y)olasılığı denir, ama sanırım bu sadecex'inyverilenkoşullu olasılığıdır, değil mi?

p(y|x)=p(x|y)p(y)p(x)
p(x|y)xy

Olasılığı olan bir koşullu olasılığı. Bir Bayes'e göre, bu formül x parametresinin verisi ve önceki p ( y ) ' nin dağılımını tarif eder . Ancak bu gösterim niyetinizi yansıtmadığından, bundan sonra parametreler için ( θ , y ) ve verileriniz için x kullanacağım .yxp(y)θyx

Ancak güncellemeniz bazı dağıtım p ( x | θ , y ) ' den gözlemlendiğini gösterir . Verilerimizi ve parametrelerimizi Bayes kuralında uygun yerlere yerleştirirsek, bu ek parametrelerin Bayesliler için sorun yaratmadığını tespit ederiz: p ( θ | x , y ) = p ( x , y | θ ) p ( θ )xp(x|θ,y)

p(θ|x,y)=p(x,y|θ)p(θ)p(x,y)

Bu ifadenin güncellemenizde peşinde olduğunuz şey olduğuna inanıyorum.

Maksimum olabilirlik tahmini değerini en üst düzeye çıkarmaya çalışır , değil mi?p(x,y|θ)

Evet. MLE, eder, yani p ( θ , y ) terimini tedavi eder.

p(x,y|θ)p(θ|x,y)
bilinmeyen (ve bilinmeyen) bir sabit olarak. Aksine, Bayesci çıkarımp(x) 'yinormalleştirici bir sabit (olasılıkların birliğe toplaması / bütünleşmesi için) vep(θ,y)' yianahtar bilgi olarak ele alır: önceki. Biz aklınıza gelebilecekp(İçeride ISTV melerin RWMAIWi'nin,y)biz en makul olduğunu düşünüyorum bölgeden "çok uzakta dolaşıp" için optimizasyon prosedürü bir cezaya maruz bir yolu olarak.p(θ,y)p(x)p(x)p(θ,y)p(θ,y)

Eğer öyleyse, ben kötü, kafam karıştı çünkü rasgele değişkenler, doğru mu? Maksimize etmek için p ( x , y | İçeride ISTV melerin RWMAIWi'nin ) sadece bulmaktır İçeride ISTV melerin RWMAIWi'nin ?x,y,θp(x,y|θ)θ^

MLE bir olduğu varsayılır sabit sonuç çıkarılmak bilinmeyen fakat yapabiliyor miktar değil rastgele değişken. Bayes çıkarım davranır İçeride ISTV melerin RWMAIWi'nin rastgele değişken olarak. Bayes çıkarsama koyar olasılık yoğunluk fonksiyonları içinde ve olasılık yoğunluk fonksiyonları alır dışarı MLE olduğu gibi daha ziyade modelin nokta özetleri yerine,. Yani, Bayesian çıkarım, tüm parametre değerleri aralığına ve her birinin olasılığına bakar. O MLE mn var olduğunu varsaymaktadır θ modelini verilen verilerin yeterli özetidir.θ^θθ^


1
Cevabınız için teşekkürler, yazımı güncelliyorum, lütfen güncellememe bakın.
avokado

Bu güncelleme soru hakkındaki anlayışımı kökten değiştirdi. Başlangıçta, sana dair sanıyordum parametre gibi x verileriniz gibi. Görünüşe göre ( x , y ) veri ve x ile y arasındaki ilişkiyi tanımlayan bir model oluşturmak istiyorsunuz . Zamanım olduğu için cevabımı değiştireceğim. yx(x,y)xy
Sycorax, Reinstate Monica'ya

+1 Bu hala harika bir cevap: Umarım sorudaki değişikliklerle eşleşecek şekilde değiştirseniz bile büyük ölçüde sağlam kalırsınız.
whuber

Yanıtınızı, güncellenmiş sorunuzu yansıtacak şekilde güncelledim. Umarım bu ayrıntılar yardımcı olur. Gerçekten bahsettiğim referanslara atıfta bulunmanızı tavsiye ederim. Ve umarım @whuber hala onaylar. ;-)
Sycorax, Reinstate Monica'ya

Çok teşekkürler güncelleme için, ben için dağılımının bir form alın rağmen Şunu böylece , ben davranmalı x , y , hem ben tahmin çalışıyorum gözlemlenen veri olarak İçeride ISTV melerin RWMAIWi'nin ? p(y|x)x,yθ
avokado

3

Normalde , y parametresinin bir fonksiyonudur . Bayes teoreminin aşağıdaki reformülasyonunu düşünün:p(x|y)y

p(θ|x)=p(x|θ)p(θ)p(x)

Veya daha açık bir şekilde (olasılık kavramı ile ilgili olarak):

p(θ|x)=L(θ;x)p(θ)p(x)

Somut bir örnek için, modeli düşünün

X|θBinomial(θ)θBeta(α,β)

Yani, tipik olarak rasgele değişken değil, x , değil mi? yx
avokado

Y genellikle X'in pdf'sindeki bir parametredir. Bayesci bir ortamda Y'nin kendisi rastgele bir değişkendir (verdiğim örnekte olduğu gibi). X | Y, demek istediğin anlamda koşullu bir olasılık da olabilir, sana bu miktarın neden olabilirlik denmesinin arkasındaki motivasyonu vermeye çalışıyordum.
David Marx

Cevabınızda verilen somut örnek ile ilgili olarak, aslında rastgele bir değişken mi demek istediniz , ama X'in dağılımında parametre olarak mı alınır? θX
avokado

Bir şeyin rastgele bir değişken olması parametrenin olamayacağı anlamına gelmez. Bayesci olasılığın harika dünyasına hoş geldiniz :)
David Marx

0
  • "... olasılığını denir ..."p(x|y)

,y'nin x verildiği olasılığıdır. Olasılıkın ne olduğunu söylemek önemlidir. Ve evet, bu sadece y verilen x'in koşullu olasılığıdır.p(x|y)xy

  • “... eğer bu 2 rasgele değişken bağımsızsa, sadece p ( x ) olur , değil mi? Sonra p ( x | y ) 'yi en üst düzeye çıkarmak p ( x )' yi en üst düzeye çıkarmaktır ..."p(x|y)p(x)p(x|y)p(x)

Eğer bağımsızlarsa, yani ise, p ( x ) y'ye göre sabittir . Burada dikkatli olun, neyle en üst düzeye çıkardığınızı belirtmediğiniz için - daha önce yazdıklarınızdan, y'ye göre en üst düzeye çıkardığınızı varsayarım .p(x|y)=p(x)p(x)yy

  • ... Veya belki, bazı parametrelerin θ , yani p ( x | y ; θ ) bir fonksiyonudur ve MLE, p ( x | y ) ' yi maksimize edebilen θ' yi bulmaya çalışır ? Ya y aslında modelin parametrelerinin bile, değil rasgele değişken, olasılığını maksimize bulmaktır y ? ...p(x|y)θp(x|y;θ)θp(x|y)y^

Tanıtımı bu tamamiyle yeni bir problem kılmaktadır. Genel olarak, bu sorunun çoğunun cevabı 'duruma bağlıdır' gibi görünüyor. Parametreleri istersek y olarak ifade edebilir ve bunlara göre maksimize edebiliriz. Aynı şekilde, biz maksimize bir durum olabilir p ( x | y ; θ ) parametrelere göre İçeride ISTV melerin RWMAIWi'nin şu eline sorunu yaklaşan bir mantıklı yolu olsaydı.θyp(x|y;θ)θ


θxyθ

0

STAN referans kılavuzundan:

Öncekiler tekdüze ise, arka mod parametrelerin maksimum olabilirlik tahminine (MLE) karşılık gelir. Eğer öncekiler aynı değilse, arka mod bazen maksimum posterior (MAP) tahmini olarak adlandırılır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.