Layman cinsinden Maksimum Olabilirlik Tahmini (MLE)


91

Biri bana, meslekten olmayan koşullarda maksimum olasılık tahmini (MLE) hakkında ayrıntılı olarak açıklayabilir mi? Matematiksel türev veya denklem içine girmeden önce altta yatan kavramı bilmek istiyorum.


9
Ne tür bir cevabın peşindesin belli değil. Örneğin, olasılığın ne olduğunu biliyor musunuz? Değilse, önce bunu öğrenmek daha iyi.
Glen_b

4
Ayrıca, bir düzeyde matematik içermeyen herhangi bir cevabın yetersiz olacağını düşünüyorum.
gregmacfarlane

1
Bu linki dene . MLE, MAP, EM hakkında oldukça net bir açıklaması var. Bence basitçe MLE'nin temel fikrini kapsıyor.
Nimish Kulkarni

2
Ben düşünüyorum bu MLE çok sezgisel açıklamasını sağlamaktadır. Eğer kavramlar hala net değilse, bazı temel istatistikleri tazelemek için ideal olacağını söyleyebilirim.
KartikKannapur

Yanıtlar:


75

Biraz bilgin olduğunu söyle. Verilerin bazı dağıtımlardan (belki de Gaussianca) geldiğini varsaymaya istekli olduğunuzu söyleyin. Verilerin elde edebileceği sonsuz sayıda Gaussian vardır (bu, Gauss dağılımının sahip olabileceği sonsuz sayıda araç ve varyansın kombinasyonuna karşılık gelir). MLE, verilerinizle "en tutarlı" olan Gaussian'ı (yani, ortalama ve varyansı) seçecektir ( tutarlılığın tam anlamı aşağıda açıklanmıştır).

Öyleyse, y={1,3,7} veri kümesine sahip olduğunuzu söyleyin . Bu verilerin elde edilebileceği en tutarlı Gauss ortalamaları 3 ve 16 değişkenleri arasındadır. Diğer bazı Gauss'lardan da örneklenmiş olabilir. Ancak, ortalama değeri 3 ve varyansı 16 olan bir kişi, şu anlamda verilerle en tutarlıdır: gözlemlediğiniz belirli y değerlerini elde etme olasılığı, bu ortalama ve varyans seçiminde, diğer seçeneklerden daha fazladır.

Regresyona geçme: ortalamanın sabit olması yerine, ortalama, regresyon denkleminde belirtilen verilerin doğrusal bir fonksiyonudur. Yani, x={2,4,10} gibi verilerinizi önceden y ile birlikte aldığınızı varsayalım. Bu Gaussian'ın anlamı şimdi takılı regresyon modeli. βXβ^ , burada β = [ - 1.9 , .9 ]β^=[1.9,.9]

GLM'lere taşınıyor: Gaussian'ı başka bir dağıtımla (üstel aileden) değiştirin. Ortalama şimdi, link fonksiyonu tarafından dönüştürülen regresyon denklemi tarafından belirlenen verinin doğrusal bir fonksiyonudur. Yani, g(Xβ) , buradag(x)=ex/(1+ex) (binom veriler) logit için.


28
MLE, verileriniz göz önüne alındığında en muhtemel olan Gaussian'ı seçecek. ” Hmmm, aslında değil: MLE, verilerinizin en muhtemel olduğu Gaussian'ı seçecek mi? Hangisi "en muhtemel Gaussian" ı seçmekten biraz farklıdır ... en muhtemel Gaussian'ı seçmek, önceki inançların dikkate alınmasını gerektirmez mi?
Jake Westfall

9
@ ACD Bunun sadece eksik olduğunu düşünmüyorum ancak doğru sezgiyi sağlıyor. Örneğin, olabilirlik işlevi gibi birden fazla en fazla özel olayı tartışmamakla ilgili bir sorun görmüyorum. Ancak, gözlemlenen verileri üretmesi en muhtemel dağılım ile veriler verilen en muhtemel dağılım arasındaki fark, frekansçı ve bayesci çıkarım arasındaki en temel farktır. Öyleyse böyle açıklarsan, gelecek için tökezleyen bir blok yaratıyorsun.
Erik,

6
Tabii ki tamam, ama herhangi bir daha doğru kavramsal açıklama , anladığınızdan daha zor anlaşılıyor mu? Sanmıyorum Bence cevabınızın çoğu gayet iyi, ama sadece, gelecek nesillere göre, "en muhtemel Gauss" kelimesini tartışmaktan kaçınmak için bazı cümleleri biraz düzenlemeye teşvik ediyorum ve bunun yerine istediğimiz şeyi işaret ediyorum. "muhtemel" olmak ML altında konuşma açısından) hipotez değil verilerdir. Bence bu başka bir güzel cevabınız için küçük ama önemli bir düzenleme olabilir.
Jake Westfall

7
@Max: Sonunda ilerlediğiniz ve bu cevabı düzelttiğiniz için çok teşekkür ederiz! Gelecekteki okuyucular için burada açıkça yazmanın anlamlı olabileceğini düşünüyorum: Erik ve Jake'in yukarıda açıklanan yorumlarında ifade edilen eleştiri, yanıt düzenlendikten sonra artık geçerli değil.
amip,

7
Sadece atlamak için: Cevabımdaki tüm dikkat ve gelişmeleri takdir ediyorum. Düzenlemeler konusunda başlangıçta tereddütlü olduğum için özür dilerim (ki bu iyi) - Cevabımın basitliğini yıprattığını görmek istemedim. Bu büyük ölçüde olmadı.
generic_user

66

Maksimum Olabilirlik Tahmini (MLE), gözlemlenen verileri açıklayan en olası işlevi bulma tekniğidir . Bence matematik gerekli, ama seni korkutmasına izin verme!

Diyelim ki düzleminde bir takım noktalarımız var ve fonksiyon parametrelerini bilmek istiyoruz.x,yve verilere en uygun olan β ve σ(bu durumda bu örneği oluşturmak için belirlediğim için fonksiyonu biliyoruz, ama benimle kal).βσ

data   <- data.frame(x = runif(200, 1, 10))
data$y <- 0 + beta*data$x + rnorm(200, 0, sigma)
plot(data$x, data$y)

Veri noktaları

Bir MLE yapmak için, fonksiyonun şekli hakkında varsayımlarda bulunmamız gerekir. Doğrusal bir modelde, noktaların normal (Gauss) olasılık dağılımını takip ettiğini varsayıyoruz, ortalama ve varyans σ 2 : y = N ( x β , σxβσ2. Bu olasılık yoğunluğu fonksiyonunun denklemi: 1y=N(xβ,σ2)

12πσ2exp((yixiβ)22σ2)

Bulmak istediğimiz, tüm noktaları bu olasılığı maksimize eden ve σ parametreleridir ( x i , y iβσ(xi,yi)L

L=i=1nyi=i=1n12πσ2exp((yixiβ)22σ2)
log(L)=i=1nn2log(2π)n2log(σ2)12σ2(yixiβ)2

θ=(β,σ)

linear.lik <- function(theta, y, X){
  n      <- nrow(X)
  k      <- ncol(X)
  beta   <- theta[1:k]
  sigma2 <- theta[k+1]^2
  e      <- y - X%*%beta
  logl   <- -.5*n*log(2*pi)-.5*n*log(sigma2) - ( (t(e) %*% e)/ (2*sigma2) )
  return(-logl)
}

βσ

surface <- list()
k <- 0
for(beta in seq(0, 5, 0.1)){
  for(sigma in seq(0.1, 5, 0.1)){
    k <- k + 1
    logL <- linear.lik(theta = c(0, beta, sigma), y = data$y, X = cbind(1, data$x))
    surface[[k]] <- data.frame(beta = beta, sigma = sigma, logL = -logL)
  }
}
surface <- do.call(rbind, surface)
library(lattice)
wireframe(logL ~ beta*sigma, surface, shade = TRUE)

olabilirlik yüzeyi

Gördüğünüz gibi, bu yüzeyde bir yerde bir maksimum nokta var. Bu noktayı belirten parametreleri, R'nin yerleşik optimizasyon komutlarıyla bulabiliriz. Bu, değerinin gerçek parametrelerini ortaya çıkarmak için oldukça yakındır. 0,β=2.7,σ=1.3

linear.MLE <- optim(fn=linear.lik, par=c(1,1,1), lower = c(-Inf, -Inf, 1e-8), 
                    upper = c(Inf, Inf, Inf), hessian=TRUE, 
                    y=data$y, X=cbind(1, data$x), method = "L-BFGS-B")
linear.MLE$par


## [1] -0.1303868  2.7286616  1.3446534

lmσ2

summary(lm(y ~ x, data))

## 
## Call:
## lm(formula = y ~ x, data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.3616 -0.9898  0.1345  0.9967  3.8364 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.13038    0.21298  -0.612    0.541    
## x            2.72866    0.03621  75.363   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.351 on 198 degrees of freedom
## Multiple R-squared:  0.9663, Adjusted R-squared:  0.9661 
## F-statistic:  5680 on 1 and 198 DF,  p-value: < 2.2e-16

Bu hoş ve yararlı cevap için teşekkürler @gregmacfarlane. Küçük bir nokta: önce beta ve sigma2'yi R kodunda tanımlamamalı mıyız data$y <- 0 + beta*data$x + rnorm(200, 0, sigma2) ? Ve 0 +kullanışlıdır?
emeryville

1
Evet betave sigma2bu kodun çalışması için tanımlanması gerekir. Bunları sakladım, böylece MLE'yi çalıştırdığınızda neredeyse her zaman bilinmeyen parametreleri "keşfedebildik".
gregmacfarlane

Ayrıca 0 +hiçbir şeyin aslında hiçbir şey yapmadığı konusunda haklısın ; Ben sadece dahil ettim çünkü regresyon modellerinde genellikle bir kesişim var. MLE optimize etmek çalışıyormuş Ve beta, sigma2 ve alpha (dört boyutta arsa olacaktır bir R paketinin bilmedikçe!), Ben çok yüzey arsa gösteremedi
gregmacfarlane

2
@gregmacfarlane harika bir cevap ve bana çok yardımcı oldu. Ancak varyansa karşı standart sapma konusunda bazı hatalar var. Lütfen buraya bakınız. stats.stackexchange.com/questions/267534/…
Haitao Du

2
@ hxd1011 Bu hatayı işaret ettiğiniz için teşekkür ederiz; Ben hatayı düzelttim.
gregmacfarlane

28

Bir parametrenin maksimum olasılığı (ML) tahmini, parametrenin olası diğer değerlerine göre gerçek gözlemlenen verilerinizin en muhtemel olduğu parametrenin değeridir.

Buradaki fikir, aslında gözlemlenen verilerinize sıfır olmayan (belki de küçük de olsa) bir olasılıkla gözlemlenebilecek herhangi bir sayıda "gerçek" parametre değeri olduğudur. Fakat ML tahmini, gözlemlenen verilerinize en yüksek olasılıkla yol açacak olan parametre değerini verir.

Bu, verilerinizi gerçekten üretmiş olması muhtemel olan parametrenin değeri ile karıştırılmamalıdır!

Bu ayrımdan Sober'den (2008, s. 9-10) aşağıdaki pasajı seviyorum. Bu kısımda, bazı gözlenmiş verilerimiz varOH .

"Olabilirliğin" teknik bir terim olduğunu hatırlamanız gerekir. H, Pr (O | H) olasılığı ve H, Pr (H | O) 'nın arka olasılığı, farklı miktarlardır ve farklı değerlere sahip olabilirler. H olasılığı, H'nin O'ya verdiği olasılık değil, O'nun H'ye verdiği olasılık değildir. O, evinizin tavanından çıkan bir ses duyduğunuzu varsayalım. Bovlingin orada gremlinlerin olduğu hipotezini düşünürsünüz. Bu hipotezin olasılığı çok yüksektir, çünkü tavan arasında boğuşma yapan gremlinler varsa, muhtemelen gürültü olacaktır. Ama elbette, gürültünün, bowling salonlarında gremlinlerin bulunma ihtimalini arttırdığını düşünmüyorsunuz. Bu örnekte, Pr (O | H) yüksek ve Pr (H | O) düşüktür. Gremlin hipotezi yüksek bir olasılık (teknik anlamda) fakat düşük olasılıklıdır.

Yukarıdaki örnek açısından, ML gremlin hipotezini destekleyecektir. Bu özel komik örnekte, bu açıkça kötü bir seçimdir. Fakat daha birçok başka gerçekçi durumda, ML tahmini çok makul olabilir.

Referans

Ayık, E. (2008). Kanıt ve Evrim: Bilimin Arkasındaki Mantık. Cambridge Üniversitesi Basını.


8
Bu bana bu önemli noktayı açık ve basit yapan ilk cevap olarak görünüyor. Ancak, eğer verileriniz ayrıysa (binom verileri gibi) yalnızca "en yüksek olasılıkla gözlemlenen verilerinize yol açacağını ", ancak ' verileriniz sürekli olduğunda' en yüksek bağlantı yoğunluğuna sahip gözlemlenen verilerinize yol açacağını "unutmayın. (normal veriler gibi).
gung

6
Teşekkürler. Bahsettiğiniz teknikliğin farkındayım ama biraz "eklem yoğunluğu" ile ilgili herhangi bir tartışmanın "mesleğin koşulları" için biraz gergin olacağı konusunda biraz endişeliydim ...
Jake Westfall

Sizinle aynı fikirdeyim & bunu bildiğinizi düşündüm. Sadece bu konuda başka bir yere geldiğinden beri bahsedeceğimi düşündüm.
gung

16

MLE, gözlemlediğiniz verileri gözlemleme olasılığını en üst seviyeye çıkaran ilgi parametresinin değeridir. Başka bir deyişle, gözlemlenen verileri gözlemlenmesi en muhtemel kılan parametre değeridir.


2
Peki ya bu şekilde maksimize edilmiş olabilirlik fonksiyonu, kendi çevirme tarafında, sürekli rastgele bir değişkenden olasılık yoğunluğu fonksiyonu ise? MLE hala bir olasılığını maksimize ediyor mu? Ve değilse, ne yapar?
Alecos Papadopoulos

@ AlecosPapadopoulos Olasılık fonksiyonunun parametrenin olasılık fonksiyonu olarak değerlendirilebileceğini ve MLE'nin bu olasılık fonksiyonunu en üst seviyeye çıkartan parametre değeri olduğunu anlıyorum. Ancak sorunuz, daha fazla nüans olduğunu gösteriyor?
Heisenberg,

4
@Heisenberg Bu cevap, olasılık fonksiyonunu, örneğin ortak olasılık fonksiyonu olarak ele aldı (bunun için ML, parametrelerin maksimum değerini sağlar ve böylece herhangi bir numune için olasılığı maksimuma çıkarır). Ve bu, rv'ler ayrık olduğunda doğru, fakat sürekli olduklarında doğru değildir, çünkü eklem yoğunluğu, inşaat tarafından bir ortak olasılık değildir. Bunu bir "nüans" olarak nitelendirmezdim, ayrık ve sürekli dünyalar arasındaki temel farktır.
Alecos Papadopoulos

@AlecosPapadopoulos görüyorum. Böylece "olasılık fonksiyonu" vs "yoğunluk fonksiyonu" kelimelerinin kullanımı ile ilgili sorun çıkmaktadır. Bu doğru.
Heisenberg,

ϵϵϵ

10

O ise (çok) matematik kullanmadan bir şey söylemek mümkün, ama en çok olabilirlik gerçek istatistiksel uygulamalar için matematik lazım.

En yüksek olabilirlik tahmini, filozofların en iyi açıklamaya veya kaçırılmaya karşı çıkarımda bulundukları şeyle ilgilidir . Bunu her zaman kullanıyoruz! Ben maksimum olabilirlik öyle söyleme Not olduğu kaçırma, bu terim çok daha geniş olduğunu ve (ampirik önce birlikte) Bayes tahmin bazı durumlarda muhtemelen kaçırma olarak görülebilir. Http://plato.stanford.edu/entries/abduction/#Aca adresinden alınan bazı örnekler Ayrıca bakınız https://en.wikipedia.org/wiki/Abductive_reasoning (Bilgisayar bilimlerinde "kaçırma", bağlam dışı - olasılık modelleri.)

  1. “Tim ve Harry'nin yakın zamanda arkadaşlıklarını sona erdiren korkunç bir sıraya sahip olduklarını biliyorsunuz. Şimdi biri size sadece Tim ve Harry'nin birlikte koşu yaptığını söylediğini söyledi. Bunun için yapabileceğiniz en iyi açıklama onların oluşturduklarıdır. Onların tekrar arkadaş oldukları sonucuna varıyorsunuz. " Bunun nedeni, açıklamaya çalıştığınız gözlemi, alternatifin altında konuşamadıklarından daha muhtemel kılmaya çalışmanızdır.

Başka bir örnek: Bir anaokulunda çalışıyorsunuz ve bir gün bir çocuk garip bir şekilde yürümeye başlıyor ve bacağını kırdığını söylüyor. Siz inceleyin ve yanlış bir şey bulamadınız. Öyleyse, ebeveynlerinden birinin bacaklarını kırdığına makul bir şekilde karar verebilirsiniz, çünkü çocuklar daha sonra tarif edildiği gibi hareket eder, bu nedenle "en iyi açıklamanın bir çıkarımı" ve (gayrı resmi) bir maksimum ihtimal örneğidir. (ve tabii ki, bu açıklama yanlış olabilir, sadece mümkün, kesin değil. Kaçırma / azami ihtimal kesin sonuç veremez).

Kaçırma, verilerde kalıp bulma ve bu kalıpları muhtemel yapabilecek olası teorileri araştırmakla ilgilidir. O zaman, gözlemlenen modeli en fazla olası kılan muhtemel açıklamayı seçmek, sadece maksimum ihtimaldir!

Bilimde kaçırılmanın başlıca örneği evrimdir . Evrimi ima eden tek bir gözlem yoktur, ancak evrim, gözlenen kalıpları diğer açıklamalardan daha muhtemel kılar.

Başka bir tipik örnek tıbbi teşhis mi? Hangi olası tıbbi durum gözlemlenen semptomları en muhtemel hale getirir? Yine, bu da maksimum ihtimal! (Veya, bu durumda, belki de bayesian tahmini daha uygun olur, çeşitli olası açıklamaların önceki olasılığını göz önünde bulundurmalıyız). Ancak bu bir tekniktir, bu durumda istatistiksel modelin doğal bir parçası olarak görülebilen deneysel öncelikleri olabilir ve model dediğimiz şey, daha önce söylediğimiz bazı keyfi (*) istatistiksel kurallardır.

MLE'nin meslekten olmayan terim açıklaması hakkındaki asıl soruya geri dönmek için, işte basit bir örnek: 6 ve 7 yaşındaki kızlarım, bunu sordum. İki çatal yaptık (iki ayakkabı kutusu), bir tanesine 2 siyah topu, 8 kırmızı, diğerine anahtarlanan sayılara koyduk. Daha sonra çayı karıştırdık ve rastgele bir tane çizelim. Sonra da bu urndan rastgele bir top çıkardık. Kırmızıydı.

Sonra sordum: Hangi toptan kırmızı topun çekildiğini düşünüyorsunuz? Düşündükten yaklaşık bir saniye sonra cevap verdiler (koroda): 8 tane kırmızı topu olandan!

Sonra sordum: Neden böyle düşünüyorsun? Ve yine, yaklaşık bir saniye sonra (tekrar kuluçkada): "Çünkü kırmızı bir top çizmek daha kolay!". Yani, kolay = daha muhtemel . Bu, maksimum olasılıktı (olasılık modelini yazmak için kolay bir alıştırma) ve “en iyi açıklamanın çıkarımı” yani kaçırılmadır.

(*) Neden "keyfi" diyorum? Tıbbi tanı problemine devam etmek için, hastanın doktorun daha önce görmediği durumu teşhis etmek için biraz zor olan bir adam olduğunu söyleyin. Sonra, diyelim ki, hastayla konuşmasında kısa zaman önce tropik Afrika'da bir yeri ziyaret ettiği ortaya çıkar. Bu yeni bir veri parçasıdır, ancak tipik modellerde etkisi (bu tür durumlarda kullanılır, resmi veya gayrı resmi olsa da) zor olası açıklamaların önceliğini değiştirecektir, çünkü sıtma gibi tropikal hastalıklar artmaktadır. önceki olasılık Böylece yeni veriler önceden analizlere girer .


“kaçınılmaz muhakeme ve maksimum olabilirlik tahmini” için yapılan googling, pek çok alakalı sonuç verir.
kjetil b halvorsen

1
(1/2) Merhaba kjetil, bu harika bir cevap, ve takdir ediyorum. (Ayrıca kızlarınızla ilgili bulanıklık çok tatlıdır. :)) Her halükarda, kendi “güçlü” ihtimalini kendi anlayışımı geliştirmek için mücadele ediyorum ve sorumu burada resmileştirdim .
Creatron

1
L(θ|x)=P(x|θ)

9

θθ

θθθ

(Eğer veriler sürekli ise, “olasılık” için “olasılık yoğunluğu” nu okuyun. Dolayısıyla inç cinsinden ölçülürse, yoğunluk inç başına olasılık cinsinden ölçülür.)


3
y

@ DimitriyV.Masterov Gerçekten de değiller. Yapabilseniz bile, doğru hatırlıyorsam, olasılık sadece tanımlandı (Fisher tarafından sanırım) 'çarpımsal bir sabite kadar'.
Glen_b

@Dimitriy, iyi nokta; Ekledim.
Scortchi

1
@Glen, Çoğu amaç için - olabilirlik oranı testleri, maksimum olabilirlik tahmini - sabiti düşürebilirsiniz. AIC'yi iç içe olmayan modeller arasında karşılaştırmak için yapamazsınız. Zaten bir mesleğin tanımına girmesi gerektiğini düşünmeyin.
Scortchi

1
Aynı sabiti düşürdüğünüz sürece, hala yapabilirsiniz.
Glen_b

6

Haydi bir oyun oynayalım: Karanlık bir odadayım, kimse ne yaptığımı göremiyor ama bilirsin ya (a) Bir zar atarım ve '1'in sayısını' başarı 'olarak sayırım ya da (b) Bir jeton atarım ve kafa sayısını 'başarı' olarak sayıyorum.

Dediğim gibi, ikisinden hangisini yaptığımı göremiyorsunuz ama size tek bir bilgi vereceğim: Size 100 kere bir zar attığımı ya da 100 kere attığımı ve jetonu 100 kez attığımı ve 17 başarılı olduğumu söylüyorum .

Soru bir zar atıp atmadığımı ya da yazı tura atıp atmadığımı tahmin etmektir.

Muhtemelen bir zar attığımı cevaplayacaksın.

Bunu yaparsanız, o zaman muhtemelen 'olasılığını en üst düzeye çıkararak bir tahminde bulunmuşsunuzdur' çünkü 17 deneyden 100'er adet başarı elde edersem, benim madeni para attığımdan daha fazla zar atmam daha muhtemeldir.

Öyleyse yaptığınız şey, “başarı olasılığı” nın (bir zar için 1/6 ve bir jetonun 1 / 6'ı) bu değeri alarak, 100'de 17 başarıya ulaşmayı en muhtemel kılan şeydir. 100 atışta 17 kez bir '1' a sahip olma şansı, 100 jeton fırından 17 kafa alma şansından daha yüksektir.


Cevabımda dediğim gibi, 'kaçırma' veya 'en iyi açıklamanın çıkarımı'.
kjetil b halvorsen

@kjetil b halvorsen: Ne demek istediğini anlamıyorum?

Sadece yukarıdaki cevabımı karşılaştırmaya çalışıyorum. Bu terimler diğer alanlarda (felsefe, CS) aşağı yukarı aynı fikir için kullanılır: Genel olarak gerçeklere en uygun olan açıklamayı seçin, olasılıkla maksimum olasılıkla sonuçlanan olasılıklı bir modelle.
kjetil b halvorsen 20

@kjetil b halvorsen: Daha sonra örneğimin iyi olduğu sonucuna varabilir miyim? Layman'ın terimlerinde de aynı şeyi söylemek :-)?

1

XμμμLμfμ

L(μ|X)=i=1Nf(xi,μ)

veya log-olabilirlik:

lnL(μ|X)=i=1Nlnf(xi,μ)

μf

μ

Örnek

İlk önce bazı sahte veriler üretelim:

set.seed(123)
x <- rnorm(1000, 1.78)

μX

llik <- function(mu) sum(log(dnorm(x, mu)))

μ

ll <- vapply(seq(-6, 6, by=0.001), llik, numeric(1))

plot(seq(-6, 6, by=0.001), ll, type="l", ylab="Log-Likelihood", xlab=expression(mu))
abline(v=mean(x), col="red")

Aynısı , bir işlevin azami değerini, kaba kuvvet uygulayan daha akıllı bir şekilde arayan bir optimizasyon algoritmasıyla daha hızlı bir şekilde başarılabilir . Bunun gibi çok sayıda örnek var, örneğin R'nin en temellerinden biri optimize:

optimize(llik, interval=c(-6, 6), maximum=TRUE)$maximum

görüntü tanımını buraya girin

μ1.78μoptimize

Bu örnek, parametrenizin "en iyi" değerini bulma olasılığını en üst düzeye çıkaran değeri bulmak için çoklu yaklaşımları nasıl kullanabileceğinizi gösterir.


0

{y1,y2,,yn}θ={μ,σ2}{y1,y2,,yn}θ={μ,σ2}p(y1,y2,,yn|θ)

L(θ|y1,y2,,yn)θL(θ)θ{μ,σ2}L{μ,σ2}L(θ)


0

Bir bozuk para olduğunu varsayalım. Savurma, kafa veya kuyruk verebilir. Ama bunun adil bir para olup olmadığını bilmiyorsun. Yani 1000 kere atıyorsun. 1000 kez kafa çıkıyor, asla kuyruk gibi gelmiyor.

0.52000

MLE, böyle bir durumda en iyi açıklamayı bulmanıza yardımcı olmaya çalışır - bir sonuç elde ettiğinizde ve parametrenin değerinin bu sonucu vermesi en muhtemel olanın ne olduğunu bulmak istersiniz. Burada 2000 atıştan 2000 başımız var - bu yüzden, 2000 baştan 2000 başın çıkmasını en iyi şekilde açıklayabilmenin en iyi yolunu bulma ihtimalini bulmak için bir MLE kullanırız .

Bu var Maksimum olabilirlik Tahmincisi . Şu anda bakmakta olduğunuz sonucu vermesi muhtemel olan parametreyi (burada bir olasılık dağılım fonksiyonu) tahmin eder.

1


-1

MLE'yi anladığım yol şudur: Sadece doğanın görmeni istediği şeyi görürsün. Gördüğün şeyler gerçekler. Bu gerçeklerin onu oluşturan temel bir süreci vardır. Bu işlem gizli, bilinmeyen, keşfedilmesi gerekiyor. Öyleyse soru şudur: Gözlenen gerçekler göz önüne alındığında, P1 sürecinin yaratma olasılığı nedir? P2 işleminin üretme olasılığı nedir? Ve böyle devam eder ... Bu ihtimallerden biri en fazla olacak. MLE, bu maksimum olasılığı ortaya çıkaran bir fonksiyondur.

Bir bozuk para atmayı düşünün; para önyargılı. Hiç kimse önyargı derecesini bilmiyor. O (tüm kuyruklar) ile 1 (tüm başlıklar) arasında değişebilir. Adil bir para 0,5 (baş / kuyruk eşit olasılıkla) olacaktır. 10 vuruş yaparsanız ve 7 Kafa gözlemlediğinizde, MLE, 10 kafadaki 7 kafadaki gözlenen gerçeği üretme eğiliminde olan önyargı derecesidir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.