Maksimum olasılık parametreleri posterior dağılımlardan sapar


11

Bir olasılık işlevi vardır verilerim olasılık bazı model parametrelerinin verilen I tahmin etmek istiyorum. Parametreler üzerinde düz öncelikler varsayarsak, olasılık posterior olasılıkla orantılıdır. Bu olasılığı örneklemek için bir MCMC yöntemi kullanın.L(d|θ)dθRN

Ortaya çıkan yakınsak zincire bakıldığında, maksimum olabilirlik parametrelerinin posterior dağılımlarla tutarlı olmadığını düşünüyorum. Örneğin, parametrelerden biri için marjinal arka olasılık dağılımı olabilir , değeri ise maksimum olabilirlik noktada , esasen MCMC örnekleyicisi tarafından neredeyse maksimum değeri .θ0N(μ=0,σ2=1)θ0θ0ML4θ0

Bu açıklayıcı bir örnek, gerçek sonuçlarım değil. Gerçek dağılımlar çok daha karmaşıktır, ancak ML parametrelerinin bazılarının ilgili posterior dağılımlarında benzer şekilde p değerleri yoktur. Bazı parametrelerimin sınırlı olduğunu unutmayın (örn. ); sınırlar içinde, öncelikler her zaman aynıdır.0θ11

Sorularım:

  1. Böyle bir sapma kendi başına bir problem midir? Açıkçası, ML parametrelerinin, marjinalize posterior dağılımlarının her birinin maksimumunun tam olarak çakışmasını beklemiyorum, ancak sezgisel olarak kuyrukların derinlerinde bulunmaması gerektiği gibi geliyor. Bu sapma sonuçlarımı otomatik olarak geçersiz kılıyor mu?

  2. Bu mutlaka sorunlu olsun ya da olmasın, veri analizinin bir aşamasında spesifik patolojilerin belirtisi olabilir mi? Örneğin, böyle bir sapmanın yanlış yakınsak bir zincir, yanlış bir model veya parametreler üzerinde aşırı sıkı sınırlar tarafından tetiklenip tetiklenemeyeceğine dair genel bir açıklama yapmak mümkün müdür?

Yanıtlar:


15

Düz öncelikler ile posterior, bir sabite kadar olan olasılıkla aynıdır. Böylece

  1. MLE (bir optimize ediciyle tahmin edilir) MAP ile aynı olmalıdır (maksimum posteriori değeri = posteriorun çok değişkenli modu, MCMC ile tahmin edilir). Aynı değeri almazsanız, örnekleyiciniz veya optimize edicinizle ilgili bir sorununuz vardır.

  2. Karmaşık modeller için, marjinal modların MAP'den farklı olması çok yaygındır. Bu, örneğin parametreler arasındaki korelasyonlar doğrusal değilse gerçekleşir. Bu gayet iyi ancak marjinal modlar en yüksek posterior yoğunluk noktaları olarak yorumlanmamalı ve MLE ile karşılaştırılmamalıdır.

  3. Bununla birlikte, özel durumunuzda, posteriorun önceki sınıra karşı ilerlediğinden şüpheleniyorum. Bu durumda, posterior kuvvetle asimetrik olacaktır ve onu ortalama, sd açısından yorumlamak mantıklı değildir. Bu durumla ilgili herhangi bir ilke sorunu yoktur, ancak pratikte genellikle model yanlış tanımlamasına veya kötü seçilmiş önceliklere işaret eder.


15

Bu algılanan tutarsızlık için bazı olası genel açıklamalar, elbette kod veya olasılık tanımı veya MCMC uygulaması veya MCMC yineleme sayısı veya olasılık maksimize edicisinin yakınsaması ile ilgili bir sorun olmadığı varsayılarak (teşekkürler, Jacob Socolar ):

  1. büyük boyutlarda , posterior maksimuma değil , moddan mesafesine kadar olan bir şeye odaklanır , yani bir MCMC örnekleyicisinin karşılaştığı olabilirlik fonksiyonunun en büyük değerlerinin genellikle olabilir. Örneğin, posterior , en azından modundan mesafesindedir .NNθ|xNN(0,IN)θN22N0

  2. MAP ve MLE gerçekten daha önce bir daire altında karıştırılırken, modelin farklı parametrelerinin marjinal yoğunlukları karşılık gelen MLE'lerden (yani MAP'lerden) uzak (marjinal) modlara sahip olabilir.

  3. MAP, parametre uzayında posterior yoğunluğun en yüksek olduğu bir konumdur, ancak bu MAP'nin mahalleleri için posterior ağırlık veya hacim belirtisi içermez. Çok ince bir sivri arka ağırlık taşımaz. Bu aynı zamanda bir posteriorun MCMC araştırmasının posterior modun tanımlanmasında zorluklarla karşılaşmasının nedenidir .

  4. Çoğu parametrenin sınırlı olması, bir sınırda meydana gelen MAP = MLE'nin bazı bileşenlerine yol açabilir.

MAP tahmincilerinin Bayes dışı doğası hakkındaki tartışmalar için bkz. Örneğin Druihlet ve Marin (2007) . Birincisi, bu tahminlere baskın ölçüye bağımlılık, diğeri ise yeniden parametrelendirme altında değişmezlik (MLE'lerin aksine).

Yukarıdaki 1. noktaya örnek olarak, burada kısa bir R kodu verilmiştir.

N=100
T=1e4
lik=dis=rep(0,T)
mu=rmvnorm(1,mean=rep(0,N))
xobs=rmvnorm(1,mean=rep(0,N))
lik[1]=dmvnorm(xobs,mu,log=TRUE)
dis[1]=(xobs-mu)%*%t(xobs-mu)
for (t in 2:T){
  prop=rmvnorm(1,mean=mu,sigma=diag(1/N,N))
  proike=dmvnorm(xobs,prop,log=TRUE)
  if (log(runif(1))<proike-lik[t-1]){
    mu=prop;lik[t]=proike
     }else{lik[t]=lik[t-1]}
    dis[t]=(xobs-mu)%*%t(xobs-mu)}

N = 100 boyutunda rastgele bir yürüyüş Metropolis-Hastings dizisini taklit eder. HARİTA'daki günlük olabilirlik değeri -91.89'dur, ancak ziyaret edilen olasılıklar asla yaklaşmaz:

> range(lik)
[1] -183.9515 -126.6924

bu, dizinin asla gözleme yaklaşmaması gerçeğiyle açıklanır:

> range(dis)
[1]  69.59714 184.11525

3
Ben sadece kod veya olabilirlik tanımı veya MCMC uygulaması hakkında endişe ek olarak, OP de ML tahmini elde etmek için kullanılan yazılım yerel bir optimum sıkışıp sıkışmış olup olmadığını endişe olabilir ekleyebilirim. stats.stackexchange.com/questions/384528/…
Jacob Socolar
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.