Maksimum posteriori tahmini örneği


11

Maksimum olabilirlik tahmini ve maksimum posteriori tahmin hakkında okudum ve şimdiye kadar sadece maksimum olabilirlik tahmini ile somut örneklerle karşılaştım. Maksimum posteriori kestirime ilişkin bazı soyut örnekler buldum, ancak üzerinde sayılarla henüz somut bir şey yok: S

Çok ezici olabilir, sadece soyut değişkenler ve işlevlerle çalışabilir ve bu soyutlukta boğulmamak için zaman zaman işleri gerçek dünyayla ilişkilendirmek güzeldir. Ama elbette, bu sadece benim (ve diğer bazı insanların) gözlemim :)

Bu nedenle, herhangi biri bana sayıları olan bir Posteriori tahmininin basit ama somut bir örneğini verebilir mi? Bu çok yardımcı olur :)

Teşekkür ederim!

Aslında bu soruyu MSE'ye gönderdim, ancak orada bir cevap alamadım:

/math/449386/example-of-maximum-a-posteriori-estimation

Çapraz gönderme konusunda burada verilen talimatları takip ettim:

http://meta.math.stackexchange.com/questions/5028/how-do-i-move-a-post-to-another-forum-like-cv-stats

Yanıtlar:


6

1. Örnek

Tipik bir durum, doğal dil işleme bağlamında etiketlemedir . Ayrıntılı bir açıklama için buraya bakın . Fikir temel olarak bir cümledeki bir kelimenin sözcük kategorisini belirleyebilmektir (bir isim, bir sıfat, ...). Temel fikir, gizli bir markov modelinden ( HMM ) oluşan bir dil modeline sahip olmanızdır . Bu modelde, gizli durumlar sözcük kategorilerine ve gözlenen durumlar gerçek kelimelere karşılık gelir.

İlgili grafik model şu şekildedir:

standart bir HMM'nin grafik modeli

burada cümledeki sözcük dizisidir ve dizidir Etiketlery=(y1,...,yN)x=(x1,...,xN)

Eğitildikten sonra amaç, belirli bir giriş cümlesine karşılık gelen sözcük kategorilerinin doğru sırasını bulmaktır. Bu, dil modeli tarafından üretilmesi en uygun / en muhtemel olan etiket dizisini bulmak, yani

f(y)=argmaxxYp(x)p(y|x)

2. Örnek

Aslında daha iyi bir örnek regresyon olabilir. Sadece anlaşılması daha kolay olduğu için değil, aynı zamanda maksimum olabilirlik (ML) ve maksimum arasındaki bir posteriori (MAP) arasındaki farkları netleştirdiği için.

Temel olarak, sorun, örnekleri tarafından verilen bazı fonksiyonların bir dizi temel fonksiyonun doğrusal bir kombinasyonuyla uydurulmasıdır , burada temel işlevlerdir ve ağırlıklardır. Genellikle örneklerin Gauss gürültüsü tarafından bozulduğu varsayılır. Bu nedenle, hedef fonksiyonun tam olarak böyle doğrusal bir kombinasyon olarak yazılabileceğini varsayarsak,t

y(x;w)=iwiϕi(x)
ϕ(x)w

t=y(x;w)+ϵ

bu yüzden Bu sorunun ML çözümü en aza indirmeye eşdeğerdir,p(t|w)=N(t|y(x;w))

E(w)=12n(tnwTϕ(xn))2

ki bu en iyi bilinen en küçük kare hata çözeltisini verir. Şimdi, ML gürültüye duyarlıdır ve belirli koşullar altında kararlı değildir. MAP, ağırlıklar üzerinde kısıtlamalar koyarak daha iyi çözümler bulmanızı sağlar. Örneğin, tipik bir durum, ağırlıkların mümkün olduğunca küçük bir norm olmasını talep ettiğiniz sırt regresyonudur,

E(w)=12n(tnwTϕ(xn))2+λkwk2

öncesinde bir Gauss ayarı yapmaya eşdeğerdir . Toplamda, tahmini ağırlıklarN(w|0,λ1I)

w=argminwp(w;λ)p(t|w;ϕ)

MAP'de ağırlıkların ML'deki parametreler değil, rastgele değişkenler olduğuna dikkat edin. Bununla birlikte, hem ML hem de MAP nokta tahmin edicilerdir (optimal ağırlıkların dağılımı yerine en uygun ağırlık kümesini döndürürler).


+1 Merhaba @juampa Cevabınız için teşekkür ederim :) Ama yine de daha somut bir örnek arıyorum :)
jjepsuomi

Tekrar teşekkürler @juampa. Şimdi nasıl bulmak sürdüreceğini belirtti argmin minimize? Degrade veya newton'un yöntemi vb. Gibi yinelemeli bir algoritma kullanıyor musunuz? w
jjepsuomi

1
kesinlikle. Doğrudan çözülebilir (kapalı bir form çözümü vardır), ancak bir matrisinin ters çevrilmesini içerir . Ve bu yinelemeli yöntemleri kullanmanın sebebidir (özellikle yüksek boyutlu problemlerle uğraşırken). O(n3)
jpmuc

İlk denklem mı? f(y)=argmaxxXp(x)p(y|x)
Lerner Zhang
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.