MAP,


10

Ben geldim bu slaytlar çevrimiçi derslerin birinde (slayt # 16 & # 17). Eğitmen Maksimum Posterior Tahmini (MAP) çözüm aslında nasıl anlatmaya çalışıyordu L(θ)=ben[θθ*] , nerede θ* gerçek bir parametredir.

Birisi bunun nasıl olduğunu açıklayabilir mi?

Düzenle: Bağlantının kopması durumunda slaytlar eklendi. resim açıklamasını buraya girin

resim açıklamasını buraya girin

Yanıtlar:


3

Paylaştığınız slaytlardan geçerek, bana göre fikir, MAP tahmininin posteriorun ortalama, mod ve medyan gibi farklı özelliklerini tahmin etmek için nasıl kullanılabileceğini açıklamaktır. Bunu, Stephen M. Kay'ın İstatistiksel Sinyal İşlemenin Temelleri kitabında sunulduğu gibi Genel Bayesci Tahminciler bağlamında açıklamaya çalışacağım .

θ parametresini tahmin etmekle ilişkili üç Risk türü (yani maliyet fonksiyonları) göz önüne alarak başlayalım :

  1. C(e)=e2
  2. C(e)=|e|
  3. ifδ<e<δ,C(e)=0 ; başkaC(e)=1

burada, e=θθ^ , burada θ tahmini değerdir ve θ gerçek bir parametredir. Bayes kestiriminde amaç beklenen riski en aza indirmektir:θ^θ

E[C(e)]=XθC(e)p(X,θ)dθdX=X[θC(e)p(θ|X)dθ]p(X)dX

sadece θ ilgilendiğimiz için, minθθC(e)p(θ|X)dθ iç integraline odaklanacağız .

Şimdi, hangi C(e) seçtiğimize bağlı olarak , tahminci bize posteriorun farklı bir özelliğini verecektir. İlk durumda tercih Örneğin, C(e)=e2 , minimize θ için θC(e)p(θ|X)dθ , ortalamasıdır. Size bu yana ediyoruz soru gösterge işlevi açısından ise ben[θ^θ], Yukarıda belirtilen üçüncü riski ele alacağım (eğer δ0 için düşünürseniz göstergeyi kullanmaya eşittir).

Yukarıdaki Durum 3 için:

θC(e)p(θ|X)dθ=-θ^-δp(θ|X)dθ+θ^+δp(θ|X)dθ=1-θ^+δθ^+δp(θ|X)dθ

olan δ0 asgariye düşürülmesidir θ posterior moduna tekabül eder.θ^


2
Harika açıklama için teşekkürler. Ayrıca, Gelecek okuyucular da benzer bir kitapta aynı şeyi okuyabilirler: Kevin Murphy'nin Olasılıksal Bir Perspektifini
Öğrenmek için Machine_L

Eğer bu sınırlama tartışmanın ayrıntılarını belirtmek Could ? Ne zaman prosedürün sınırını ifade ediyor δ sıfır veya arka kaybı sınırı gider? δδ
Xi'an

beklentisinin sınırından bahsediyorum . E[C(e)]
idnavid

10

Θ

Θ={θ1,θ2,...}
P(θ^θ|x)P(θ^=θ|x)θ^

0-1P(θ^=θ|x)=0θ^

Örneğin, Evans ve Jang 2011 yılında MAP, en az göreceli sürpriz (veya maksimum profil olasılığı) tahmin edicileri ve kayıp fonksiyonları arasındaki bağlantıyı tartıştıkları bir arXiv belgesi yayınladılar . Meselenin özü, ne MAP tahmincilerinin ne de MLE'lerin en azından sürekli bir parametre alanında karar teorik bir yaklaşımla gerçekten haklı gösterilmemesidir. Ve parametre alanı üzerinde seçilen [keyfi olarak] baskın önlemin Druihlet ve Marin tarafından 2007'de gösterildiği gibi MAP değerini etkilediği. Sonlu durumda burada transform (θ) dönüşümünün tahminini d ile tahmin ederler, bu dönüşümden önce marjinal tarafından ters ağırlıklı. Kimlik dönüşümünün özel durumunda, bu kayıp fonksiyonu Bayes tahmincisi olarak MLE'ye yol açar. Genel durumda, Bayes tahmincisi maksimum profil olabilirlik tahmincisidir (LRSE). Bununla birlikte, bu kayıp fonksiyonu, sayıca sonsuz (ve açık bir şekilde sürekli) parametre uzayları için genelleme yapmaz ve bu tür ayarlarda yazarlar sadece Bayes prosedürlerinin limiti olarak LRSE'ler sağlayabilirler. Sayılabilecek davada kabul edilen kayıp fonksiyonu örneğin L ( θ , d ) = I { Ψ (

L(θ,d)=ben{Ψ(θ)d)/πΨ(Ψ(θ))
ile sınır sıfıra iner. Sürekli durumda, gösterge artık çalışmaz, bu nedenle yazarlar tarafından yapılan seçim λ (Θ) alanını, çapları λ sıfıra giden topların belirli bir bölümü ile takdir etmektir. Druihlet ve Marin'in ruhunda, bu seçim bir metriğe (ve diğer düzenlilik koşullarına) bağlıdır. Ayrıca, LRSE'nin kendisi max ψ π ψ ( ψ | x ) / π ψ ( θ
L(θ,d)=ben{Ψ(θ)d}/maksimum{η,πΨ(Ψ(θ))}
, Bayes eşitliğini where ψ ( ψ | x ) / π ψ ( θ ) = f ( x | ψ ) / m ( x ) her yere koymadığı sürece, yoğunluklar için seçilen sürüme bağlıdır (baskın ölçüye bağlı değilse ). ) her yerde, f ( x | ψ ) = { θ ; Ψ ( θ ) = ψ } f ( x |
maksimumψπψ(ψ|x)/πψ(θ)
πψ(ψ|x)/πψ(θ)=f(x|ψ)/m(x)
ve m ( x ) = f ( x | θ ) π ( θ ) d θ ,Savage-Dickey paradoks kağıdımızınruhunda.
f(x|ψ)={θ;Ψ(θ)=ψ}f(x|θ)π(θ)dθ
m(x)=f(x|θ)π(θ)dθ

Robert Bassett ve Julio Deride 2016 yılında MAP'lerin Bayesçi karar teorisindeki konumunu tartışan bir makale hazırladılar .

“… 0-1 kaybına sahip Bayes tahmincilerinin bir limiti olarak MAP tahmincilerinin yaygın kabul gören fikrine karşı bir örnek sunuyoruz.”

Yazarlar bu özelliği başka önlemler almadan Bayes Choice kitabımdan bahsediyor ve bu konuda dikkatsiz olmayı tamamen kabul ediyorum! Zorluk, sınırlayıcıların sınırının sınırlandırıcı olması gerekmemesi ile sınırlıdır. Makale, parametreye bağlı olmayan bir örnekleme dağılımı ile ilişkili olarak yukarıda belirtildiği gibi bu etkiye bir örnek içermektedir. Burada önerilen yeterli koşullar, posterior yoğunluğun neredeyse kesin olarak uygun veya yarı konkav olmasıdır.

||K(u^-u)||2+2Dπ(u^,u)
MAP'yi Bayes tahmincisi olarak üretir. Birisi hâlâ baskın tedbir hakkında merak edebilir, ancak hem kayıp fonksiyonu hem de sonuçta ortaya çıkan tahminci, baskın tedbirin seçimine açıkça bağlıdır… (Kayıp öncekine bağlıdır, ancak bu kendi başına bir dezavantaj değildir.)

1

Bu sorun hakkında bahsedilen metnin özetini Bölüm 5, Bayes İstatistikleri, Makine Öğrenimi: Olasılıkçı bir bakış açısı - Murphy tarafından vereceğim .

Xp(θ|X)

Ortalama veya medyandan farklı olarak, bu tahmin edilirken diğer tüm noktaları dikkate almadığı için 'alışılmadık' bir noktadır. Ortalama / ortanca tahmini durumunda, diğer tüm hususları dikkate alırız.

Bu nedenle, beklendiği gibi, çok eğik posterior dağılımlarda, MAP (ve uzantı olarak MLE) gerçekte posterioru tam olarak temsil etmez.

Peki, Ortalama / Medyan / Mod gibi bir nokta tahmini kullanarak bir posterioru nasıl özetleyebiliriz?

L(θ,θ^)θθ^

Zarar fonksiyonu ise L(θ,θ^)ben(θ^θ|x)θben(θ^=θ|x)θ.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.