MAP,

10

Ben geldim bu slaytlar çevrimiçi derslerin birinde (slayt # 16 & # 17). Eğitmen Maksimum Posterior Tahmini (MAP) çözüm aslında nasıl anlatmaya çalışıyordu $L(\theta) = \mathcal{I}[\theta \ne \theta^{*}]$ , nerede $\theta^{*}$ gerçek bir parametredir.

Birisi bunun nasıl olduğunu açıklayabilir mi?

Düzenle: Bağlantının kopması durumunda slaytlar eklendi.

— bal porsuğu
kaynak

3

Paylaştığınız slaytlardan geçerek, bana göre fikir, MAP tahmininin posteriorun ortalama, mod ve medyan gibi farklı özelliklerini tahmin etmek için nasıl kullanılabileceğini açıklamaktır. Bunu, Stephen M. Kay'ın İstatistiksel Sinyal İşlemenin Temelleri kitabında sunulduğu gibi Genel Bayesci Tahminciler bağlamında açıklamaya çalışacağım .

$\theta$ parametresini tahmin ilişkili üç Risk türü (yani maliyet fonksiyonları) göz önüne alarak başlayalım :

$C(e) = e^2$

$C(e) = |e|$

$if -\delta < e < \delta, C(e)=0$ ; başka $C(e)=1$

burada, $e = \theta - \hat{\theta}$ , burada tahmini değerdir ve gerçek bir parametredir. Bayes kestiriminde amaç beklenen riski en aza indirmektir: $\hat{\theta}$ $\theta$

$E[C(e)]= \int_X \int_{\theta} C(e)p(X,\theta)d\theta dX = \int_X \left[\int_\theta C(e)p(\theta|X)d\theta\right] p(X)dX$

sadece $\theta$ ilgilendiğimiz için, $\min_{\theta}\int_\theta C(e)p(\theta|X)d\theta$ iç integraline odaklanacağız .

Şimdi, hangi $C(e)$ seçtiğimize bağlı olarak , tahminci bize posteriorun farklı bir özelliğini verecektir. İlk durumda tercih Örneğin, $C(e) = e^2$ , minimize $\theta$ için $\int_\theta C(e)p(\theta|X)d\theta$ , ortalamasıdır. Size bu yana ediyoruz soru gösterge işlevi açısından ise $I[\hat{\theta}\ne \theta]$ , Yukarıda belirtilen üçüncü riski ele alacağım (eğer $\delta\rightarrow 0$ için düşünürseniz göstergeyi kullanmaya eşittir).

Yukarıdaki Durum 3 için:

$\int_\theta C(e)p(\theta|X)d\theta = \int_{-\infty}^{\hat{\theta}-\delta}p(\theta|X)d\theta + \int_{\hat{\theta}+\delta}^{\infty}p(\theta|X)d\theta = 1 - \int_{\hat{\theta}+\delta}^{\hat{\theta}+\delta}p(\theta|X)d\theta$

olan $\delta \rightarrow 0$ asgariye düşürülmesidir posterior moduna tekabül eder. $\hat{\theta}$

— idnavid
kaynak

2

Harika açıklama için teşekkürler. Ayrıca, Gelecek okuyucular da benzer bir kitapta aynı şeyi okuyabilirler: Kevin Murphy'nin Olasılıksal Bir Perspektifini

— Öğrenmek için Machine_L

Eğer bu sınırlama tartışmanın ayrıntılarını belirtmek Could

? Ne zaman prosedürün sınırını ifade ediyor

sıfır veya arka kaybı sınırı gider?

δ

$\delta$

δ

$\delta$

— Xi'an

beklentisinin sınırından bahsediyorum .

E [C (e)]

$E[C(e)]$

— idnavid

10

$\Theta$

Θ = {θ_{1}, θ_{2}, ...}

$\Theta=\{\theta_1,\theta_2,\ldots\}$

P (\hat{θ} \neq θ | x)

$\mathbb{P}(\hat{\theta}\ne\theta|x)$

P (\hat{θ} = θ | x)

$\mathbb{P}(\hat{\theta}=\theta|x)$

\hat{θ}

$\hat{\theta}$

$0-1$ $\mathbb{P}(\hat{\theta}=\theta|x)=0$ $\hat{\theta}$

Örneğin, Evans ve Jang 2011 yılında MAP, en az göreceli sürpriz (veya maksimum profil olasılığı) tahmin edicileri ve kayıp fonksiyonları arasındaki bağlantıyı tartıştıkları bir arXiv belgesi yayınladılar . Meselenin özü, ne MAP tahmincilerinin ne de MLE'lerin en azından sürekli bir parametre alanında karar teorik bir yaklaşımla gerçekten haklı gösterilmemesidir. Ve parametre alanı üzerinde seçilen [keyfi olarak] baskın önlemin Druihlet ve Marin tarafından 2007'de gösterildiği gibi MAP değerini etkilediği. Sonlu durumda burada transform (θ) dönüşümünün tahminini d ile tahmin ederler, bu dönüşümden önce marjinal tarafından ters ağırlıklı. Kimlik dönüşümünün özel durumunda, bu kayıp fonksiyonu Bayes tahmincisi olarak MLE'ye yol açar. Genel durumda, Bayes tahmincisi maksimum profil olabilirlik tahmincisidir (LRSE). Bununla birlikte, bu kayıp fonksiyonu, sayıca sonsuz (ve açık bir şekilde sürekli) parametre uzayları için genelleme yapmaz ve bu tür ayarlarda yazarlar sadece Bayes prosedürlerinin limiti olarak LRSE'ler sağlayabilirler. Sayılabilecek davada kabul edilen kayıp fonksiyonu örneğin

L (θ, d) = ben {Ψ (θ) \neq d) / π_{Ψ} (Ψ (θ))

$\mathrm{L}(\theta,d) = \mathbb{I}\{\Psi(\theta) \ne d) / \pi_\Psi(\Psi(\theta))$

ile sınır sıfıra iner. Sürekli durumda, gösterge artık çalışmaz, bu nedenle yazarlar tarafından yapılan seçim λ (Θ) alanını, çapları λ sıfıra giden topların belirli bir bölümü ile takdir etmektir. Druihlet ve Marin'in ruhunda, bu seçim bir metriğe (ve diğer düzenlilik koşullarına) bağlıdır. Ayrıca, LRSE'nin kendisi

L (θ, d) = ben {Ψ (θ) \neq d} / maksimum {η, π_{Ψ} (Ψ (θ))}

$\mathrm{L}(\theta,d) = \mathbb{I}\{\Psi(\theta) \ne d\} / \max\{\eta,\pi_\Psi(\Psi(\theta))\}$

, Bayes eşitliğini

her yere koymadığı sürece, yoğunluklar için seçilen sürüme bağlıdır (baskın ölçüye bağlı değilse

her yerde,

\underset{ψ}{maksimum} π_{ψ} (ψ | x) / π_{ψ} (θ)

$\max_{\psi}\pi_\psi(\psi|x)/\pi_\psi(\theta)$

π_{ψ} (ψ | x) / π_{ψ} (θ) = f (x | ψ) / m (x)

$\pi_{\psi}(\psi|x)/\pi_\psi(\theta)=f(x|\psi)/m(x)$

ve

,Savage-Dickey paradoks kağıdımızınruhunda.

f (x | ψ) = \int_{{θ; Ψ (θ) = ψ}} f (x | θ) π (θ) d θ

$f(x|\psi)=\int_{\{\theta;\Psi(\theta)=\psi\}}f(x|\theta)\pi(\theta)\mathrm{d}\theta$

m (x) = \int f (x | θ) π (θ) d θ

$m(x)=\int f(x|\theta)\pi(\theta)\mathrm{d}\theta$

Robert Bassett ve Julio Deride 2016 yılında MAP'lerin Bayesçi karar teorisindeki konumunu tartışan bir makale hazırladılar .

“… 0-1 kaybına sahip Bayes tahmincilerinin bir limiti olarak MAP tahmincilerinin yaygın kabul gören fikrine karşı bir örnek sunuyoruz.”

Yazarlar bu özelliği başka önlemler almadan Bayes Choice kitabımdan bahsediyor ve bu konuda dikkatsiz olmayı tamamen kabul ediyorum! Zorluk, sınırlayıcıların sınırının sınırlandırıcı olması gerekmemesi ile sınırlıdır. Makale, parametreye bağlı olmayan bir örnekleme dağılımı ile ilişkili olarak yukarıda belirtildiği gibi bu etkiye bir örnek içermektedir. Burada önerilen yeterli koşullar, posterior yoğunluğun neredeyse kesin olarak uygun veya yarı konkav olmasıdır.

| | K (\hat{u} - u) | |^{2} + 2 D_{π} (\hat{u}, u)

$||K(\hat u-u)||^2+2D_\pi(\hat u,u)$ MAP'yi Bayes tahmincisi olarak üretir. Birisi hâlâ baskın tedbir hakkında merak edebilir, ancak hem kayıp fonksiyonu hem de sonuçta ortaya çıkan tahminci, baskın tedbirin seçimine açıkça bağlıdır… (Kayıp öncekine bağlıdır, ancak bu kendi başına bir dezavantaj değildir.)

— Xi'an
kaynak

1

Bu sorun hakkında bahsedilen metnin özetini Bölüm 5, Bayes İstatistikleri, Makine Öğrenimi: Olasılıkçı bir bakış açısı - Murphy tarafından vereceğim .

$X$ $p(\theta|X)$

Ortalama veya medyandan farklı olarak, bu tahmin edilirken diğer tüm noktaları dikkate almadığı için 'alışılmadık' bir noktadır. Ortalama / ortanca tahmini durumunda, diğer tüm hususları dikkate alırız.

Bu nedenle, beklendiği gibi, çok eğik posterior dağılımlarda, MAP (ve uzantı olarak MLE) gerçekte posterioru tam olarak temsil etmez.

Peki, Ortalama / Medyan / Mod gibi bir nokta tahmini kullanarak bir posterioru nasıl özetleyebiliriz?

$L(\theta, \hat{\theta})$ $\theta$ $\hat{\theta}$

Zarar fonksiyonu ise $L(\theta, \hat{\theta})$ $\mathbb{I}(\hat{\theta}\ne\theta|x)$ $\theta$ $\mathbb{I}(\hat{\theta}=\theta|x)$ $\theta$ .

— bal porsuğu
kaynak