Radon-Nikodym türevinin olasılık ölçümleri arasında yorumlanması?

Bazı noktalarda gördük diğerine göre bir olasılık ölçü Radon Nikodym türevinin kullanımı, özellikle bu keyfi bir parametre için bir model olasılığı ölçü türevidir Kullback-Leibler sapma bölgesi gerçek parametresine : $\theta$ $\theta_0$

\frac{d P_{θ}}{d P_{θ_{0}}}

$\frac {dP_\theta}{dP_{\theta_0}}$

Bunların her ikisi de bir parametre değerine bağlı veri noktaları uzayında olasılık ölçümleri olduğunda: . $P_\theta(D)=P(D|\theta)$

Kullback-Leibler sapmasında veya daha genel olarak iki olasılık ölçüsü arasında böyle bir Radon-Nikodym türevinin yorumu nedir?

— user56834
kaynak

İlk olarak, olasılık önlemlerine ihtiyacımız yok, sadece sonluluk. Yani let ölçülebilir bir uzay olmak ve izin ve olmak üzerinde -finite önlemler . $\sigma$ $\mathcal M = (\Omega, \mathscr F)$ $\mu$ $\nu$ $\sigma$ $\mathcal M$

Radon Nikodym teoremi eğer belirtmektedir , tüm için ile gösterilen, , daha sonra, negatif olmayan bir Borel işlevi vardır bu şekilde $\mu(A) = 0 \implies \nu(A) = 0$ $A \in \mathscr F$ $\mu \gg \nu$ $f$ tüm için .

ν (A) = \int_{A} f d μ

$\nu(A) = \int_A f \,\text d\mu$

A \in F

$A \in \mathscr F$

İşte böyle düşünmeyi seviyorum. İlk olarak, herhangi iki tedbir , izin en tanımlayan için ortalama $\mathcal M$ $\mu \sim \nu$ . Bu, geçerli bir denklik ilişkisi olduğunu ve söylemek ve olaneşdeğerbu durumda. Bu neden önlemler için mantıklı bir denkliktir? Ölçümler sadece işlevlerdir, ancak alanlarının görselleştirilmesi zordur. Peki iki sıradan işlev bu özelliğesahipse, yani $\mu(A) = 0 \iff \nu(A) = 0$ $\mu$ $\nu$ $f, g :\mathbb R \to \mathbb R$ ? Peki, ve not destek herhangi bir yerde bu Elimizdeki , ve desteğin dış (beri $f(x) = 0 \iff g(x) = 0$

h (x) = {\begin{cases} f (x) / g (x) & g (x) \neq 0 \\ π^{e} & o.w. \end{cases}

$h(x) = \begin{cases} f(x) / g(x) & g(x) \neq 0 \\ \pi^e & \text{o.w.}\end{cases}$

g

$g$

g h = f

$gh = f$

g

$g$

g h = 0 \cdot π^{e} = 0 = f

$gh = 0 \cdot \pi^e = 0 = f$

f

$f$ ve

payı destekleri) böylece

bize rescale sağlayan

içine

. @Whuber'ın belirttiği gibi, buradaki ana fikir,

bir şekilde yapmak veya görmezden gelmek için "güvenli" olmadığıdır, aksine

olduğunda,

ne yaptığı önemli değildir , bu yüzden keyfi olarak tanımlayabiliriz (örneğin olmak

burada özel bir anlamı yoktur olan) ve şeyleri hala işi. Ayrıca, bu durumda biz benzer fonksiyonu tanımlayabilir

ile

olacak şekilde

g

$g$

h

$h$

g

$g$

f

$f$

0 / 0

$0/0$

g = 0

$g = 0$

h

$h$

π^{e}

$\pi^e$

h^{'}

$h'$

g / f

$g / f$

f h^{'} = g

$fh' = g$

Sonra diyelim ki , ancak diğer yön zorunlu değildir. Bu, önceki tanımımızınhala çalıştığıanlamına gelir, ancak şimdi , kadar gerçek bölümlere sahipolacağı içinçalışmaz. Böylece rescale edebilir içine aracılığıyla , ama biz rescale şeye gerek birşey olduğu diğer yöne gidemez şey olmayan sıfır içine. $g(x) = 0 \implies f(x) = 0$ $h$ $h'$ $0$ $g$ $f$ $gh = f$ $0$

Şimdi ve dönelim ve ile gösterelim . Eğer bir tam tersi diğer içine yeniden ölçeklendirilmiş ve yardımcısı olabilir ki, o zaman bu, sezgisel anlamına gelir. Ancak genellikle bununla sadece bir yöne gitmek istiyoruz (yani Lebesgue ölçüsü gibi güzel bir ölçüyü daha soyut bir ölçüye yeniden ölçeklendirmek), bu yüzden yararlı şeyler yapmak için sadece ihtiyacımız var. Bu yeniden ölçeklendirme RND'nin kalbidir. $\mu$ $\nu$ $f$ $\mu \sim \nu$ $\mu \gg \nu$

Yorumlarda @ whuber bakış açısından geri dönersek, ekstra bir incelik var neden o sorunu görmezden güvenlidir . Bunun nedeni, ölçümlerde yalnızca ölçüm kümesine kadar olan şeyleri tanımladığımızdan , olan herhangi bir setinde RND'mizin herhangi bir değer almasını sağlayabiliriz, örneğin . Ondan değil Yani doğrusu her yerde biz olurdu kendinden güvenli ama tedbir kümesidir wrt $0/0$ $0$ $A$ $\mu(A) = 0$ $1$ $0/0$ $0/0$ $0$ $\mu$ yani RND'mizi hiçbir şeyi etkilemeden güzel bir şey olarak tanımlayabiliriz.

Örnek olarak, bazı için diyelim . Sonra $k \cdot \mu = \nu$ $k > 0$ yani

ν (bir) = \int_{bir} d ν = \int_{bir} k d μ

$\nu(A) = \int_A \,\text d\nu = \int_A k \,\text d \mu$

, RND'dir (bu, ölçümler teoreminin değişimi ile daha resmi olarak haklı gösterilebilir). Bu iyidir çünkü ölçeklendirme faktörünü tam olarak iyileştirdik.

f (x) = k = \frac{d ν}{d μ}

$f(x) = k = \frac{\text d\nu}{\text d\mu}$

Aşağıda, ölçüm kümelerindeki RND'lerin değiştirilmesinin onları nasıl etkilemediğini vurgulayan ikinci bir örnek verilmiştir . Let , standart normal bir PDF artı yani giriş rasyonel ve eğer izin bu yoğunluğa sahip bir rv olabilir. Bu $0$ $f(x) = \varphi(x) + 1_{\mathbb Q}(x)$ $1$ $X$

P (X \in bir) = \int_{bir} (φ + 1_{S}) d λ

$P(X \in A) = \int_A \left(\varphi + 1_{\mathbb Q}\right) \,\text d\lambda$

yani aslında

hala standart bir Gauss RV'dir.

üzerinde

değiştirmek için herhangi bir şekilde dağılımı etkilememiştir,çünkü

wrt

ölçüsü kümesidir.

= \int_{bir} φ d λ + λ (S) = \int_{bir} φ d λ

$= \int_A \varphi \,\text d\lambda + \lambda\left(\mathbb Q \right) =\int_A \varphi \,\text d\lambda$

X

$X$

X

$X$

Q

$\mathbb Q$

0

$0$

λ

$\lambda$

Son bir örnek olarak, ve diyelim ve ve ilgili dağılımları olmasına izin verin . Geri çağırma PMF sayma ölçüsü ile ilgili olarak bir RND olduğu ve yana özelliği olduğunu $X \sim \text{Pois}(\eta)$ $Y \sim \text{Bin}(n, p)$ $P_X$ $P_Y$ $c$ $c$ , $c(A) = 0 \iff A = \emptyset$

\frac{d P_{Y}}{d P_{X}} = \frac{d P_{Y} / d c}{d P_{X} / d c} = \frac{f_{Y}}{f_{X}}

$\frac{\text dP_Y}{\text dP_X} = \frac{\text dP_Y / \text dc}{\text dP_X / \text dc} = \frac{f_Y}{f_X}$

böylece hesaplayabiliriz

P_{Y} (bir) = \int_{bir} d P_{Y}

$P_Y(A) = \int_A \,\text dP_Y$

= \int_{bir} \frac{d P_{Y}}{d P_{X}} d P_{X} = \int_{bir} \frac{d P_{Y}}{d P_{X}} \frac{d P_{X}}{d c} d c

$= \int_A \frac{\text dP_Y}{\text dP_X}\,\text dP_X = \int_A \frac{\text dP_Y}{\text dP_X}\frac{\text dP_X}{\text dc}\,\text dc$

= \underset{y \in bir}{Σ} \frac{d P_{Y}}{d P_{X}} (y) \frac{d P_{X}}{d c} (y) = \underset{y \in bir}{Σ} \frac{f_{Y} (y)}{f_{X} (y)} f_{X} (y) = \underset{y \in bir}{Σ} f_{Y} (y) .

$= \sum_{y \in A} \frac{\text dP_Y}{\text dP_X}(y)\frac{\text dP_X}{\text dc}(y) = \sum_{y \in A} \frac{f_Y(y)}{f_X(y)}f_X(y) = \sum_{y \in A} f_Y(y).$

$P(X = n) > 0$ $n$ $Y$

$P \ll Q$ $\mu$ $\frac{\text dP}{\text dQ} = \frac{\text dP / \text d\mu}{\text dQ / \text d\mu} := p / q$

— JLD
kaynak

0 / 0

$0/0$

0 / 0

$0/0$

@whuber yorum için çok teşekkürler, bu gerçekten yardımcı olur. Bunu ele almak için güncellemeye çalıştım

— jld