“Olasılık, sadece çarpımsal orantılılık sabiti kadar tanımlanır” ne anlama gelir?


19

Yazarların görünüşte yeni başlayanlar için bir giriş olarak Bayes Teoremine yönelik maksimum olasılık tahmini tartışmasından yola çıktığı bir makale okuyorum .

Bir olasılık örneği olarak, bir binom dağılımı ile başlarlar:

p(x|n,θ)=(nx)θx(1θ)nx

ve sonra her iki tarafı da günlüğe kaydet

(θ|x,n)=xln(θ)+(nx)ln(1θ)

gerekçesi ile:

"Olasılık sadece çarpımsal bir orantısallık sabiti (veya log-olasılık için bir katkı sabiti) olarak tanımlandığından, binom katsayısını bırakarak ve log-olasılık olasılığını yerine yazarak yeniden ölçeklendirebiliriz"

Matematik mantıklı, ama "olasılık sadece çarpımsal orantılılık sabitine kadar tanımlanmış" ve bunun binom katsayısının düşürülmesine ve p(x|n,θ) dan (θ|x,n) .

Benzer terminoloji ( burada ve burada ) diğer sorularda ortaya çıkmıştır , ancak pratikte, neyin tanımlanabileceğini veya bilgiyi çarpımsal bir sabit araca getirebileceğini hala netleştirmemiştir. Bunu layman'ın terimleriyle açıklamak mümkün müdür?

Yanıtlar:


18

Mesele şu ki, bazen, farklı modeller (aynı veriler için) çarpımsal bir sabitle farklılık gösteren olasılık işlevlerine yol açabilir, ancak bilgi içeriğinin açıkça aynı olması gerekir. Bir örnek:

Bu modeli veri giden, bağımsız Bernoulli deneyleri , (olasılığı) parametresi olan bir Bernoulli dağılımı ile, her . Bu, olasılık fonksiyonuna yol açar Veya verileri dağıtılmış değişkenleriyle özetleyebiliriz binom dağılımı olan ve bilinmeyen parametresinin bir fonksiyonu olarak önceki olabilirlik fonksiyonu ile orantılı olan olabilirlik fonksiyonuna yol açan . İki olasılık işlevi açıkça aynı bilgileri içerir ve aynı çıkarımlara yol açmalıdır!nX1,,Xnp

i=1npxi(1p)1xi
Y=X1+X2++Xn
(ny)py(1p)ny
p

Ve aslında, tanım gereği, aynı olabilirlik işlevi olarak kabul edilirler.

Başka bir bakış açısı: Bayes teoreminde olasılık fonksiyonları kullanıldığında, bayes analizi için gerektiği gibi, bu tür çarpımsal sabitlerin basitçe iptal olduğunu gözlemleyin! bu yüzden bayes çıkarımıyla açıkça ilgisizdirler. Benzer şekilde, optimal hipotez testlerinde (Neyman-Pearson lemması) kullanıldığı gibi, olasılık oranları hesaplanırken iptal edilir ve maksimum olabilirlik tahmin edicilerinin değeri üzerinde hiçbir etkisi olmaz. Dolayısıyla, sık sık çıkarımların çoğunda bir rol oynayamayacağını görebiliriz.

Yine başka bir bakış açısıyla tartışabiliriz. Yukarıdaki Bernoulli olasılık fonksiyonu (bundan böyle "yoğunluk" terimini kullanacağız) gerçekten sayım ölçüsü, yani her negatif olmayan tamsayı için kütle ile negatif olmayan tamsayıların ölçüsü açısından bir yoğunluktur. Ancak, diğer baskın önlemlere göre bir yoğunluk tanımlayabilirdik. Bu örnekte bu yapay görünecektir (ve yapay), ancak daha büyük alanlarda (fonksiyon uzayları) gerçekten esastır! Bize, açıklama amacıyla, belirli bir geometrik dağılımı, yazılı kullanma izin ile, , , ve yakında. Daha sonra Bernoulli dağılımının göre yoğunluğuλλ(0)=1/2λ(1)=1/4λ(2)=1/8λ f λ ( x ) = p x ( 1 -λverilir

fλ(x)=px(1p)1x2x+1
p ( X = x ) = f λ ( x ) λ , Bu yeni, baskın olan ölçü ile, olasılık fonksiyonu (yukarıdan gösterimle) olur ekstra faktörü not edin . Bu nedenle, olasılık fonksiyonunun tanımında kullanılan baskın ölçüyü değiştirirken, bilinmeyen parametreye bağlı olmayan ve açıkça ilgisiz olan yeni bir çarpma sabiti ortaya çıkar . Bu, çarpma sabitlerinin nasıl alakasız olduğunu görmenin başka bir yoludur. Bu argüman Radon-Nikodym türevleri kullanılarak genelleştirilebilir (yukarıdaki argüman bir örnektir.)
P(X=x)=fλ(x)λ(x)
i=1npxi(1p)1xi2xi+1=py(1p)ny2y+n
2y+np


“bilgi içeriği açıkça aynı olmalıdır” Bu sadece olasılık ilkesine inanıyorsanız doğrudur!
jsk

Evet, belki, ama bunun bayes prensiplerinden nasıl geldiğini gösterdim.
kjetil b halvorsen

1
@kjetilbhalvorsen Düşünceli cevap için teşekkür ederim! Hala kafam karıştıysa, neden bernoulli dağılımı olasılığının bir binom katsayısı içermediğidir. Cevabınız bunun neden önemli olmadığını netleştiriyor, ancak neden ilk etapta olasılığın dışında kaldığını anlamıyorum.
jvans

@jvans: Binom katsayısı bilinmeyen parametreye bağlı olmadığından, olasılık fonksiyonunun şeklini etkileyemez
kjetil b halvorsen

12

Temel olarak PDF'nin göreceli değerinin önemli olduğu anlamına gelir. Örneğin, standart normal (Gauss) PDF: , kitabınız kullanabileceklerini söylüyor , çünkü ölçeği umursamıyorlar, yani .f(x)=12πex2/2g(x)=ex2/2c=12π

Bunun nedeni, olasılık işlevini en üst düzeye çıkarmaları ve ve aynı maksimuma sahip olmalarıdır. Bu nedenle, maksimum , aynı olacaktır . Yani, ölçeği rahatsız etmiyorlar.g ( x ) e - x 2 / 2 f ( x )cg(x)g(x)ex2/2f(x)


6

Ben tırnak anlamını açıklamak olamaz, ama için maksimum olabilirlik tahmini, biz olabilirlik fonksiyonu maksimum bulmak tercih edip önemli değil (bir fonksiyonu olarak kabul İçeride ISTV melerin RWMAIWi'nin veya maksimum bir L ( x ; θ ) bir sabit bazı biz maksimum değeri ile değil olmasıdır. L ( x ; , θ ) ve bir L ( x ; θ )L(x;θ)θaL(x;θ)a değeriyle değil, bu maksimumun oluştuğu yerde θ ML değeriyleve hem L ( xL(x;θ)θMLL(x;θ)aL(x;θ)aynı maksimum değerlerine ulaşın . Böylece, çarpma sabitleri göz ardı edilebilir. Benzer şekilde, L ( x ; θ ) olabilirlik fonksiyonunun herhangi bir monoton fonksiyonu g ( ) (logaritma gibi ) düşünmeyi seçebilir , maksimum g'yi (bundan L'yi belirleyebiliriz . Logaritma için çarpım sabiti a , katkı maddesi sabiti ln ( a ) ve bu da maksimumun yerini bulma sürecinde göz ardı edilebilir: ln ( a ) +θMLg()L(x;θ) ve değerini sonucuna θ MLg(L(x;θ))θMLaln(a)ln(a)+ln(L(x;θ) , aynı nokta .ln(L(x;θ)

En dönersek a posteriori olasılığı (MAP) tahmini, rastgele değişken bir görüntüsü olduğu kabul edilir İçeride ISTV melerin RWMAIWi'nin ile önsel yoğunluk fonksiyonu f Θ ( İçeride ISTV melerin RWMAIWi'nin ) , veri x rastgele değişken bir görüntüsü olduğu kabul edilmektedir , X , ve büyük olasılıkla fonksiyon değeri olarak kabul edilir , koşullu yoğunluğu f X | İçeride ISTV melerin RWMAIWi'nin ( x | İçeride ISTV melerin RWMAIWi'ninθΘfΘ(θ)xX arasında X koşuluyla θ = θfXΘ(xΘ=θ)XΘ=θ; bahsedilen koşullu yoğunluk fonksiyonu değerlendirilmektedir . Sonradan yoğunluğu İçeride ISTV melerin RWMAIWi'nin İçeride ISTV melerin RWMAIWi'nin = θ ) f İçeride ISTV melerin RWMAIWi'nin ( θ )xΘolduğu Sayıyı, verilerin ve tahmin edilen parametreninfX,Θ(x,θ)eklem yoğunluğu olarak tanıdığımız X ( x ) . NoktaθMAPfİçeride ISTV melerin RWMAIWi'nin|x(θ|X)maksimum bir değere ulaştığı MAP tahminidirİçeride ISTV melerin RWMAIWi'ninparagrafta olduğu gibi, aynı bağımsız değişkenleri kullanarak, ve, biz göz ardı görüyoruz[fx(X)]-1sağ tarafında

(1)fΘX(θx)=fXΘ(xΘ=θ)fΘ(θ)fX(x)
fX,Θ(x,θ)θMAPfΘX(θx)θ[fX(x)]1 hem f XΘ ( xΘ = θ ) hem de f Θ ( θ ) ' deçarpım sabitlerini göz ardı edebileceğimiz gibi çarpımsal bir sabit olarak. Benzer şekilde log olasılıkları kullanıldığında, ilave sabitleri göz ardı edebiliriz.(1) fXΘ(xΘ=θ)fΘ(θ)

Bu düşünce silsilesi de Bayes aracılığıyla yapılabilir: Eğer koyarsanız veya bir L Bayes içine teoremi olsun gelmez bir arka aynıdır yüzden iptal edecektir.LaLa
kjetil b halvorsen

5

Layman'ın terimleriyle, genellikle maksimum olasılığı ve ve k f (f(x)kf(x)


3
f(x)f(x)+2

Lütfen, Alecos Papadopoulos'un cevabında yazdığı gibi, "olasılık ilk önce ortak olasılık yoğunluk fonksiyonudur". Rasgele numuneler için iid varsayımı nedeniyle, bu eklem fonksiyonu basit yoğunluk fonksiyonlarının bir ürünüdür , bu nedenle çarpma faktörleri ortaya çıkar, eklemeler olmaz.
Sergio

1
Eklem işlevi, yalnızca ve veriler bağımsızsa böyle bir üründür. Ancak MLE bağımlı değişkenlere uzanır, bu nedenle ürün argümanı ikna edici görünmez.
whuber

1

argmax

Tavana maruz kalma olasılığını en üst düzeye çıkarmak zorunda kalacağınız olağandışı durumlar olabilir - ve sonra değerinin hesaplanmasında sabitleri dahil etmeyi "hatırlamanız" gerekir.

Ayrıca, iç içe olmayan modeller için model seçim testleri gerçekleştiriyor olabilirsiniz, işlemdeki olasılık değerini kullanarak - ve modeller iç içe olmadığından iki olasılığın farklı sabitleri olacaktır.

Bunların dışında cümle

"Olasılık sadece çarpımsal orantılılık sabiti (ya da log olabilirliği için bir katkı sabiti) olarak tanımlanır."

olduğu yanlış olabilirlik, çünkü ilk bir ortak olasılık yoğunluk fonksiyonu sadece "herhangi bir" amaç fonksiyonu maksimize edilmesi değil.


3
θθ

3
L(θx)=f(xθ).
11

1
@heropup Ben zaten parametre alanı üzerinde birlik ile entegre olması gerektiğini yazdım ve bu nedenle, "parametrelerin fonksiyonu" olarak bakıldığında hemen bir "yoğunluk fonksiyonu" olarak kabul edilemez.
Alecos Papadopoulos

1
Evet biliyorum. Demek istediğim, "Olasılık fonksiyonu, parametrelerin bir fonksiyonu olarak görülen bir yoğunluk fonksiyonudur" ifadesinin kendisinin kafa karıştırıcı olmasıdır. "Olabilirlik işlevi, sabit bir örnek için parametrelerin bir işlevidir ve örnek alanı üzerindeki eklem yoğunluğuna eşdeğerdir (veya orantılıdır) gibi bir şey söylemek daha kesin olur."
heropup

1
L(xθ)f(θ)Lf(θ)
Dilip Sarwate
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.