Olasılık fonksiyonunun pdf olmaması sebebi nedir?


57

Olasılık fonksiyonunun pdf (olasılık yoğunluk fonksiyonu) olmama nedeni nedir?


6
Olabilirlik fonksiyonu bilinmeyen bir parametre bir fonksiyonudur (veri şartına). Bu haliyle, tipik olarak alan 1'e sahip değildir (yani, mümkün olan tüm değerleri üzerindeki integral 1 değildir) ve bu nedenle pdf değildir. θθ
MånsT


3
İlginç referans, @Douglas. Cevaplar oldukça tatmin edici, IMHO. Kabul edilen, sadece doğru olmayan şeyleri varsayar ("hem hem de pdfs'dir": değil !) Ve diğerleri gerçekten istatistiksel sorunlara kapılmaz. p(X|m)p(m|X)
whuber

2
+1 whuber. Bu mathoverflow sitesinde çok yüksek matematiksel seviyesine rağmen çok kötü cevaplar olması şaşırtıcı!
Stéphane Laurent

1
@Stephane: Bu doğru, ancak istatistikçiler ve hatta olasılıkçılar MO'da oldukça az ve çok uzak gözüküyor, bazı istisnalar dışında. Bu soru, hem genel olarak kabul edilebilir soruların hem de cevapların kalitesinin önemli ölçüde farklı olduğu, MO'nun varlığında oldukça erken idi.
kardinal,

Yanıtlar:


61

İki tanımla başlayacağız:

  • Bir olasılık yoğunluğu fonksiyonu (pdf) bütünleşik negatif olmayan bir fonksiyondur .1

  • Olabilirlik, parametrenin bir fonksiyonu olarak gözlenen verinin eklem yoğunluğu olarak tanımlanır. Ancak, aşağıdaki yorumda @whuber tarafından yapılan Lehmann referansı ile işaret edildiği gibi , olabilirlik işlevi, veriler sabit bir sabit olarak tutulan verilerle, yalnızca parametrenin bir fonksiyonudur. Dolayısıyla, verilerin bir fonksiyonu olarak bir yoğunluk olduğu gerçeği önemsizdir.

Bu nedenle, olabilirlik işlevi bir pdf değildir çünkü parametreye göre bütünleşmesi zorunlu olarak 1'e eşit değildir (ve aslında, @whuber'ın başka bir yorumunda belirtildiği gibi bütünleştirilemez).

Bunu görmek için basit bir örnek kullanacağız. Tek bir gözlem, varsayalım bir mesafede, dağılımı. O zaman olabilirlik işlevixBernoulli(θ)

L(θ)=θx(1θ)1x

olduğu bir gerçektir . Özellikle, , sonra , öyleyse01L(θ)dθ=1/2x=1L(θ)=θ

01L(θ)dθ=01θ dθ=1/2

ve olduğunda benzer bir hesaplama uygulanır . Bu nedenle, bir yoğunluk işlevi olamaz.x=0L(θ)

Belki de çok daha olabilirlik bir olasılık yoğunluk olduğunu işaret etmek değil neden göstererek bu teknik örnekte daha önemli olasılığıdır değil doğru olma parametre değerinin olasılık böyle ya da bir şey - o olasılık (yoğunluk) 'dir verilerin tamamen farklı bir şey olan parametre değeri verilen . Bu nedenle, olasılık fonksiyonunun olasılık yoğunluğu gibi davranması beklenmemelidir.


12
+1 İnce bir nokta, integraldeki " " nın görünmesinin bile olabilirlik fonksiyonunun bir parçası olmadığı ; hiçbir yerden geliyor. Bunu görmenin birçok yolu arasında, bir yeniden parametrelemenin olasılığa ilişkin hiçbir şey değiştirmeyeceğini düşünün - bu sadece parametrenin yeniden adlandırılmasıdır - ancak integrali değiştirecektir. Örneğin, Bernoulli dağılımlarını log odds ile parametreleştirsek , integral bile birleşmez. dθψ=log(θ/(1θ))
whuber

3
Bunu söylemenin bir yolu: MLE'ler monoton dönüşümlerde değişmez ama olasılık yoğunlukları değil, QED! Bu tam olarak Fisher'ın argümanıydı. Bu açıklamada, @Michael Chernick'in cevabına yaptığı bir açıklamada çizdim.
whuber

4
Whuber adlı kullanıcının yorumu için +1. " " nın genel olarak bir anlamı bile yok çünkü parametre alanında bir -field bile yok ! dθσ
Stéphane Laurent

1
@PatrickCaldon Tek süreklilik kısıtlaması, doğru süreklilik gerektiren cdf üzerindedir. Buna ihtiyacınız var ki, olasılık tanımlanmadan tanımlanmadan ve (muhtemelen) tekrar geri dönmüyor, bu garip olurdu. % 100 emin değilim, ancak bence olduğu sürece ve bir olasılık olması durumunda, çözmeniz bile gerekmez . Bunu yapabiliyorsanız, RV'nin sürekli olmasını sağlar. Df
Joey

1
(+1) Seni ilk 10K temsilcisine ulaştıran için tebrik eden ilk kişi olmama izin ver! Güzel cevap; Özellikle verdiğin örneği beğendim. Şerefe. :)
kardinal

2

Tamam ama olabilirlik işlevi, parametresi verilen gözlenen veriler için ortak olasılık yoğunluğudur . Bu nedenle, bir olasılık yoğunluğu işlevi oluşturmak için normalleştirilebilir. Bu yüzden aslında bir pdf gibi.θ


3
Yani, olasılığın parametreye göre bütünleştirilebileceğini işaret ediyorsunuz (bu her zaman doğru mu?). Sanırım bir apartman dairesi kullanıldığında olasılığın posterior dağılımla ilişkisine değiniyor olabilirsiniz, ancak daha fazla açıklama yapmadan bu cevap benim için gizemli kalıyor.
Makro

6
Birliğe bütünleşmek konunun dışında. Fisher, bir 1922 kağıt Teorik İstatistik matematiksel temeller üzerinde, gerçekten de, genellikle olabilirlik gözlemlenmiştir , uygun bir fonksiyon ile çarpılarak birlik entegre etmek için "normalize" olabilir böylece . Ya itiraz olduğunu keyfi : çok var çalışır. “... olasılık kelimesi böyle bir bağlantıda yanlış kullanılır: olasılık, frekansların bir oranıdır ve bu değerlerin frekansları hakkında hiçbir şey bilemeyiz.” L(θ)p(θ)L(θ)p(θ)dθ=1p
whuber

1
@ Néstor (ve Michael) - görünüşe göre ben ve ikimiz de bu soruyu, olasılığın neden bir yoğunluk fonksiyonu olmadığı sorusu olarak yorumladık , bir ta fonksiyonu olarakθ farklı soruları cevaplıyoruz. Elbette olabilirlik, gözlemlerin yoğunluk işlevidir (parametre değeri verilen) - bu şekilde tanımlanır.
Makro

2
Michael, olabilirlik bir fonksiyonu olduğu için biz bu şekilde yorumlanabilir düşünüyorum o zaman bir yoğunluk olacağını, bu yüzden bir yoğunluk olsaydı, . Nestor'ün yorumunu okuduktan sonraya kadar senin gibi yorumlamayı hayal edebiliyorum, ancak bu ihtimal benim başıma gelmedi. θθ
Makro

4
Belirsizliğin bu cevap tarafından yaratıldığını ancak soruda bulunmadığını tespit ediyorum. @ Makro'nun belirttiği gibi, olabilirlik sadece parametrenin bir fonksiyonudur . ( Örneğin , "yoğunluk sabit, kabul bir fonksiyonu olarak denir olabilirlik fonksiyonu EL Lehmann: nokta tahmin Teorisi , Bölüm 6.2 .) Böylece soru açıktır, daha sonra, “ihtimal ihtimalinin ortak olasılık yoğunluğu” olduğunu açıklığa kavuşturmadığı, ancak konuyu karıştırdığı f(x1,θ)f(xn,θ)xθ
yanıtı

1

Ben bir istatistikçi değilim, ancak benim anlayışım, olasılık fonksiyonunun kendisinin parametre (ler) ile ilgili bir PDF olmasa da, Bayes Kuralı tarafından doğrudan bu PDF ile ilgili olduğudur. Olabilirlik fonksiyonu, P (X | teta) ve posterior dağılım, f (teta | X), sıkı bir şekilde bağlanmıştır; "Tamamen farklı bir şey" değil.


1
Sitemize hoşgeldiniz! Bu konudaki diğer cevapların yorumlarında ilginç malzeme bulabilirsiniz. Bazıları, ek matematiksel makineler açıkça belirtilmedikçe (parametre için bir Sigma alanı gibi) Bayes Kuralı'nın neden geçerli olmadığını belirtiyor.
whuber

Teşekkürler @whuber. Konudaki herhangi bir yerdeki Bayes Kuralı'na herhangi bir atıfta bulunmadığımı fark etmedim, ancak sanırım yorumlarda, birinin lisansüstü bir olasılıkla onları almaya yetecek kadar akıcı olduğu varsayımıyla imalar var. Olasılık fonksiyonunu Bayes Kuralı bağlamına sokmanın OP'nin sorusu için yararlı bir sezgi sağladığına katılmaz mısın?
santayana

Bayes kuralının uygulanması, için olasılık dağılımını varsaymadan mümkün değildir : bu dağılım ve verilerin bir fonksiyonu olarak dağılımı, bu konudaki hemen hemen her şey hakkındadır. Örtük olarak, böyle bir dağılımın olduğunu ya da olabileceğini varsayarsak, yorum yazısında Michael Chernick'in cevabına tartışılan karışıklığın kaynağıdır. Bu nedenle, bu konunun açık ve dikkatli bir şekilde tartışılmasının yararlı olabileceği konusunda hemfikirdim, ancak bu riskten başka bir şey daha fazla kafa karışıklığı yaratıyor. θθ
whuber

Özür dilerim, ilk bakışta konuya bir yanlış anlaşılmadan biraz daha fazlası gibi geldi, ama şimdi referansta bulunduğunuz ilgili yorumları, özellikle de Fisher alıntılarınızı görüyorum. Ancak bu, Bayes v. Frequentist tartışmalarına inmiyor mu? Teta için olasılık dağılımı lehine tartışacak çok sayıda Bayesian çıkarım uygulayıcısı yok mu? (onlarla aynı fikirde olup olmadığınız bir başka meseledir ...)
santayana

1
Evet, B - F tartışması burada gizleniyor. Düşünceli bir , için önceden bir dağıtım benimsemek için bir temel olduğu zaman mutlu bir şekilde Bayes Kuralını kullanacaktır , ancak bir önceliği benimsememiz gerektiğini inkar ederek Bayezyalılardan parça şirketi . Bu sorunun nasıl ifade edildiğinden ipucumuzu alabiliriz. Bunun yerine "neden olabilirlik işlevini bir PDF olarak ele alabilir (parametreler için)" diye sorsaydı, bu sohbeti Bayesian satırları boyunca yönlendirirdi. Ancak OP olumsuz yönde sorularak, olasılığımızı sık sık bakış açısıyla incelememiz için bizi arıyordu. θ
whuber

1

Olabilirlik, , burada f (x; θ) olasılık kütle işlevi ise O zaman olabilirlik her zaman birden azdır, ancak f (x; θ) olasılık yoğunluğu işlevi ise, olasılık birden fazla olabilir, çünkü yoğunluklar birden fazla olabilir.L(θ;x1,...,xn)=f(x1,...,xn;θ)

Normalde örnekler işlenir, sonra:
L(θ;x1,...,xn)=f(x1,...,xn;θ)=jf(xj;θ)

Orijinal biçimini görelim:

Bayesian çıkarımına göre, tutar, yani . Azami olabilirlik tahmininin , önceki inançları dikkate almayan kanıtların sabit olarak önceliğe (bu sorunun cevabına bakınız) oranını değerlendirdiğine dikkat edin . Olasılığın, tahmin edilen parametrelere dayanan posterior ile pozitif korelasyonu vardır. bir pdf olabilir, ancak , in ' in sadece bir parçası olmadığından beri değildir . f(x1,...,xn;θ)=f(θ;x1,...,xn)f(x1,...,xn)f(θ)L^=posteriorevidencepriorL^LLL^

Örneğin, bir Gauss dağılımının ortalama ve standart varyansını bilmiyorum ve onları bu dağıtımdan pek çok örnek kullanarak eğiterek almak istiyorum. İlk önce ortalama ve standart varyansı rastgele (Gauss dağılımını tanımlar) başlatırım, sonra bir numuneyi alıp tahmini dağılıma uyarım ve tahmini dağılımdan bir olasılık alabilirim. Sonra örneği yerleştirip pek çok olasılık alıyorum ve sonra bu olasılıkları çarpıp bir puan alıyorum. Bu tür bir puan olabilir. Belli bir pdf olasılığı pek olamaz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.