Tek bir örneğin olasılığı 0 olduğunda MLE neden mantıklı geliyor?


13

Bu, bazı eski istatistikleri incelerken sahip olduğum garip bir düşünce ve bir nedenden dolayı cevabı düşünemiyorum.

Sürekli bir PDF bize herhangi bir aralıktaki değerleri gözlemleme yoğunluğunu söyler. Yani, eğer , örneğin, daha sonra olasılık bir gerçekleşme arasında düşer ve basitçe burada olduğu standardın yoğunluğu.XN(μ,σ2)ababϕ(x)dxϕ

Ait dediğimizde bir parametrenin bir MLE tahmin yapmayı düşündün , biz ortak yoğunluğunu yazmak, söylemek , rastgele değişkenler ve log-olabilirlik wrt ayırt , set 0'a eşit ve çözmek için . Sıklıkla verilen yorum, "bu yoğunluk fonksiyonunu en mantıklı kılan parametre göz önüne alındığında" şeklindedir.μNX1..XNμμ

Beni rahatsız eden kısım şudur: rv yoğunluğuna sahibiz ve belirli bir gerçekleşme elde etme olasılığımız, örneğin örneğimiz, tam olarak 0'dır. Verilerimize göre eklem yoğunluğunu en üst düzeye çıkarmak neden mantıklıdır ( çünkü gerçek örneğimizi gözlemleme olasılığı tam olarak 0).N

Ortaya koyabildiğim tek rasyonelleşme, PDF'yi gözlemlenen örneğimiz etrafında mümkün olduğunca zirveye çıkarmak istiyoruz, böylece bölgedeki integral (ve bu nedenle bu bölgedeki şeyleri gözlemleme olasılığı) en yüksek seviyededir.


1
Aynı nedenle olasılık yoğunluk istatistiklerini
Tim

Yoğunlukları kullanmanın neden mantıklı olduğunu anlıyorum (sanırım). Anlamadığım şey, meydana gelme olasılığı 0 olan bir örneği gözlemlemeye bağlı bir yoğunluğu en üst düzeye çıkarmanın neden mantıklı olduğudur.
Alex

2
Çünkü olasılık yoğunlukları bize hangi değerlerin diğerlerinden daha muhtemel olduğunu söyler.
Tim

Soruyu tam olarak cevaplamak için zamanınız varsa, bunun benim ve bir sonraki kişi için daha yararlı olacağını düşünüyorum.
Alex

Çünkü neyse ki, olasılık bir olasılık değildir!
AdamO

Yanıtlar:


18

Herhangi bir örneğin olasılığı sıfıra eşittir ve yine de bir olasılık dağılımından çekilerek bir örnek gerçekleştirilir. Bu nedenle olasılık, bir örneği ve meydana gelme olasılığını değerlendirmek için yanlış araçtır. Fisher (1912) tarafından tarif edildiği gibi istatistiksel ihtimali, örnek gözlem olasılık sınırlayıcı argüman dayanan uzunluğunda bir zaman aralığı içinde zaman (alıntı sıfıra gider Aldrich, 1997) :Pθ(X=x)xδδ

Aldrich, J. (1997) İstatistik Bilimi12, 162-176

Bu olasılığı . Olabilirlik işlevi terimi yalnızca Fisher (1921) 'de ve maksimum olasılık Fisher (1922)' de verilmektedir.δ

Her ne kadar "en olası değer" mezhepine girmiş ve düz bir öncekiyle ters olasılık (Bayesci çıkarım) ilkesini kullanmış olsa da, Carl Friedrich Gauß zaten bir Normal dağılımın varyans parametresi için maksimum olasılık tahmincisi 1809'da türetmişti. Hald (1999) , Fisher'in 1912 tarihli genel ilkeyi belirleyen makalesinden önce, maksimum olabilirlik tahmincilerinden başka birkaç kez daha bahseder.

Maksimum olabilirlik yaklaşımının daha sonraki bir gerekçesi, bir örneğin , [Büyük Sayılar Kanunu] (burada iid numunenin gerçek yoğunluğunun temsil etmektedir), [bir fonksiyonu olarak olasılığını en üst düzeye ] [olarak en aza indirmek için asimptotik eşdeğerdir Kullback-Leibler uzaklaştırma] (x1,,xn)

1ni=1nlogfθ(xi)
E[logfθ(X)]=logfθ(x)f0(x)dx
f0θθ
logf0(x)fθ(x)f0(x)dx=logf0(x)f0(x)dxconstantin θlogfθ(x)f0(x)dx
iid örneğinin gerçek dağılımı ile 's tarafından temsil edilen dağılım ailesi arasında .fθ


Cevap için teşekkürler. KL argümanını biraz genişletebilir misiniz? Bunun nasıl olduğunu hemen görmüyorum.
Alex
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.