Fisher Information ve Cramer-Rao sınırlarının sezgisel açıklaması


59

Fisher bilgisi, ne ölçtüğü ve nasıl yardımcı olduğu konusunda rahat değilim. Ayrıca Cramer-Rao ile olan ilişkisi benim için belli değil.

Birisi lütfen bu kavramların sezgisel bir açıklamasını verebilir mi?


1
Wikipedia makalesinde sorun çıkaran herhangi bir şey var mı ? Gözlemlenebilir rastgele değişken olduğunu bu bilgi miktarını ölçen bilinmeyen bir parametre hakkında taşımaktadır bunun üzerine olasılığı bağlıdır ve onun ters Cramer-Rao alt tarafsız bir tahmincisi değişkenliği üzerine bağlı olan . XθXθ
Henry

2
Bunu anlıyorum ama bu konuda gerçekten rahat değilim. Mesela, "bilgi miktarı" tam olarak ne anlama geliyor burada. Yoğunluğun kısmi türevinin karesinin negatif beklentisi neden bu bilgiyi ölçmektedir? İfade nereden geliyor? Bu yüzden biraz sezgi almayı umuyorum.
Infinity

@Infinity: Skor , parametre değiştikçe gözlenen verilerin olasılığındaki orantılı değişim oranıdır ve çıkarım için çok faydalıdır. Fisher (sıfır-ortalama) puanının varyansını bildirir. Bu yüzden matematiksel olarak, yoğunluğun logaritmasının birinci kısmi türevinin karesinin beklentisidir ve bu nedenle yoğunluğun logaritmasının ikinci kısmi türevinin beklentisinin negatifidir.
Henry

Yanıtlar:


32

Burada, maksimum olasılık tahmin edicisinin asimptotik varyansının neden Cramer-Rao alt sınırının olduğunu açıklıyorum . Umarım bu, Fisher bilgilerinin alaka düzeyi hakkında bir fikir verecektir.

İstatistiksel çıkarım , verilerden oluşturduğunuz bir olasılık fonksiyonunun kullanılması ile devam eder. nokta tahmini , değerini maksimize eden değerdir . Tahminci rasgele bir değişkendir, ancak olasılık fonksiyonunun işlevinin "rasgele bir eğri" olduğunu fark etmesine yardımcı olur .θ L ( θ ) θ L ( θ )L(θ)θ^L(θ)θ^ L(θ)

Burada dağılımından çizilen kimliğe ait verileri varsayıyoruz ve olasılığını tanımlıyoruz L ( θ ) = 1f(x|θ)

L(θ)=1ni=1nlogf(xi|θ)

parametresi , "gerçek" olabilirlik değerini en üst düzeye çıkarma özelliğine sahiptir, . Ancak, verilerden oluşturulan "gözlemlenen" olabilirlik fonksiyonu , gerçek olasılıktan biraz "kapalı" dır. Yine de, tahmin edebileceğiniz gibi, örneklem büyüklüğü arttıkça, “gözlenen” olabilirlik gerçek olabilirlik eğrisinin şekline yakınlaşır. Aynı parametre ile ilgili olasılığının türevi için de geçerlidir mı fonksiyonu . (Uzun lafın kısası, Fisher bilgisi , gözlemlenen skor fonksiyonunun gerçek skor fonksiyonunun şekline ne kadar çabuk yaklaştığını belirler .E L ( θ ) L ( θ ) L /θθEL(θ)L(θ) L/θ

Büyük bir örneklem büyüklüğü, biz bizim maksimum olabilirlik tahmin varsayalım çok yakın . Olabilirlik işlevi "yerel olarak ikinci dereceden" olması için ve etrafındaki küçük bir mahalleyi yakınlaştırıyoruz . İçeride ISTV melerin RWMAIWi'ninİçeride ISTV melerin RWMAIWi'nin İçeride ISTV melerin RWMAIWi'ninθ^θθθ^

Burada, , puan işlevinin nın kökenle kesiştiği noktadır. Bu küçük bölgede, biz olarak skor fonksiyonu tedavi hattı , eğim ile tek ve rastgele yolunu kesmek de . Denklemden bir çizgi için biliyoruz kiθ^ L/θabθ

a(θ^θ)+b=0

veya

θ^=θb/a.

MLE tahmincisinin tutarlılığından, bunu biliyoruz

E(θ^)=θ

sınırında.

Bu nedenle, asimptotik olarak

nVar(θ^)=nVar(b/a)

Eğimin, engellemeden çok daha az değiştiği ve asimptotik olarak, skor işlevini etrafındaki küçük bir mahallede sabit bir eğime sahip olarak ele alabiliriz . Böylece yazabilirizθ

nVar(θ^)=1a2nVar(b)

Peki, ve değerleri ? Muhteşem bir matematiksel tesadüf nedeniyle, onlar aynı Fisher Fisher bilgi aynı miktarda (eksi işareti) olduğu ortaya çıktı.anVar(b)

a=E[2Lθ2]=I(θ)

nVar(b)=nVar[Lθ]=I(θ)

Böylece,

nVar(θ^)=1a2nVar(b)=(1/I(θ)2)I(θ)=1/I(θ)
asimptotik olarak : Cramer-Rao alt sınırı. ( nın tarafsız bir tahmin edicinin varyansı üzerindeki bir alt sınır olduğunu göstermek başka bir konudur.)1/I(θ)

2
Olasılık fonksiyonunun yerel olarak ikinci dereceden olduğunu söylediğiniz kısmın herhangi bir grafiksel gösterimi var mı?
quirik

@quirik, theta_hat etrafında ikinci mertebeden Taylor genleşmesini kullanmayı düşünün.
idnavid

@ charles.y.zheng Bu, sahnenin en ilginç açıklamalarından biri.
idnavid

13

Balıkçı bilgilerini anlamamın bir yolu, aşağıdaki tanım gereğidir:

I(θ)=X2f(x|θ)θ2dxXf(x|θ)2θ2log[f(x|θ)]dx

Fisher Bilgileri, bu şekilde, yoğunluğu iki kere farklılaştırılabilir olduğunda yazılabilir . örnek alanı parametresine bağlı değilse , ilk terimin sıfır olduğunu göstermek için Leibniz integral formülünü kullanabiliriz ( her iki tarafını ayırt edin) iki kez ve sıfır alırsınız) ve ikinci terim "standart" tanımdır. İlk terim sıfır olduğunda davayı alacağım. Sıfır olmadığı durumlarda, Fisher Bilgilerini anlamak için pek bir faydası yoktur.f(x|θ)XθXf(x|θ)dx=1

Şimdi maksimum olasılık tahminini yaptığınızda (buraya "düzenlilik koşulları" ekleyin)

θlog[f(x|θ)]=0

Ve için çözmek . Yani ikinci türev degrade değiştirme ve bir anlamda ne kadar hızlı diyor "ne kadar" yukarıdaki denklemin sağ tarafında kayda değer bir değişiklik yapmadan MLE kalkar olabilir. Bunu düşünebileceğiniz bir başka yol da, kağıda çizilen bir "dağ" hayal etmektir - log-olabilirlik işlevi budur. Yukarıdaki MLE denklemini çözmek, bu dağın zirvesinin rastgele değişkeninin bir fonksiyonu olarak bulunduğu yeri söyler . İkinci türev size dağın ne kadar dik olduğunu - bir anlamda dağın zirvesini bulmanın ne kadar kolay olduğunu söyler. Fisher bilgisi zirvenin beklenen dikliğini almaktan geliyor ve bu nedenle bir miktar "ön veri" yorumu var.θθx

Hâlâ merak ettiğim bir şey, log olasılığının ne kadar dik olduğudur ve olasılığın diğer bazı monotonik fonksiyonlarının ne kadar dik olmadığı (karar teorisindeki "uygun" puanlama fonksiyonlarıyla mı? Belki de entropinin tutarlılık aksiyomlarıyla ilişkili). ?).

Fisher bilgisi ayrıca Laplace yaklaşımı olarak bilinen bir şey yüzünden birçok asimptotik analizde "ortaya çıkmaktadır". Bu, temel olarak “çok yönlü” tek bir maksimum maksimum yükselişe sahip herhangi bir işlevin daha yüksek ve daha yüksek bir güce yükselmesi nedeniyle Gauss işlevine gider (Merkezi Limit Teoremine benzer, ancak biraz daha fazla). genel). Yani büyük bir örneğiniz varsa, bu konumda etkin bir şekilde bulunuyorsunuz ve yazabilirsiniz:exp(ax2)

f(data|θ)=exp(log[f(data|θ)])

Ve Taylor'ı açtığınızda, MLE hakkındaki log olasılığını genişletin:

f(data|θ)[f(data|θ)]θ=θMLEexp(12[2θ2log[f(data|θ)]]θ=θMLE(θθMLE)2)
ve log olasılığının ikinci türevi ortaya çıkar (ancak "beklenen" form yerine "gözlemlenir"). Burada genellikle yapılan şey, daha fazla yaklaşımda bulunmaktır:

2θ2log[f(data|θ)]=n(1ni=1n2θ2log[f(xi|θ)])nI(θ)

Bu, toplamın bir integral ile değiştirilmesinin genellikle iyi bir şekilde tahmin edilmesi anlamına gelir, ancak bu verilerin bağımsız olmasını gerektirir. Büyük bağımsız örnekler için ( verilen ), Fisher bilgilerinin, MLE'nin, MLE'nin çeşitli değerleri için ne kadar değişken olduğunu görebilirsiniz.θ


1
“Hala merak ettiğim bir şey, günlük olasılığının ne kadar dik olduğu ve olasılığın başka bir monotonik işlevinin ne kadar dik olmadığı” diyor. Eminim, Fisher bilgisi için olabilirlik olasılığının diğer dönüşümleri bağlamında analogları türetebiliyorsunuzdur, ancak daha sonra Cramer-Rao alt sınırı için bir ifadenin derinliklerini alamazsınız.
charles.y.zheng

2

Bu, şu ana kadar gördüğüm en sezgisel makale:

Cramér-Rao Varyans Üzerindeki Alt Sınır: Adem ve Havva'nın “Belirsizlik İlkesi”, Michael R. Powers, Risk Finans Dergisi, Cilt. 7, No. 3, 2006

Sınır, meyve ile kimin yiyeceğini görmek için bir yazı tura atarak Eden Garden'daki Adem ve Havva bir analoji ile açıklanır ve daha sonra kendi tahminlerinde belirli bir doğruluk düzeyi elde etmek için ne kadar büyük bir örnek gerekli olduğunu sordular. ve sonra bu sınırı keşfettiler ...

Gerçekten gerçeklik hakkında derin bir mesaj ile güzel bir hikaye.


6
Bu referansı gönderdiğiniz için teşekkür ederiz. Sonunda, aslında CRLB'yi açıklamayacağını bulmaktan hayal kırıklığına uğradım. Niçin doğru olduğuna dair bir fikir vermeden , sadece onu açıklar, "bilgi sıkma" gibi bazı uyarıcı ama sonuçta anlamsız bir dil sağlar.
whuber

@whuber: Yeterince adil, daha derine dalabilecek ve sonunun biraz ani olacağı konusunda hemfikirim. Yine de, makale ile ilgili sevdiğim şey, örneklem büyüklüğü, örnek ortalama, büyük sayılar kanunu ve örneklem varyansının yalnızca bir noktaya kadar düşürülebilmesi (yani olması gerektiği gibi) arasında bir bağlantı olması gerçekten doğal görünüyor . yukarıda belirtilen olan bazı sınırlar ). Ayrıca, bunun zor bir matematiksel sonuç olmadığını ve gerçekte bilgi edinmenin sınırlarını açıklayan bir ifade olduğunu açıkça ortaya koymaktadır.
vonjd

2

Her ne kadar yukarıda verilen açıklamalar çok ilginç olsa ve onlardan geçmekten zevk aldım, Cramer-Rao Alt Sınırının doğasının bana en iyi şekilde geometrik bir bakış açısıyla açıklandığını hissediyorum. Bu sezgi, Scharf'ın İstatistiksel Sinyal İşleme kitabının 6. Bölümünden elde edilen konsantrasyon kavramının bir özetidir .

tarafsız tahmincisini düşünün . Ek olarak, tahmincisinin kovaryansı ile Gauss dağılımına sahip olduğunu varsayın . Bu koşullar altında, dağılımı şu :θθ^Σθ^

f(θ^)exp(12(θ^θ)TΣ1(θ^θ)) .

Şimdi bu dağılımın kontur grafiklerini, için düşünün . (yani, ) olasılığındaki herhangi bir üst sınırlama, bir elips şeklinde sonuçlanacaktır. ile sabit yarıçaplı . Elipsoidin yarıçapı ile istenen olasılık arasında bire bir ilişki olduğunu göstermek kolaydır . Başka bir deyişle, , olasılığına sahip yarıçap ile belirlenen bir elipsoid içindeθR2θ^f(θ^)dθPrθrrPrθ^θrPr. Bu elipsoide bir konsantrasyon elipsoidi denir.

Yukarıdaki açıklama dikkate alındığında, CRLB hakkında aşağıdakileri söyleyebiliriz. Tüm tarafsız tahmin edicilerin arasında, CRLB, " kovaryansı ile ," yakınlık " (yukarıda tanımlandığı gibi) sabit bir olasılık için en küçük sahiptir. konsantrasyon elipsoidi. Aşağıdaki Şekil 2B çizim sağlar ( Scharf kitabındaki çizimden ilham almıştır ).θ^crlbΣcrlbPr

CRLB'nin yansız tahmin ediciler bağlamında 2B gösterimi.


2
Bu kanlı harika, özellikle de görüntünün daha fazla oyuna ihtiyacı var.
Astrid
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.