Fisher bilgi nasıl bir bilgidir?


29

rasgele bir değişkenimiz olduğunu varsayalım . Eğer gerçek parametre ise, olabilirlik fonksiyonu maksimize edilmeli ve türev sıfıra eşit olmalıdır. Bu, maksimum olabilirlik tahmincisinin arkasındaki temel ilkedir.Xf(x|θ)θ0

Anladığım kadarıyla, Fisher bilgisi olarak tanımlanır

I(θ)=E[(θf(X|θ))2]

Dolayısıyla, eğer gerçek parametre ise, . Fakat eğer gerçek parametre değilse, o zaman daha fazla Fisher bilgisine sahip oluruz.θ0I(θ)=0θ0

sorularım

  1. Fisher bilgisi verilen bir MLE'nin "hatasını" ölçüyor mu? Başka bir deyişle, olumlu Fisher bilgilerinin varlığı MLE'm için ideal olamayacağı anlamına gelmiyor mu?
  2. Bu "bilgi" tanımının Shannon tarafından kullanılandan ne kadar farklıdır? Neden bilgi diyoruz?

Neden bunu yazıyorsunuz Eθ ? Beklenti, parameter parametresiyle dağıtımınızdan geliyormuş gibi dağıtılan değerlerinin üzerindedir . Xθ
Neil G,

3
Ayrıca, I(θ) doğru parametrede sıfır değildir.
Neil G

E (S) sıfırdır (yani: puan fonksiyonunun beklentisi), ancak Neil G'nin yazdığı gibi - balıkçı bilgileri (V (S)) sıfır değildir (genellikle).
Tal Galili

Yanıtlar:


15

Diğer cevaplara uymaya çalışmak ... Fisher bilgisi ne tür bir bilgidir? Log benzeri fonksiyonu ile Başlangıç bir fonksiyonu olarak İçeride ISTV melerin RWMAIWi'nin için θ İçeride ISTV melerin RWMAIWi'nin , parametre alanı. Burada tartışmak değil bazı düzenlilik koşullarını varsayarak, elimizdeki E

(θ)=logf(x;θ)
θθΘ(parametreye göre türevleri burada nokta olarak yazacağız). Varyans, Fisher bilgisi I(θ)=Eθ( ˙ (θ))2=-Eθ ¨ (θ) mantıksallık işlevinin (negatif) eğriliği olduğunu gösteren son formül. Biri genellikle maksimum olasılık tahmincisini bulur (mle).Eθ(θ)=Eθ˙(θ)=0
I(θ)=Eθ(˙(θ))2=Eθ¨(θ)
olabilirlik denklemi çözerek ˙ ( θ ) = 0 puan varyansı olarak Fisher bilgisi ˙ ( İçeride ISTV melerin RWMAIWi'nin ) büyük olması durumunda, bu denkleme çözelti, verilere çok hassas olduğu en yüksek bir umut veren olacak mle'nin hassasiyeti. Bu, en azından asimptotik olarak doğrulanır, etin asimptotik varyansı, Fisher bilgilerinin tersidir.θ˙(θ)=0˙(θ)

Bunu nasıl yorumlayabiliriz? örnekten θ parametresi ile ilgili olabilirlik bilgisidir . Bu gerçekten sadece göreceli olarak yorumlanabilir, örneğin iki farklı olası parametre değerinin olasılıklarını olasılık oran testi ( θ 0 ) - ( θ 1 ) ile karşılaştırmak için kullandığımız zaman . Mantıksallıktaki değişim oranı ˙ ( θ ) puanlama işlevidir , olasılığın ne kadar hızlı değiştiğini ve varyansını I ( θ ) gösterir.(θ)θ(θ0)(θ1)˙(θ)I(θ)Bunun örneklemden numuneye ne kadar değiştiği belli bir paramiter değerinde dır . Denklem (ki gerçekten şaşırtıcı!) I ( θ ) = - E θ ¨ ( θ ) , verilen parametre değeri için olasılıktaki (değişkenlik) değişkenlik arasında bir ilişki (eşitlik) olduğunu, θ 0 ve Bu parametre değeri için olabilirlik fonksiyonunun eğriliği. Bu, istic ( θ ) θ = θ 0 istatistiğinin değişkenliği (varyansı) arasında şaşırtıcı bir ilişkidir.θ0

I(θ)=Eθ¨(θ)
θ0˙(θ)θ=θ0ve parametresini θ 0 civarında bir aralıkta değiştirdiğimizde benzerlikteki beklenen değişim (aynı veriler için). Bu gerçekten hem garip, hem şaşırtıcı hem de güçlü!θθ0

Peki, olabilirlik işlevi nedir? Genellikle istatistiksel model düşünmek veriler için olasılık dağılımlarının bir aile olarak x parametresi tarafından dizine, θ parametre alanı içinde bir eleman İçeride ISTV melerin RWMAIWi'nin . Bazı değeri mevcut ise gerçek olarak bu modelin düşünüyorum θ 0İçeride ISTV melerin RWMAIWi'nin tür veriler olduğunu x aslında var olasılık dağılımı f ( x ; θ 0 ){f(x;θ),θΘ}xθΘθ0Θxf(x;θ0). Bu nedenle, olasılık verisi dağılım ailesinde gerçek veri oluşturucu olasılık dağılımını içine alarak istatistiksel bir model elde ediyoruz . Ancak, böyle bir gömme işleminin birçok farklı yoldan yapılabileceği açıktır ve bu tür yerleştirmelerin her birinin "gerçek" bir model olacağı ve farklı olasılık işlevleri vereceği açıktır. Ve böyle bir iç içe geçme olmadan, olasılık işlevi yoktur. Gerçekten de bir yardıma ihtiyacımız var gibi görünüyor, akıllıca bir göbek seçmek için bazı prensipler!f(x;θ0)

Peki, bu ne anlama geliyor? Bu, olasılık fonksiyonunun seçilmesinin, gerçek biraz değiştiyse verinin nasıl değişeceğini bekleyeceğimizi ifade eder. Ancak, veriler gerçekten doğrulanamaz, çünkü veriler yalnızca seçilen gerçek model işlevi hakkında bilgi verir, seçilen modeldeki diğer tüm öğeler hakkında hiçbir şey ifade etmez. Bu şekilde olabilirlik seçiminin seçiminin Bayesian analizindeki bir öncekinin seçimine benzer olduğunu görüyor, analize veri dışı bilgi aktarıyor. Buna basit (biraz yapay) bir örnekte bakalım ve f ( x ; θ 0 ) içine gömme etkisine bakalım.f(x;θ0)f(x;θ0) farklı şekillerde bir modelde.

Bize Varsayalım ki olarak iid N ( μ = 10 , σ 2 = 1 ) . Yani, bu gerçek, veri üreten dağıtımdır. Şimdi, iki farklı şekilde, model A ve model B bir modelinde bu gömmek izin A : X, 1 , ... , X , n IID N ( ^ ı , σ 2 = 1 ) , u RX1,,XnN(μ=10,σ2=1) kontrol ki bu aynı hizaya gelmektedir μ = 10 .

A:X1,,Xn iid N(μ,σ2=1),μRB:X1,,Xn iid N(μ,μ/10),μ>0
μ=10

Mantıksallık işlevleri

bir(μ)=-n2günlük(2π)-12Σben(xben-μ)2B(μ)=-n2günlük(2π)-n2günlük(μ/10)-102Σben(xben-μ)2μ

Puan fonksiyonları: (loglikelihood türevleri):

˙bir(μ)=n(x¯-μ)˙B(μ)=-n2μ-102Σben(xbenμ)2-15n
¨bir(μ)=-n¨B(μ)=n2μ2+102Σben2xben2μ3
μ=10
benbir(μ=10)=n,benB(μ=10)=n(1200+20202000)>n

μ

Ayrıca, bu örnek, model aileleri nasıl inşa edeceğimiz konusunda bize yardımcı olmak için bir teoriye gerçekten ihtiyacımız olduğunu göstermektedir.


1
\ eθ˙(θ)=0θθ0

1
Evet, söyledikleriniz doğru, @idadanny Gerçek parametre değerinde değerlendirildiğinde sıfırdır.
kjetil b halvorsen

θθ0

θ^

θ0θmleθ0θ1

31

θθ

Milyonlarca parametreli büyük bir modeliniz olduğunu düşünün. Ve modelinizi saklayabileceğiniz küçük bir parmak izi vardı. Her bir parametrenin kaç bitinin depolanacağına nasıl öncelik vermelisiniz? Doğru cevap bitleri Fisher bilgisine göre dağıtmaktır (Rissanen bunun hakkında yazdı). Bir parametrenin Fisher bilgisi sıfırsa, bu parametre önemli değildir.

Buna "bilgi" diyoruz, çünkü Fisher bilgileri bu parametrenin bize veriler hakkında ne kadar bilgi verdiğini ölçer.


Bunu düşünmenin gizli bir yolu şudur: Parametrelerin araba kullandığını ve verilerin arka koltukta olduğunu ve sürücüyü düzelttiğini varsayalım . Verinin can sıkıntısı Fisher bilgisidir. Veriler sürücünün çalışmasına izin veriyorsa, Fisher bilgisi sıfırdır; Veri sürekli düzeltmeler yapıyorsa, bu büyük. Bu anlamda, Fisher bilgisi veriden parametrelere giden bilgi miktarıdır.

Direksiyonu daha hassas hale getirirseniz ne olacağını düşünün. Bu bir yeniden parametrelemeye eşdeğerdir. Bu durumda, veriler aracın aşırı denetlenmesi korkusuyla yüksek olmak istemez. Bu tür bir yeniden canlanma, Fisher bilgisini azaltır.


20

@ NeilG'nin güzel cevabını (+1) tamamlayın ve özel sorularınızı yanıtlayın:

  1. Bunun "hatanın" kendisinden ziyade "hassaslığı" saydığını söyleyebilirim.

benbenj,jtr(ben)Olumlu olmalı. Bu, iddiasına göre yalnızca "ideal olmayan" tahmin edicilere sahip olabileceğiniz anlamına gelir. Yani hayır, olumlu bir Fisher bilgisi, MLE'nizin ne kadar ideal olduğu ile ilgili değildir.

  1. Tanım, her iki durumda da bilgi kavramını yorumlama biçimimizden farklıdır. Bunu söyledikten sonra, iki ölçüm birbiriyle yakından ilgilidir.

-p·lOg2(p)pdeğeri alan değişkenin olasılığıdır. Her ikisi de bir değişkenin ne kadar “bilgilendirici” olduğunun ölçümüdür. İlk durumda, bu bilgiyi hassasiyet, ikinci durumda ise bozukluk olarak değerlendirmek; farklı taraflar, aynı para! : D

ben

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.