Aşırı parametreli bir model için Fisher bilgi matrisi belirleyicisi


10

parametresiyle (başarı olasılığı) bir Bernoulli rasgele değişkeni düşünün . Olabilirlik fonksiyonu ve Fisher bilgisi ( matris):X{0,1}θ1×1

L1(θ;X)=p(X|θ)=θX(1θ)1XI1(θ)=detI1(θ)=1θ(1θ)

Şimdi iki parametreli bir "aşırı parametreli" versiyonu düşünün: başarı olasılığı θ1 ve hata olasılığı θ0 . ( θ1+θ0=1 ve bu kısıtlamanın parametrelerden birinin gereksiz olduğunu ima ettiğini unutmayın.) Bu durumda olabilirlik işlevi ve Fisher bilgi matrisi (FIM):

L2(θ1,θ0;X)=p(X|θ1,θ0)=θ1Xθ01XI2(θ1,θ0)=(1θ1001θ0)detI2(θ)=1θ1θ0=1θ1(1θ1)

Bu iki FIM'in belirleyicilerinin aynı olduğuna dikkat edin. Ayrıca, bu özellik kategorik modeller (yani ikiden fazla durum) için daha genel bir duruma da uzanır. Ayrıca sıfırla sınırlandırılmış çeşitli parametre alt kümeleriyle log-lineer modellere de uzanıyor gibi görünmektedir; bu durumda, fazladan "yedekli" parametresi log bölümleme fonksiyonuna karşılık gelir ve iki FIM belirleyicisinin eşdeğeri , daha büyük FIM'in Schur tamamlayıcısı temelinde gösterilebilir . (Aslında, log-lineer modeller için daha küçük FIM sadece daha büyük FIM'in Schur tamamlayıcısıdır.)

Birisi bu özelliğin daha büyük bir parametrik modele (örneğin tüm üstel ailelere) uzanıp uzanmadığını açıklayabilir ve FIM belirleyicilerini böyle bir "genişletilmiş" parametre kümesine dayanarak türetme seçeneğine izin verebilir mi? Yani , boyutlu bir uzayda gömülü boyutlu bir manifoldun üzerinde yatan parametreli herhangi bir istatistiksel modeli varsayalım . Şimdi, parametre kümesini bir boyut daha içerecek şekilde genişletirsek (diğerlerine göre tamamen kısıtlanır) ve FIM'i bu parametrelerine göre hesaplarsak, her zaman orijinaline göre aynı belirleyiciyi alırız (bağımsız) parametreler? Ayrıca, bu iki FIM nasıl ilişkilidir?nn(n+1)(n+1)n

Bu soruyu sormamın nedeni , ekstra parametreli FIM'in genellikle daha basit görünmesidir. İlk düşüncem bunun genel olarak işe yaramaması gerektiğidir. FIM, her bir parametre için log olasılığının kısmi türevlerinin hesaplanmasını içerir. Bu kısmi türevler, söz konusu parametrenin değişmesine rağmen, diğer tüm parametrelerin sabit kaldığını varsayar; bu, ekstra (kısıtlı) parametreyi dahil ettiğimizde doğru değildir. Bu durumda bana öyle geliyor ki, kısmi türevler artık geçerli değil çünkü diğer parametrelerin sabit olduğunu kabul edemeyiz; ancak bunun aslında bir sorun olduğuna dair kanıt bulamadım. (Bağımlı parametrelere sahip durumlarda kısmi türevler sorunluysa, toplam türevler(n+1)×(n+1)bunun yerine gerekli mi? FIM'in toplam türevlerle hesaplanmasına henüz bir örnek görmedim, ama belki de çözüm budur ...)

Böyle bir "genişletilmiş" parametre setine dayalı olarak FIM'i hesaplayan çevrimiçi olarak bulabildiğim tek örnek şudur: bu notlar , her zamanki gibi gerekli kısmi türevleri hesaplayan kategorik dağılım için bir örnek içerir (yani her parametre bağımsız gibi) , parametreler arasında bir kısıtlama olmasına rağmen).


1
İyi soru! Bernoulli rasgele değişkenin iki parametreli spesifikasyonunun talihsiz bir örnek olduğunu düşünüyorum, çünkü kısıtlama olmadan artık yoğunluğa bağlı değildir. Örneğin kavisli üstel aile için gözleminizi yeniden üretebilir misiniz? p(X|θ1,θ0)=θ1Xθ01X
Khashaa

@Khashaa kısıtlamasının iki parametreli durumda (bahsettiğinizde) geçerli olduğunu varsayıyorum , bu nedenle olasılık işlevi hala geçerli bir yoğunluk olacak. Ayrıca, evet, bu gözlemi örneğin sıfır olarak kısıtlanmış çeşitli parametre alt kümelerine sahip log-lineer modeller için çoğaltabilirim; bu durumda, "artık" parametresi, günlük bölümü işlevine karşılık gelir. θ1+θ2=1
Tyler Streeter

1
ne dersiniz ? N(μ,μ2)
Khashaa

Yanıtlar:


4

Normal bilgi matrisi Eğri normalDolayısıyla, belirleyicilerin eşit olduğu konusundaki gözleminiz evrensel değildir, ama tüm hikaye bu değildir.XN(μ,σ2)

I1=(1σ20012σ4)
XN(μ,μ2)
I2=3μ2.

Genel olarak, , yeniden altındaki bilgi matrisiyse , bunu görmek zor değildir. orijinal parametreler için bilgi matrisi ; burada , dönüşümünün Jacobian'ıdır .Ig

g(θ)=(g1(θ),...,gk(θ)),
I(θ)=GIg(g(θ))G
Gg=g(θ)

Bernoulli örneği için ve . Dolayısıyla, Jacobian ve böylece (θ0,θ1)=(p,1p)g(p)=(p,1p)(1,1)

I(p)=(11)(1p0011p)(11)=1p(1p)

Kavisli normal örnek için,

I2=(12μ)(1μ20012μ4)(12μ)=3μ2.

Şimdi belirleyicileri kolayca ilişkilendirebilirsiniz.

Yorumdan sonraki takip

Sizi doğru anladıysam, parametreleri anlamlı bir şekilde genişlettiğiniz sürece FIM geçerlidir: yeni parametrelendirme altındaki olasılık geçerli bir yoğunluk olmalıdır. Bu yüzden Bernoulli örneğine talihsiz bir örnek verdim.

Sağladığınız bağlantının kategorik değişkenler için FIM'in türetilmesinde ciddi bir kusuru olduğunu düşünüyorum , çünkü ve . Olumsuz Hessian'ın beklentisi , fakat skor vektörlerinin kovaryansı için değildir. Kısıtlamaları ihmal ederseniz, bilgi matrisi eşitliği geçerli değildir. E(xi2)=θi(1θi)θiE(xixj)=θiθj0diag{1/θi}


Jacobian dönüşüm yaklaşımından bahsettiğiniz ve basit, açık örnekler için teşekkürler. Siz (veya herhangi biri) hala beni ilgilendiren aşağıdaki konu hakkında yorum yapabilir misiniz: parametre kümesini bir boyuta genişletirken, burada yaptığımız gibi, parametreler arasında herhangi bir kısmi türev ( FIM) geçersiz olmalıdır, çünkü şimdi, bir parametreyi değiştirdiğimizde, diğerleri artık sabit değildir. FIM, kısmi türevlerin ekstra kısıtlama nedeniyle geçersiz olduğu göz önüne alındığında, genişletilmiş parametre seti için bile geçerli mi?
Tyler Streeter

@TylerStreeter Sorununuzu ele almak için cevabımı güncelledim.
Khashaa

3

Sonucun parametreler arasında belirli bir ilişki türü olduğu anlaşılıyor.

Aşağıdaki sonuçlar için tam genelliği iddia etmeden, "bir ila iki parametre" durumuna bağlı kalıyorum. Göstermek , iki parametre arasındaki şart beklemeye bu ilişkiyi ifade eder örtülü denklemi. Daha sonra "doğru genişletilmiş", "iki parametreli" log olabilirliği (OP'nin hesapladığı şey değil - oraya ulaşacağız)g(θ0,θ1)=0

Le=L(θ0,θ1)+λg(θ0,θ1)
gerçek olasılığına eşittir , çünkü , ( bir çarpan) ve farklılaştırırken iki parametreyi bağımsız olarak ele alabiliriz.Lg(θ0,θ1)=0λ

Parametrelere göre türevleri belirtmek için abonelikleri kullanarak (bir abonelik birinci türev, iki abonelik ikinci türev), Hessian'ın doğru genişletilmiş log olabilirlik belirleyicisi

(1)DH(Le)=[L00+λg00][L11+λg11][L01+λg01]2=DH(L)

OP bunun yerine ne yapıyor?

Yanlış iki parametre arasındaki ilişkiyi " " ve kısıtlamasını hesaba . Daha sonra farklılaşma ile ilerler veL(θ0,θ1)g(θ0,θ1)

(2)DH(L)=L00L11[L01]2

nin genel olarak eşit olmadığı açıktır .(2)(1)

Ancak , eğer , daha sonrag00=g11=g00=0

(1)DH(Le)=L00L11[L01]2=DH(L)=DH(L)

Dolayısıyla , gerçek parametre ile artık parametre arasındaki ilişki, onları bağlayan örtük işlevin ikinci kısmi türevlerinin hepsi sıfır olacaksa , temelde yanlış olan yaklaşım "doğru" olur.

Bernoulli davası için,

g(θ0,θ1)=θ0+θ11g00=g11=g01=0

EK
@Khashaa sorusuna cevap vermek ve mekaniği burada göstermek için, gereksiz bir parametreyle belirtilen bir olasılığı düşünüyoruz, ancak gereksiz parametreyi gerçek olanla bağlayan bir kısıtlama altında da düşünüyoruz. Günlük olasılıkları ile yaptığımız şey onları en üst düzeye çıkarmaktır - burada kısıtlı bir maksimizasyon vakamız var. boyutunda bir örnek varsayalım :n

maxLn(θ0,θ1)=lnθ0i=1nxi+(ni=1nxi)lnθ1,s.t.θ1=1θ0

Bu sorunun bir Langrangean'ı vardır (yukarıdaki gayri resmi olarak "doğru genişletilmiş olasılık" diyorum),

Le=lnθ0i=1nxi+(ni=1nxi)lnθ1+λ(θ11+θ0)

Maksimum için birinci dereceden koşullar

i=1nxiθ0+λ=0,ni=1nxiθ1+λ0=0

ilişkisini elde ettiğimiz

i=1nxiθ0=ni=1nxiθ1θ1i=1nxi=(ni=1nxi)θ0

Yukarıda geçerlidir altında kısıtlaması kullanılarak elde ederizθ1=1θ0

(1θ0)i=1nxi=(ni=1nxi)θ0

i=1nxi=nθ0θ^0=1ni=1nxi

olması gerektiği gibi.

Sınırlamadır Dahası, doğrusal olarak her parametre, ikinci türevleri sıfır olacaktır. Bu, lagünün ilk türevlerinde, çarpan "tek başına" olduğu ve lageanın ikinci türevlerini alacağımızda ortadan kalkacağı gerçeğinde yansıtılmaktadır . Bu da bizi, belirleyicisi orijinal tek parametreli log-olasılığın (tek boyutlu) ikinci türevine eşit olacak bir Hessian'a götürecektir, ayrıca kısıtlamayı da (OP'nin yaptığı şeydir). Daha sonra her iki durumda da beklenen değerin negatifini almak, bu matematiksel denkliği değiştirmez ve "tek boyutlu Fisher Bilgisi = iki boyutlu Fisher Bilgisi'nin belirleyicisi" ilişkisine ulaşırız. şimdiλkısıtlamanın tüm parametrelerde doğrusal olduğu göz önüne alındığında , OP, maksimize edilecek fonksiyonda bir çarpan ile sınırlama getirmeden aynı sonucu (ikinci türev seviyesinde) elde eder, çünkü ikinci türev seviyesinde, böyle bir durumda kısıtlama ortadan kalkar.

Bütün bunlar istatistiksel kavramlarla değil, kalkülüsle ilgilidir.


Mantıklarınızı takip edemiyorum. Lagrangean benzeri neden "doğru genişletilmiş", "iki parametreli" log olabilirliği olarak kabul edildiğini açıklayabilir misiniz ? Ayrıca, Hessian benim için tamamen gizemli. Gözlenen bilgi matrisini hesaplıyor musunuz? Le
Khashaa

@Khashaa "Hessian" ın çok değişkenli bir fonksiyonun ikinci türevlerinin matrisi olduğu terminolojisine dayanmaktadır.
Alecos Papadopoulos

Buradaki downvoter'ların bir cevap göndermesi yararlı olacaktır - çünkü OP'nin spesifik örneği var - ve bir açıklama talep ediyor.
Alecos Papadopoulos

Üzgünüm, sorum net değilse. Sorum, Hessian'ı bilgi matrisine nasıl bağladığınızla ilgiliydi, çünkü üzerinde herhangi bir beklenti görmedim ve sonuç gözlenen bir bilgi matrisi gibi görünüyordu. Ayrıca, neden doğru loglikelihood olduğunu açıklayabilir misiniz? Sanırım kısıtlı olabilirliği değerlendirmek için bazı ilkeli yöntemler kullanıyorsunuz, ancak bunun nasıl çalıştığını anlamıyorum. Le
Khashaa

@ Khashaa OP örneğini kullanarak bir sergi ekledim.
Alecos Papadopoulos
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.