Bir GLM'de, doymuş modelin günlük olasılığı her zaman sıfır mıdır?


14

Genelleştirilmiş bir doğrusal modelin çıktısının bir parçası olarak, modeli değerlendirmek için boş ve artık sapma kullanılır. Sıklıkla bu miktarların formüllerini doygun modelin günlük olasılığı açısından ifade ediyorum, örneğin: /stats//a/113022/22199 , Lojistik Regresyon: Doygun bir model nasıl elde edilir

Doymuş model, anladığım kadarıyla, gözlemlenen yanıta tam olarak uyan modeldir. Bu nedenle, gördüğüm çoğu yerde, doymuş modelin log olasılığı her zaman sıfır olarak verilir.

Yine de, sapma formülünün nasıl verildiği bazen bu miktarın sıfır olmadığını gösterir. (Her zaman sıfır gibi, neden dahil ettiniz?)

Hangi durumlarda sıfır olmayabilir? Asla sıfır değilse, neden sapma formülüne dahil etmelisiniz?

Yanıtlar:


18

Eğer gerçekten günlük olasılığını kastediyorsanız , cevap şudur: bu her zaman sıfır değildir.

Örneğin, Poisson verilerini düşünün: . için günlük olasılığı şu şekilde verilir: Y = ( y 1 , , y n ) ( μ ; Y ) = - n i = 1 μ i + n i = 1 y i log μ i - n i = 1 günlükyiPoisson(μi),i=1,,nY=(y1,,yn)

()(μ;Y)=i=1nμi+i=1nyilogμii=1nlog(yi!).

Ayırt içinde ile ilgili olarak için ve ayarlayın (bu, doymuş modeli için MLE elde nasıl): Bu çözme almak , ikame içine geri için doymuş modelin log olasılık olduğu verir: çok özel olmadıkça değerler.( ) μ i 0 - 1 + y i(μ;Y)()μi0μi μ i=yi μ i(*)μi( μ ;Y)=N Σ i=1yı(logyi-1)-N Σ i=1log(yi!)0yi

1+yiμi=0.
μiμ^i=yiμ^i()μi
(μ^;Y)=i=1nyi(logyi1)i=1nlog(yi!)0
yi

RFonksiyonun yardım sayfasında glm, öğenin altında deviance, belge bu sorunu şu şekilde açıklar:

deviance sabit, eksi maksimize edilmiş günlük olasılığının iki katı. Mantıklı olduğunda, sabit, doymuş bir modelin sapma sıfıra sahip olacağı şekilde seçilir.

Bu bahsedilen olduğuna dikkat edin sapma yerine log olasılık doymuş modeli, sıfır olacak şekilde seçilir.

Muhtemelen, gerçekten onaylamak istediğiniz şey, " doymuş modelin sapması her zaman sıfır olarak verilir", ki bu, sapmadan, tanım gereği ( Alan tarafından Kategorik Veri Analizi (2. Baskı) Bölüm 4.5.1'e bakınız ) Agresti), belirtilen bir GLM'nin doymuş modele olasılık oranı istatistiğidir. constantR belgelerinde yukarıda belirtilen aslında, doymuş modelin iki maksimize log olasılığıdır.

"Yine de, sapma formülünün verilme şekli bazen bu miktarın sıfır olmadığını gösterir" ifadesine gelince, muhtemelen sapma teriminin kullanımının kötüye kullanılması nedeniyledir . Örneğin, R, iki karşılaştırma olasılık oranı istatistik rasgele (iç içe) modelini ve da daha kesin olarak adlandırılan olacaktır sapma olarak ifade edilir farkı arasında sapma arasında ve sapma biz halinde Agresti'nin kitabında verilen tanımı yakından takip etti.M 2 M 1 M 2M1M2M1M2

Sonuç

  1. Doymuş modelin log olasılığı genellikle sıfır değildir.

  2. Doymuş modelin sapması (orijinal tanımında) sıfırdır.

  3. Sapma aslında başka bir şey (sapmaların arasındaki fark) anlamına gelir yazılımların gelen çıkış (örneğin, R), genel sıfır olmayan bulunmaktadır.


Aşağıdakiler, genel üstel aile vakası ve başka bir somut örnek için türetilmiştir. Verilerin üstel aileden geldiğini varsayalım (bkz. S ile Modern Uygulamalı İstatistik , Bölüm ): burada önceki ağırlıklar olarak bilinir ve dağılım / ölçek parametresidir (binom ve Poisson gibi birçok durum için bu parametre bilinirken, normal ve Gama gibi diğer durumlar için bu parametre bilinmemektedir). Ardından günlük olasılığı: 7

(1)f(yi;θi,φ)=exp[Ai(yiθiγ(θi))/φ+τ(yi,φ/Ai)].
Aiφ
(θ,φ;Y)=i=1nAi(yiθiγ(θi))/φ+i=1nτ(yi,φ/Ai).
Poisson örneğinde olduğu gibi, doymuş modelin parametreleri aşağıdaki skor işlevi çözülerek tahmin edilebilir :
0=U(θi)=(θ,φ;Y)θi=Ai(yiγ(θi))φ

Yukarıdaki denklemin çözümünü belirtin , sonra doymuş modelin günlük olasılığının genel formu (ölçek parametresini sabit olarak kabul edin): θ^i

()(θ^,φ;Y)=i=1nAi(yiθ^iγ(θ^i))/φ+i=1nτ(yi,φ/Ai).

Önceki cevabımda, nin sağ tarafındaki ilk terimin her zaman sıfır olduğunu, yukarıdaki Poisson veri örneğinin yanlış olduğunu kanıtladığını yanlış söyledim. Daha karmaşık bir örnek için ekte verilen Gamma dağılımını düşünün .()Γ(α,β)


Doymuş Gamma modelinin günlük olasılığındaki ilk terimin kanıtı sıfır değildir : Verilen önce üstel aile formuna sahip olması için yeniden parametrelendirme yapmalıyız . izin doğrulanabilir o zaman şu temsile sahiptir: burada

f(y;α,β)=βαΓ(α)eβyyα1,y>0,α>0,β>0,
f(1)
φ=1α,θ=βα,
f
f(y;θ,φ)=exp[θy(log(θ))φ+τ(y,φ)],
τ(y,φ)=logφφ+(1φ1)logylogΓ(φ1).
Bu nedenle, doymuş modelin MLE'leri . Bu nedenle çok özel değerler almadığı sürece .θ^i=1yiyi
i=1n1φ[θ^iyi(log(θ^i))]=i=1n1φ[1log(yi)]0,
yi

1
Mantıksallık, yalnızca model olası sonuçların her birine% 100 olasılık atayabiliyorsa sıfır mıdır?
Alex

Ne demek istediğini tam olarak anlamıyorum. Fakat benim , eğer sadece aynı ve dağılım parametresi yoksa olduğu sonucuna varabilirsiniz . τ 00τ0
Zhanxiong

Türeviniz çok iyi ama resmi kanıt şu anda kafamın biraz üstünde. Poisson modeliyle ilgili örneğiniz için teşekkür ederiz. Bu örnekten çıkardığım şey, Poisson modelinin Poisson ortalaması için herhangi bir değer verildiğinde gözlenen sonuca% 100 olasılık atayamamasıdır, dolayısıyla olasılık sıfır olamaz.
Alex

"Model , gözlenen sonuca olasılık atar" ifadesi bana garip geliyor. gözlemleri ve bir Poisson rastgele değişkeni ise, ? 100 y 1 , , y n Y P ( Y = y 1 ) + P ( Y = y 2 ) + + P ( Y = y n ) < 1100%y1,,ynYP(Y=y1)+P(Y=y2)++P(Y=yn)<1
Zhanxiong

1
Demek istediğim, bir Poisson rastgele değişkeni olması durumunda , herhangi bir veya Poisson ortalaması için olması , bu nedenle gözlemlenen için sıfır günlük olasılığı veren herhangi bir model parametresi bulmak imkansızdır. . Belki doymuş bir model kavramını tamamen yanlış anlıyorum. P ( Y = y i ) < 1 iYP(Y=yi)<1i
Alex

4

Zhanxiong'un cevabı zaten harika (+1), ancak burada bir lojistik regresyon için doymuş modelin log olasılığının olduğunu hızlı bir şekilde gösteriyoruz . Göndereceğimi düşündüm çünkü bu TeX'i bu sitede görmedim ve bunları sadece bir ders için yazdım.0

Olasılık burada .

(1)L(y;X,β)=i=1nf(yi;xi,β)=i=1nπiyi(1πi)1yi=i=1n(πi1πi)yi(1πi)
πi=invlogit(xiβ)

Günlük olasılığı

logL(y;X,β)=i=1nyilog(πi1πi)+log(1πi)=i=1nyilogit(πi)+log(1πi)=i=1nyixiβ+log(1invlogit(xiβ))=i=1nyixiβ+log(invlogit(xiβ))=i=1nyixiβlog(1+exp[xiβ]))

Türevleri tüm katsayılara göre alırsanız

(2)(β)=i=1nyixiexp[xiβ](1+exp[xiβ])xi.

Bu ifadenin değerine ayarlanması ve için çözüm size yanıt verecektir. Genellikle bu analitik olarak yapılamaz, bu da bu modele uyacak yinelemeli algoritmalar kullanmanın popülerliğini / gerekliliğini açıklar, ancak doymuş bir model durumunda mümkündür.0β

Doymuş modeli bulmak için her satıra kendi katsayısını veriyoruz. Böylece ve tasarım matrisi katsayı vektörü βRn

Xβ=[100010001][β1β2βn].

Özellikle .xiβ=βi

Dolayısıyla , denklem (2) ' nin bize j

i=1nyixi,j=i=1nexp[xiβ](1+exp[xiβ])xi,j

ki bu sadece her bir gözlem için :i

yi=invlogit(βi)
ya da diğer bir deyişle her artı ya da eksi sonsuz olan (eğer olan ya da , sırasıyla). En büyük olasılıkı elde etmek için bu parametreleri (1) 'e geri ekleyebiliriz: günlüğü açıkça .βiyi10
i=1nπ^iyi(1π^i)1yi=1n=1.
0


Ancak bu, gruplanmamış verileri varsayar . (ve aynı değerlere sahip) gruplarınız varsa (R'de, form kullanılarak örnek olarak), doymuş modelin loglikelihood sıfır değeri yoktur. ni>1glm( cbind(k, n-k) ~ x + ...
kjetil b halvorsen

@kjetilbhalvorsen oh iyi bir nokta. Bunu kontrol etmeme izin vermedim
Taylor

1

@Alex: evet, doğru. en azından ayrık dağılımlar için. sürekli dağılımlar için, yoğunluğun 1 olması gerekir, ki bu mutlaka anlamlı değildir ve bu nedenle denemek ve elde etmek için mantıklı bir şey değildir. biraz daha genel olarak, doymuş modelin log olasılığı, temeldeki dağıtım ailesi varsayımınızı izleyen herhangi bir modelin performansı için bir üst sınır verir. Başka bir deyişle, doymuş bir binom modelinin, Y'nin binom olduğu varsayılarak, verilen veri seti (X, Y) için "aldığı kadar iyidir" logaritmik olasılığı. % 100 (veya benzeri) yerine glm modelinizi bu üst sınırla karşılaştırmak mantıklıdır, çünkü modeliniz doğal olarak yanıt dağılımı varsayımınızla sınırlıdır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.