Bir GLM'nin MLE'sini bulmak için IRLS yönteminin basit bir sezgisel açıklamasını verebilir misiniz?


13

Arka fon:

Princeton'ın GLM için MLE tahminini incelemeye çalışıyorum .

Ben MLE tahmin temellerini anlamak: likelihood, score, gözlenen ve beklenen Fisher informationve Fisher scoringtekniği. Ve MLE tahmini ile basit doğrusal regresyonun nasıl gerekçelendirileceğini biliyorum .


Soru:

Bu yöntemin ilk satırını bile anlayamıyorum :(

çalışma değişkenlerinin arkasındaki sezgi nedir :zi

zi=η^i+(yiμ^i)dηidμi

değerini tahmin için neden yerine kullanılıyorlar ?yiβ

Ve onların ilişkisi ne response/link functionarasındaki bağlantı olan veημ

Herhangi birinin basit bir açıklaması varsa veya beni bu konuda daha temel bir metne yönlendirebilirseniz minnettar olurum.


1
Bir yan not olarak, benim için ( hala tam olarak anlamadım) bütün "GLM" çerçevesini duymadan önce sağlam (M-) tahmin bağlamında IRLS'yi öğrendim . Bu yaklaşımla ilgili pratik bir bakış açısı için, en küçük karelerin basit bir genellemesi olarak, ilk karşılaştığım kaynağı öneriyorum: Richard Szeliski'nin Bilgisayar Vizyonu (ücretsiz E-) kitabının Ek B'si (ilk 4 sayfa, gerçekten, bu bağlantı bazı güzel örnekler de).
GeoMatt22

Yanıtlar:


15

Birkaç yıl önce öğrencilerime (ispanyolca) bu konuda bir makale yazdım, bu yüzden burada bu açıklamaları yeniden yazmaya çalışabilirim. Artan karmaşıklığın bir dizi örneği ile IRLS'ye (yinelemeli olarak en küçük kareler) bakacağım. İlk örnek için konum ölçeğinde bir aile kavramına ihtiyacımız var. bir anlamda sıfır merkezli bir yoğunluk fonksiyonu olsun . tanımlayarak bir yoğunluk ailesi oluşturabiliriz burada bir ölçek parametresidir ve f ( x ) = f ( x ; μ , σ ) = 1f0σ>0μf0N(μ,σ)

f(x)=f(x;μ,σ)=1σf0(xμσ)
σ>0μbir konum parametresidir. Her zamanki hata teriminin normal dağılım olarak modellenmiş olduğu ölçüm hatası modelinde, normal dağılım yerine yukarıda yapılandırıldığı gibi bir konum ölçeği ailesi kullanabiliriz. Tüm standart normal dağılımı, yukarıdaki yapı verir ailesi.f0N(μ,σ)

Şimdi bazı basit örneklerde IRLS kullanacağız. İlk önce yoğunluğunda modelinde ML (maksimum olasılık) tahmincilerini , Cauchy konum ailesini dağıtır (yani bu bir konum ailesidir). Ama önce bazı gösterimler. Ağırlıklı en küçük kareler tahmin verilir burada bazı ağırlıklardır. ML tahmincisinin ile aynı formda ifade edilebileceğinif ( y ) = 1

Y1,Y2,,Yni.i.d
μ μ μ = n i = 1 w i y i
f(y)=1π11+(yμ)2,yR,
μμwı^ ıaısı=yı - ^ ı . L(y;μ)=(1
μ=i=1nwiyii=1nwi.
wiμwikalıntıların bazı fonksiyonları Olabilirlik fonksiyonu ve mantıksallık işlevi İle ilgili olarak onun türevi olduğunu burada . Yazmak
ϵi=yiμ^.
l(y)=-ngünlüğü(π)- n i=1günlüğü(1+(yi-μ)2). μl ( y )
L(y;μ)=(1π)ni=1n11+(yiμ)2
l(y)=nlog(π)i=1nlog(1+(yiμ)2).
μ ϵi=yi-μf0(ϵ)=1
l(y)μ=0μlog(1+(yiμ)2)=2(yiμ)1+(yiμ)2(1)=2ϵi1+ϵi2
ϵi=yiμ f0 (ϵ)=1f0(ϵ)=1π11+ϵ2 ve , Biz bulmak biz tanımı kullanılan f0 (ϵ)f0(ϵ)=1π12ϵ(1+ϵ2)2l ( y )
f0(ϵ)f0(ϵ)=12ϵ(1+ϵ2)211+ϵ2=2ϵ1+ϵ2.
l(y)μ=f0(ϵi)f0(ϵi)=f0(ϵi)f0(ϵi)(1ϵi)(ϵi)=wiϵi
wi=f0(ϵi)f0(ϵi)(1ϵi)=2ϵi1+ϵi2(1ϵi)=21+ϵi2.
Hatırlamasıdır , bu denklemi elde IRLS arasında tahmin denklemidir. Bunu not etϵi=yiμ
wiyi=μwi,
  1. ağırlıkları her zaman pozitiftir.wi
  2. Kalıntı büyükse, ilgili gözlemlere daha az ağırlık veririz.

Uygulamada ML tahmincisini hesaplamak için bir başlangıç ​​değerine ihtiyacımız var , örneğin medyanı kullanabiliriz. Bu değeri kullanarak ve ağırlıklarını nın yeni değeri Bu şekilde devam ederek ve Algoritmanın geçişindeki tahmini değerμ^(0)

ϵi(0)=yiμ^(0)
wi(0)=21+ϵi(0).
μ^
μ^(1)=wi(0)yiwi(0).
ϵi(j)=yiμ^(j)
wi(j)=21+ϵi(j).
j+1
μ^(j+1)=wi(j)yiwi(j).
Devam sekansı kadar yakınsak.
μ^(0),μ^(1),,μ^(j),

Şimdi bu süreci daha genel bir yer ve ölçek ailesi, ile daha az ayrıntıyla . Let yukarıdaki yoğunluğu ile bağımsız olması. Ayrıca tanımlayın . Mantıksallık işlevi yazarken , ve Mantıksallık türevinin hesaplanması f(y)=1σf0(yμσ)Y1,Y2,,Ynϵi=yiμσ

l(y)=n2log(σ2)+log(f0(yiμσ)).
ν=σ2
ϵiμ=1σ
ϵiν=(yiμ)(1ν)=(yiμ)12σ3.
l(y)μ=f0(ϵi)f0(ϵi)ϵiμ=f0(ϵi)f0(ϵi)(1σ)=1σfo(ϵi)f0(ϵi)(1ϵi)(ϵi)=1σwiϵi
ve bunu sıfıra ilk örnekle aynı tahmin denklemini verir. Sonra için bir tahminci : σ2
l(y)ν=n21ν+f0(ϵi)f0(ϵi)ϵiν=n21ν+f0(ϵi)f0(ϵi)((yiμ)2σ3)=n21ν121σ2f0(ϵi)f0(ϵi)ϵi=n21ν121νf0(ϵi)f0(ϵi)(1ϵi)(ϵi)ϵi=n21ν+121νwiϵi2=!0.
tahmincisi giden Yukarıdaki yinelemeli algoritma bu durumda da kullanılabilir.
σ2^=1nwi(yiμ^)2.

Aşağıda R'yi kullanarak, çift üstel model (bilinen skala ile) ve verilerle sayısal bir inceleme yapıyoruz y <- c(-5,-1,0,1,5). Bu veriler için ML tahmincisinin gerçek değeri 0'dır. Başlangıç ​​değeri olacaktır mu <- 0.5. Algoritmanın bir geçişi

  iterest <- function(y, mu) {
               w <- 1/abs(y-mu)
               weighted.mean(y,w)
               }

bu fonksiyon ile "elle" iterasyonlarını deneyebilirsiniz Sonra tekrarlamalı algoritma tarafından yapılabilir

mu_0 <- 0.5
repeat {mu <- iterest(y,mu_0)
        if (abs(mu_0 - mu) < 0.000001) break
        mu_0 <- mu }

Alıştırma: Eğer model scale parametresi ile dağılımı ise yinelemeler ağırlığı ile verilmiştir Alıştırma: Yoğunluk lojistik ise, ağırlıkların tarafından verildiğini gösterin tkσw(ϵ)=1-eϵ

wi=k+1k+ϵi2.
w(ϵ)=1eϵ1+eϵ1ϵ.

Şimdilik burada bırakacağım, bu yazıyı sürdüreceğim.


vay, büyük nazik giriş! ancak her zaman tüm örnekler için tek bir parametresinden bahsediyorsunuz ve alıntıladığım kaynaklar örnek başına farklı bir hakkında konuşuyor . Bu sadece önemsiz bir değişiklik mi? sen benuui
ihadanny

1
Buna daha fazla zaman ayıracağım, şimdi zamanınız doldu! Fikirler aynı kalır, ancak ayrıntılar daha fazla dahil olur.
kjetil b halvorsen

2
buna gelecek!
kjetil b halvorsen

1
Ve lojistik yoğunluğun ağırlıklarını gösteren egzersiz için teşekkürler. Yaptım ve süreç boyunca çok şey öğrendim. Ben dağılımını bilmiyorum , bu konuda hiçbir şey bulamadık ...tk
ihadanny

2
bu açıklamaya devam eden bir yere bir blog yazısı yazmayı düşünür müsünüz? benim için gerçekten yararlı ve eminim diğerleri için olacak ...
ihadanny
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.