Neden Beta / Dirichlet Regresyon Genelleştirilmiş Doğrusal Modeller olarak kabul edilmez?


26

Öncül bu R paketi betareg1 skeç gelen bu alıntı .

Dahası, model genelleştirilmiş doğrusal modellerle (GLM'ler; McCullagh ve Nelder 1989) bazı özellikleri (doğrusal öngörücü, bağlantı işlevi, dağılım parametresi gibi) paylaşır, ancak bu çerçevenin özel bir durumu değildir (sabit dağılım için bile değildir) )

Bu cevap aynı zamanda gerçeği yansıtıyor:

[...] Bu, cevap değişkeni Beta olarak dağıtıldığında uygun olan bir regresyon modeli türüdür. Bunu genelleştirilmiş bir doğrusal modele benzer olarak düşünebilirsiniz . Tam olarak aradığın şey [...] (vurgu benim)

Soru başlığı her şeyi söylüyor: neden Beta / Dirichlet Regression Genelleştirilmiş Doğrusal Modeller olarak kabul edilmiyor?


Bildiğim kadarıyla, Genelleştirilmiş Doğrusal Model, bağımsız değişkenlere bağlı olan bağımlı değişkenlerin beklentisi üzerine kurulu modelleri tanımlar.

g Y X β σ 2f , beklentiyi belirleyen, olasılık dağılımı, sonuçları ve öncülleri, doğrusal parametreler ve varyansı olan link işlevidir .gYXβσ2

f(E(YX))g(βX,Iσ2)

Farklı GLM'ler, ortalama ve varyans arasındaki ilişkiyi empoze eder (veya gevşetir), ancak g üstel ailede olasılık dağılımını, doğru hatırlıyorsam tahminin sağlamlığını iyileştirmesi gereken arzu edilen bir özellik olmalıdır. Beta ve Dirichlet dağılımları, üstel ailenin bir parçası olsa da, fikirleri bitti.


[1] Cribari-Neto, F. ve Zeileis, A. (2009). R. 'de beta gerilemesi



@ amoeba Bağlantı için teşekkürler, bu soruyu daha önce görmemiştim.
Firebug

2
Ben düşünüyorum sorunu olduğunu standart ile beta dağılımını yazarsanız ise , parametreleri (yani üniforma (0,1) ima) bunu yazarsanız, o zaman beta dağılımı, üstel ailede olduğu cinsinden (ortalama) ve (dispersiyonu) değil. Fakat bir dağıtımın üstel ailede olup olmadığına hiç bu kadar değer vermedim. b a = b = 1 μ ϕaba=b=1μϕ
Cliff AB

@CliffAB Tim'in cevabı altındaki yorumları okuduktan sonra, Beta'nın parametrelenmesi, McCullagh-Nelder GLM'leri için bir zorunluluk gibi görünen parametrelerin ortogonal olmasına yol açmaktadır.
Firebug

1
Ben bu kısa cevabı düşünüyorum: stats.stackexchange.com/a/18812/28666 alakalı ve burada cevaplara ekler ( GLM'lerin üstel dağılım ailesiyle neden tanımlandığına dair ipucu ).
amip diyor Reinstate Monica

Yanıtlar:


20

Orijinal referansı kontrol edin:

Ferrari, S. ve Cribari-Neto, F. (2004). Modelleme oranları ve oranlar için beta regresyon. Uygulamalı İstatistik Dergisi, 31 (7), 799-815.

Yazarların belirttiği gibi, yeniden parametreleştirilmiş beta dağılımının parametreleri birbiriyle ilişkilidir.

Genelleştirilmiş doğrusal regresyon modelleri sınıfında doğrulananların aksine, ve parametrelerinin ortogonal olmadığına dikkat edin (McCullagh ve Nelder, 1989).ϕβϕ

Bu yüzden model bir GLM'ye benziyor ve bir GLM'ye benziyor olsa da, çerçeveye tam olarak uymuyor.


7
+1 ancak daha ayrıntılı bir cevaba sahip olmak harika olurdu. Ben şahsen, alıntıyı anlamıyorum (bağlantılı kağıdı açtıktan sonra bile). Bu parametreler neden beta regresyonda ortogonal değildir? .. Neden bu GLM'ler için gereklidir? .. Vb
amip diyor

3
@ amoeba dürüst olmak gerekirse, bu konuda size detaylı cevap verebilecek bir insan değilim. GLM'lerin ardındaki teoriye bu kadar incelikler hakkında yeterince derin bir anlayışa sahip olmadım. McCullagh ve Nelder bu şarttan söz ediyorlar, ancak neden önemli olduğunu görmek için kitaplarını kontrol etmem gerekiyor. Birisi bunun neden bir sorun olduğuna dair ayrıntılı bir açıklama yapsaydı, böyle bir cevap için ödül almayı düşünürdüm.
Tim

9
GLM'lerdeki diklik gereksinimi önemlidir: Bu , olasılığın geri kalanını yanlış tanımlama endişesi olmadan denklemini tahmin edebileceğiniz anlamına gelir . Parametre tahminleri, yukarıdaki ortalama denklemin doğru bir şekilde belirtilmesi durumunda tutarlıdır. Varyans doğru bir şekilde belirtilmişse, çıkarım geçerlidir. Ancak, beta regresyonda, iki model denklemini bu şekilde ayıramazsınız, sadece bir sabit olsa bile . Tutarlı sonuçlar için her şey doğru bir şekilde belirtilmelidir. ϕg(μ)=xβϕ
Achim Zeileis

3
@AchimZeileis Adınızı CV'de gördüğümü hatırladım. Söylediklerin çok mantıklı geliyor. Belki de yorumunuzu yanıtlamak için daha fazla gerekçe ekleyerek dönüştürmek istersiniz? Dediğim gibi, soru için yeterince ayrıntılı cevap veren birisine ödül vermekten memnuniyet duyarım.
Tim

2
@Tim Daha fazla zamanım olduğunda bunu yapmaya çalışacağım. Bu yüzden hızlı bir yorumun hiç olmadığı kadar iyi olduğunu düşündüm ...
Achim Zeileis 23:17

8

@Probabilityislogic tarafından verilen cevap doğru yolda.

Beta dağılımı iki parametreli üssel ailededir . Nelder ve Wedderburn (1972) tarafından açıklanan basit GLM modelleri , iki parametreli üstel ailedeki tüm dağıtımları içermez.

N & W'nin makalesi bakımından, GLM, aşağıdaki tipteki yoğunluk fonksiyonlarına uygulanır (bu daha sonra Jørgensen 1987'de üstel dağılım ailesi olarak adlandırılmıştır ):

π(z;θ,ϕ)=exp[α(ϕ){zθg(θ)+h(z)}+β(ϕ,z)]

ek bir link işlevi ve doğal parametre için doğrusal model ile .f()θ=f(μ)=f(Xβ)


Böylece yukarıdaki dağılımı da tekrar yazabiliriz:

π(z;μ,ϕ)=exp[z(f(μ)α(ϕ))+h(z)α(ϕ)g(f(μ))α(ϕ)+β(ϕ,z)]

İki parametre üstel aile:

f(z;θ1,θ2)=exp[T1(z)η1(θ1,θ2)+T2(z)η2(θ1,θ2)g(θ1,θ2)+h(z)]

Bu da benzer fakat daha genel görünüyor (ayrıca biri sabitse).θ


Aradaki fark açıktır ve beta dağılımını bir GLM olarak bir forma koymak da mümkün değildir.

Ancak, daha sezgisel ve iyi bilgilendirilmiş bir cevap oluşturmak için yeterli anlayışım yok (çeşitli temel ilkelerle daha derin ve daha zarif ilişkiler olabileceğine dair bir his var). GLM, en küçük kareler modelinin yerine tek değişkenli bir üstel dağılım modelini kullanarak hatanın dağılımını genelleştirir ve bir link işlevi kullanarak ortalamadaki doğrusal ilişkiyi genelleştirir.

En iyi ve en basit sezgi, üsteldeki dispersiyon- -term gibi gözüküyor , bu da her şeyle çarpılıyor ve bu yüzden dağılım ile değişmiyor . Bazı iki parametreli üstel aileler ve yarı olabilirlik yöntemleri, dağılım parametresinin de bir fonksiyonu olmasına izin verir .α(ϕ)θθ


N&W tanımlı df içindeki ikinci parametresi dağılımdır. Doğal üstel ailenin bir parametresini genişletiyorπ ( z ; θ )ϕπ(z;θ)
Sextus Empiricus

@amoeba beta iki değişkenli üstel aile dağılım görülür mesela www2.stat.duke.edu/courses/Spring11/sta114/lec/expofam.pdf
Tim

2
Sabit bir dağılım olsa bile, tamamen mümkün olup olmadığından emin değilim. En azından N&W tarafından belirtildiği gibi glm'ye göre değil (bildiğim şey birçok insanın beta regresyonunu çözmek için çok daha zor şeyler yaptığıdır). Ne olduğunu ve nerede yanlış gittiğini göstermek için cevabı düzenleyeceğim, aynı yinelemeli en küçük kareleri aynı yolu izlemeye çalışırsak.
Sextus Empiricus

2
Cevabı biraz değiştirdim. 1) Aileler ve dağılım modellerinin ilk tanımları yanlıştı. GLM , bir parametreli üstel ailelerin tüm dağılımlarını içerir, çünkü sadece bu yoğunluk fonksiyonu değil, aynı zamanda bir link fonksiyonudır. 2) Daha iyi ve sezgisel bir bakış açısıyla, uzağa gidemedim ve çok yakında bir şey beklemiyorum. GLM modelleri, çeşitli temsillerde klasik modelle ilgilidir, fitting işlemlerinin matris formülasyonuna ağırlıklar ekleyerek, log fonksiyonu olabilirlik fonksiyonlarının türevlerini, link fonksiyonu ve varyans terimleri de dahil olmak üzere, .....
Sextus Empiricus

2
Cevabınızı biraz düzenleme özgürlüğüne ulaştım, düzenlemelerde iyi olduğunuzu umuyorum. Ayrıca, bu cevabı benziyor. İstatistik.stackexchange.com/a/18812/28666 N&W'nin neden bu özel dağıtım ailesini kullandığını ve neden daha geniş bir sonuç almadığını gösteriyor .
amip diyor Reinstate Monica

2

Beta dağılımının üstel dağılım ailesinin bir parçası olduğunu sanmıyorum . Bunu elde etmek için bir yoğunluğa sahip olmanız gerekir.

f(y;θ,τ)=exp(yθc(θ)τ+d(y,τ))

belirtilen işlevler için ve . Ortalama , varyans . Parametre kanonik parametre olarak adlandırılır.d ( ) c ( θ ) τ c ( θ )c()d()c(θ)τc(θ)θ

Orada hiçbir belirterek bu görmek için bir yol - beta dağılımı bu şekilde yazılamamaktadır günlük olasılıkla terimi - bu yer alır ve yerinegünlüğü [ y ] günlüğü [ 1 - y ]ylog[y]log[1y]

fbeta(y;μ,ϕ)=exp(ϕμlog[y1y]+ϕlog[1y]log[B(ϕμ,ϕ(1μ)]log[y1y])

Ancak bu beta görmek için başka bir yol değildir üstel dispersiyon ailesi gibi yazılabilir olmasıdır olan ve bağımsız olarak ve aynı ölçek kullanılmıştır parametresi iki takip gama dağılımlarına (ve gamma Üstel ailedir). xzy=xx+zxz


1
Bu cevap yazıldığı gibi doğru değil. Bunu görmenin bir yolu, sunulan mantığa göre, örneğin Bernoulli ve binom dağılımlarının, üstel ailelerin sınıfında olmayacağıdır.
kardinal

2
Üzgünüm, verdiğim örneğin hatalı olduğu konusunda haklısın. (Uyarı: zihinsel aritmetik ve CrossValidated'ın mobil kullanımı tehlikeli olabilir!) Ancak, benim açımdan hala geçerli. Bu cevap yanlıştır, çünkü çok dar bir “tanımlanmış” “üstel aile” kavramını tercih eder - herhangi bir geleneksel kaynak veya pratik kullanımdan daha dardır.
kardinal

2
Hmm. Wikipedia , üstel aile dağılımları listesinde beta listesini yapıyor .
amip diyor Reinstate Monica

1
Doğru - doğal üstel aileyi düşünüyordum - ki bu özel bir durumdur
olasılık

1
parametresi bir link işlevi tarafından da tanımlanır ve daha sonra bu dar tanımlanmış dağıtım işlevi, bir parametre üstel ailesinin tüm dağılımları da dahil olmak üzere daha geniş hale gelir, ancak yalnızca iki parametre üstel ailesinden bazıları. θ
Sextus Empiricus,
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.