Negatif binom regresyon sorusu - Zayıf bir model midir?


31

Sellers ve Shmueli tarafından sayım verileri için regresyon modelleriyle ilgili çok ilginç bir makale okuyorum . Başlangıçta (p. 944) McCullaugh ve Nelder'den (1989) negatif binom regresyonunun popüler olmadığını ve sorunlu bir kanonik bağı olduğunu söyleyerek alıntı yaparlar . Belirtilen pasajı buldum ve şöyle diyor (s. 374, M ve N)

"Uygulamalarda negatif binom dağılımının çok az kullanımı yapılmış gibi görünüyor; özellikle, kanonik bağın kullanımı problemlidir çünkü doğrusal öngörücüyü varyans fonksiyonunun bir parametresinin bir fonksiyonu yapar".

Bir önceki sayfada bu link fonksiyonunu veriyorlar.

η=günlük(α1+α)=günlük(μμ+k)

ve varyans fonksiyonu

V=μ+μ2k.

Dağılım olarak verilir.

Pr(Y=y;α,k)=(y+k-1)!y!(k-1)!αy(1+α)y=k

NB regresyonunun oldukça yaygın olarak kullanıldığını (ve birkaç kitapta önerildiğini) buldum. Tüm bu kullanımlar ve öneriler hatalı mı?

Bu problemli bağlantının sonuçları nelerdir?


3
Muhtemelen, en azından kısmen 1989 yılına atfedilen teklifin bir kısmını yapmak zorundadır. NB'nin şu anki kullanımlarının daha yeni olduğunu iddia etmek isterim. NB modeli genellikle olağan binom olasılığı (yani lojistik regresyon) durumunda aşırı dağılma problemleriyle uğraşırken çok faydalıdır.

5
Vαμ2V=μ+αμ2

3
Bu yorumları bir tuzlukla alırdım. Re MN: GLM'nin ne olduğu konusunda çok katı bir tanımları vardı (bence iyi nedenlerle). Bilinmeyen şekil parametresi olan Negbin modelleri, McCullagh, Nelder, Pregibon ve benzerleri tarafından GLM'nin kesin tanımına uymaz. Yani teknik olarak neredeyse tüm kullanım durumlarında bir GLM değildir. Biraz farklı bir model sınıfı olarak yorumlanır ve maksimum olasılıkla tahmin edilir, artık sorun yok. S&S, COM Poisson'u motive etmek için bir davaya ihtiyaç duyuyordu, bu yüzden M & N'nin teklifi çok işe yaradı.
Momo

4
Kurallı bağlantının iddia edilen kötü özelliklerinin neden negbin modelini genel olarak dayanılmaz hale getirdiğini anlamıyorum. Link işlevinizi matematiksel teoriye göre değil, verilere ve çözmeye çalıştığınız sorun temelinde seçersiniz. Aslında, herhangi birinin kanonik bağlantıyı kullandığından şüpheliyim. Gama GLM'lerine benzer bir hikaye; kanonik bağ terstir, ancak çok daha fazla insanın yorumlama kolaylığı ve bir çok durum için doğal uygulama nedeniyle bir günlük bağlantısı kullandığına bahse girerim.
Hong Ooi

4
E{Y|X}=exp(Xβ)β

Yanıtlar:


10

Ben iddiaları birkaç açıdan tartışmıştım:

i) Kanonik link 'problemli' olsa da, birilerinin o linkle ilgileneceği hemen belli değil - oysa, örneğin Poisson'daki log-link çoğu zaman hem uygun hem de doğaldır ve bu yüzden insanlar genellikle bununla ilgileniyorum. Buna rağmen, Poisson örneğinde insanlar diğer bağlantı işlevlerine bakarlar.

Bu nedenle, kanonik bağlantıyla ilgili görüşümüzü kısıtlamamız gerekmez.

'Sorunlu bir bağlantı', başlı başına olumsuz binom regresyonuna karşı özellikle söyleyen bir tartışma değildir.

Örneğin log-link, bazı olumsuz binom uygulamalarında, örneğin verilerin koşullu Poisson olabileceği durumlarda, ancak Poisson hızında heterojenlik olduğu durumlarda oldukça makul bir seçim gibi görünüyor - log bağlantısı neredeyse yorumlanabilir. Poisson da olduğu gibi.

Karşılaştırma yapmak gerekirse, Gamma GLM'leri oldukça sık kullanıyorum, ancak kendi kanonik bağlantısını kullandığını hiç hatırlamıyorum (ders kitabı örnekleri dışında) - log-linkini hemen hemen her zaman kullanıyorum, çünkü sorun türleri için kullanmak daha doğal bir bağlantı. Ben çalışma eğilimindeyim.

ii) "Çok az şey yapılmış gibi görünüyor ... uygulamalarda" 1989'da hemen hemen doğru olmuş olabilir, ancak şu anda geçerli olduğunu sanmıyorum. [Şimdi dursa bile, bu kötü bir model olmadığı, sadece yaygın olarak kullanılmadığı - ki her türlü sebepten ötürü bir argüman değil.]

Negatif binom regresyonu daha yaygın olarak kullanıldığından daha yaygın olarak kullanılmaya başlandı ve şimdi uygulamalarda daha yaygın olarak kullanıldığını görüyorum. Örneğin, R'de, MASSonu destekleyen fonksiyonlardan faydalanıyorum (ve ilgili kitap, Venables and Ripley's, S ile Modern Uygulamalı İstatistik , bazı ilginç uygulamalarda negatif binom regresyon kullanıyor) - ve bazı fonksiyonlar kullandım. R içinde kullanmadan önce bile birkaç paket içinde

Olumsuz binom regresyonunu daha önce, daha kolay kullanabilseydim daha çok kullanırdım; Aynı şeylerin birçok insan için de geçerli olmasını bekliyorum - bu yüzden çok az kullanıldığı tartışması bir fırsattan daha fazlası gibi görünüyor.

Olumsuz binom gerilemesinden kaçınmak mümkün olsa da (örneğin, aşırı dağılmış Poisson modellerini kullanarak) ya da gerçekten ne yaptığınız önemli olmadığı bir dizi durumdan dolayı, bunun tamamen tatmin edici olmamasının çeşitli nedenleri var.

Örneğin, benim ilgim, tahmin katsayılarının tahmin aralıklarından daha fazla olduğu durumlarda, katsayıların değişmemesi negatif binomdan kaçınmak için yeterli bir neden olmayabilir.

Tabii ki dispersiyonu modelleyen başka seçenekler de var (örneğin, bahsettiğiniz makalenin konusu olan Conway-Maxwell-Poisson gibi); Bunlar kesinlikle seçenekler olsa da, bazen olumsuz binomialın benim problemim için bir model olarak oldukça iyi bir 'uygun' olduğu için mutlu olduğum durumlar da olabilir.

Tüm bu kullanımlar ve öneriler hatalı mı?

Gerçekten öyle düşünmüyorum! Öyle olsaydı, şimdiye kadar makul şekilde netleşmesi gerekirdi. Gerçekten, eğer McCullagh ve Nelder aynı şekilde hissetmeye devam etseydi, fırsatlarını ya da kalan sorunları açıklığa kavuşturabilecekleri hiçbir forum eksikliği yaşadılar. Nelder vefat etti (2010), ama McCullagh hala görünüşe göre .

McCullagh ve Nelder'deki o kısa geçit, sahip oldukları tek şeyse, bunun oldukça zayıf bir argüman olduğunu söyleyebilirim.

Bu problemli bağlantının sonuçları nelerdir?

Meselenin temelde varyans fonksiyonunun ve link fonksiyonunun ilişkisiz olmaktan ziyade ilişkili olduğunu düşünüyorum (popüler kullanımdaki hemen hemen tüm diğer ana GLM ailelerinde olduğu gibi). daha az basit (tek sorun bu değil; pratisyen için ana mesele olduğunu düşünüyorum). Çok fazla bir şey değil.


p

Bunların hiçbiri edilir (Satıcılar ve Shmueli kağıdın konu) Conway-Maxwell-Poisson modellerden uzak olmanın ne de dünyada yaygınlaşmaktadır - Kesinlikle COM vs olumsuz binom yer almak istemeyen - Poisson çekim maçı.

Ben sadece bunu bir başkası olarak görmüyorum, (şimdi daha geniş konuşarak) 'dan çok daha fazlasını göremiyorum. İstatistiksel sorunlara karşı tamamen Bayesli ya da tamamen sıkıcı bir tutum alıyorum. İçinde bulunduğum şartlarda en iyi seçim olarak bana vurgulu olanı kullanacağım ve her seçimin avantaj ve dezavantajları var.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.