Negatif binom regresyon varsayımları nelerdir?

30

Büyük bir veri setiyle çalışıyorum (gizli, bu yüzden çok fazla paylaşamıyorum) ve sonuçta negatif bir binom regresyonunun gerekli olacağı sonucuna vardım. Daha önce hiç glm regresyonu yapmamıştım ve varsayımların ne olduğu hakkında net bir bilgi bulamıyorum. MLR için aynı mılar?

Değişkenleri aynı şekilde dönüştürebilir miyim (Zaten doğal bir sayı olması gerektiğinden bağımlı değişkeni dönüştürmenin kötü bir çağrı olduğunu keşfettim)? Negatif binom dağılımının verilerimdeki aşırı dağılmaya yardımcı olacağını zaten belirledim (varyans 2000 civarında, ortalama 48).

Yardım için teşekkürler!!

— Carly
kaynak

42

Büyük bir veri kümesiyle çalışıyorum (gizli, bu yüzden fazla paylaşamıyorum),

Değişken adları veya gerçek değerlerin hiçbiri olmadan, gerçek verilerin genel özelliklerinden bazılarına sahip küçük bir veri seti oluşturmak mümkün olabilir.

ve sonuçlandığında negatif bir binom regresyonun gerekli olacağı sonucuna varıldı. Daha önce hiç glm regresyonu yapmamıştım ve varsayımların ne olduğu hakkında net bir bilgi bulamıyorum. MLR için aynı mılar?

Açıkça değil! Yanıtın şartlı olarak normal değil, koşullu olarak negatif binom olduğunu varsaydığınızı zaten biliyorsunuz. ( Bazı varsayımlar paylaşılmaktadır. Örneğin, bağımsızlık.)

Önce GLM'ler hakkında konuşayım.

GLM'ler çoklu regresyon içerir ancak birkaç şekilde genelleştirilir:

1) cevabın koşullu dağılımı (bağımlı değişken), Poisson, binom, gama, normal ve sayısız başka dağılımları içeren üssel ailedendir .

2) ortalama cevap bir link fonksiyonu aracılığıyla tahmin edicilere (bağımsız değişkenler) ilişkindir . Dağılımların Her aile ilişkili sahiptir kurallı bağlantı fonksiyonu - Poisson durumunda örneğin, kanonik link günlüğü . Kurallı bağlantılar hemen hemen her zaman varsayılandır, ancak çoğu yazılımda her dağıtım seçiminde genellikle birkaç seçeneğiniz vardır. Binom için kanonik bağ logit'tir (doğrusal yordayıcı modellemesidir , başarının log oranları veya bir "1") ve Gamma için kanoniktir. link tersidir - ancak her iki durumda da diğer link işlevleri sıklıkla kullanılır. $\log(\frac{p}{1-p})$

Cevabınız olsaydı Yani ve prediktörlerdir ve size ortalama nasıl tanımını yaparken sahip olabilir günlük bağlantısını içeren bir Poisson regresyon ile, ile ilgilidir 'ler: $Y$ $X_1$ $X_2$ $Y$ $X$

$\text{E}(Y_i) = \mu_i$

$\log\mu_i= \eta_i$ ( 'doğrusal öngörücü' olarak adlandırılır ve burada link işlevi , sembolü genellikle bağlantı işlevini temsil etmek için kullanılır) $\eta$ $\log$ $g$

$\eta_i = \beta_0 + \beta_1 x_{1i} + \beta_2 x_{2i}$

3) cevabın varyansı sabit değildir, ancak bir varyans fonksiyonu aracılığıyla çalışır (ortalamanın bir fonksiyonu, muhtemelen bir ölçekleme parametresinin katıdır). Örneğin, bir Poisson varyansı ortalamasına eşittir, bir gama için ise ortalamanın karesiyle orantılıdır . (Yarı dağılımlar, varyans fonksiyonunun bir dereceye kadar varsayılan dağılımdan ayrılmasına izin verir)

-

Öyleyse hangi varsayımlar MLR'den hatırladıklarınızla ortaktır?

Bağımsızlık hala orada.
Homoskedasticity artık kabul edilmez; varyans açıkça ortalamanın bir fonksiyonudur ve genel olarak tahmincilere göre değişir (bu nedenle model genellikle heteroskedastik iken, heteroskedastiklik belirli bir form alır).
Doğrusallık: Model parametrelerde hala doğrusaldır (yani doğrusal öngörücü ), ancak beklenen yanıt onlarla doğrusal olarak ilişkili değildir (kimlik bağlantı işlevini kullanmadığınız sürece!). $X\beta$
Cevabın dağılımı esasen daha geneldir

Çıktının yorumlanması birçok açıdan oldukça benzerdir; Örneğin, standart hatalarına bölünmüş tahmini katsayılara bakabilir ve bunları benzer şekilde yorumlayabilirsiniz (asimptotik olarak normaldirler - bir Wald z testi) - ama insanlar hala teorik bir teori bile olmasa bile, onlara t-oranları diyorlar. onları genel olarak dağıtılmış). $t$

İç içe modeller arasındaki karşılaştırmalar (“anova-table” benzeri kurulumlar aracılığıyla) biraz farklı, ancak benzer (asimptotik ki-kare testleri içeren). AIC ve BIC'de rahat ederseniz, bunlar hesaplanabilir.

Genellikle benzer teşhis ekranları kullanılır, ancak yorumlanması zor olabilir.

Farklılıkları aklınızda tutarsanız, çoklu doğrusal regresyon sezgilerinizin çoğu devam edecektir.

İşte normal regresyonda yapamayacağınız bir glm ile yapabileceğiniz bir şeye bir örnek: (aslında çoğu insan bunun için doğrusal olmayan regresyon kullanır, ancak GLM normal durumda daha kolay ve daha güzeldir) - normal , bir işlevi olarak modellenmiştir : $Y$ $x$

$\text{E}(Y) = \exp(\eta) = \exp(X\beta) = \exp(\beta_0+\beta_1 x)$ (yani, bir günlük bağlantısı)

$\text{Var}(Y) = \sigma^2$

Yani, en küçük kareler ve arasındaki üstel bir ilişkiye uyuyor . $Y$ $x$

Değişkenleri aynı şekilde dönüştürebilir miyim (Zaten doğal bir sayı olması gerektiğinden bağımlı değişkeni dönüştürmenin kötü bir çağrı olduğunu keşfettim)?

Siz (genellikle) yanıtı dönüştürmek istemezsiniz (DV). Bazen olabilir lineer öngörücü doğrusallığını ulaşmak için yordayıcılarını (IV enzimlerini) dönüştürmek istiyor.

Negatif binom dağılımının verilerimdeki aşırı dağılmaya yardımcı olacağını zaten belirledim (varyans 2000 civarında, ortalama 48).

Evet, aşırı dağılma ile başa çıkabilir. Ancak koşullu dağılımın koşulsuz dağılım ile karıştırılmamasına özen gösterin.

Başka bir ortak yaklaşım - aklıma biraz daha ağır ve biraz daha az aklıma tatmin edici ise - yarı-Poisson gerilemesi (fazla dağılmış Poisson gerilimi).

Negatif binom ile, parametrelerinden belirli bir tanesini belirtirseniz (üstel ailede, en azından GLMS için genellikle reparametre edildiği şekilde). Parametreyi belirtirseniz bazı paketler sığacak, bazıları ise bu parametreye ilişkin ML tahminini (profil olasılığı ile söyleyebilecek) bir GLM rutininin etrafına saracak ve işlemi otomatikleştirecektir. Bazıları sizi daha küçük bir dağıtım kümesiyle sınırlar; Hangi yazılımı kullanabileceğinizi söylemediğiniz için orada daha fazla şey söylemek zor.

Genelde log-link'in negatif binom regresyon ile kullanılma eğiliminde olduğunu düşünüyorum.

Bazı temel Poisson GLM'leri ve daha sonra negatif binom GLM verilerini analiz eden, bazı temel Poisson GLM'leri içeren bir başlangıç düzeyi belgeleri vardır (ancak google üzerinden kolayca bulunur), ancak önce GLM'lerle ilgili bir kitaba bakmayı ve belki de önce biraz Poisson regresyonu yapmayı tercih edebilirsiniz. Sadece buna alışmak için.

— Glen_b -Reinstate Monica
kaynak

1

+1 COOLSerdash ile aynı fikirdeyim. Burada pek çok iyi bilgi var! Önerilen Google aramasına ek olarak, özellikle Gujarati’nin Örneklerinden Ekonometri adlı bir ders kitabı da öneririm. Bölüm 12, Poisson regresyon modelini ve negatif Binom regresyon modelini kapsar. Kitabın başlığının önerdiği gibi, örnekler var. Kitapta kullanılan veriler kitap arkadaşı web sitesinden edinilebilir ve bu nedenle Bölüm 12'nin özetidir . OP'nin bunu kontrol etmesini öneririm.

— Graeme Walsh

Partiye geç kaldım ... ama bu cevap, genelleştirilmiş doğrusal modelleri kütüphanedeki kitap yığınından daha iyi anlamama yardımcı oldu.

— 1917'de

0

Özellikle negatif binom dağılımına (varsayımların listelenmesi dahil) ve GLM / GLMM'lere ilişkin verileri analiz etmede yardımcı olduğunu bulduğum bazı referanslar genellikle:

Bates, DM, B. Machler, B. Bolker ve S. Walker. 2015. lme4 kullanarak doğrusal karışık etki modellerinin takılması. J. Stat. Yazılım 67: 1-48.

Bolker, BM, ME Brooks, CJ Clark, SW Geange, JR Poulsen, MHH Stevens ve J. White. Genelleştirilmiş doğrusal karışık modeller: ekoloji ve evrim için pratik bir rehber. Ekoloji ve Evrimdeki Eğilimler 127-135.

Zeileis A., C. Keleiber C ve S. Jackman 2008. RJ Stat. Sayım verileri için regresyon modelleri. Yazılım. 27: 1-25

Zuur AF, EN Iene, N. Walker, AA Saveliev ve GM Smith. 2009. R. Springer, NY, ABD ile ekolojide karma efekt modelleri ve uzantıları.

— Todd Johnson
kaynak