Genelleştirilmiş doğrusal modellerde kalıntıların normallik açısından kontrol edilmesi


12

Bu makale , verileri analiz etmek için genelleştirilmiş doğrusal modeller (hem binom hem de negatif binom hata dağılımları) kullanmaktadır. Ama sonra yöntemlerin istatistiksel analiz bölümünde bu ifade var:

ve ikincisi Lojistik Regresyon Modelleri kullanılarak varlık verilerini ve Genelleştirilmiş Doğrusal Model (GLM) kullanarak yiyecek arama zamanı verilerini modelleyerek. Toplayıcı zaman verilerinin modellenmesi için bir log link fonksiyonu ile negatif bir binom dağılımı kullanıldı (Welsh ve ark. 1996) ve model yeterliliği residalların incelenmesi ile doğrulandı (McCullagh ve Nelder 1989). Örnek büyüklüğüne bağlı olarak normallik testi için Shapiro – Wilk veya Kolmogorov – Smirnov testleri kullanıldı; veriler, normalliğe uymak için analizlerden önce log dönüştürülmüştür.

Binom ve negatif binom hata dağılımlarını varsayarlarsa, kesinlikle artıkların normalliğini kontrol etmemelidirler mi?


2
O Not hataları binom dağılımlı değildir - her yanıt binom cevapları uyarınca, mütekabil belirleyici değerleri tarafından verilen bir olasılık parametresi ile dağıtılan diğer sorulardan biri .
Scortchi - Monica'yı eski durumuna döndürün

3
Binom veya negatif binom regresyonunda normal olması gerekenden daha fazlası yoktur. Eğer dönüştükleri cevap buysa, bu son derece verimsiz olabilir; GLM'yi bertaraf edecektir.
Glen_b-Monica

1
Teklifinizden normalde neyi test ettikleri net değil (artıklar olduğundan emin misiniz?) Veya hangi analizi veri dönüştürdükleri (GLM'ler olduğundan emin misiniz?).
Scortchi - Monica'yı eski durumuna döndürün

Alıntıyı biraz genişlettim. Birisi makalenin yazarlarının yanlış veya doğru olup olmadığını teyit edebilir mi?
luciano

Korkarım ki hala çok net değil - makalede veya kaynaklarında başka bir yerde açıklanmadıysa, analizi nasıl yaptıkları hakkında ayrıntılı bilgi için yazarlarla iletişime geçin.
Scortchi

Yanıtlar:


16

Dikkat: Sapma (veya Pearson) artıklarının Gauss modeli dışında normal dağılıma sahip olması beklenmemektedir. İçin lojistik regresyon durumda, @Stat söylediği gibi, sapkınlık artıkları inci gözlem tarafından verilmektediry benbenyben

rbenD=-2|günlük(1-π^ben)|

Eğer veyben=0

rbenD=2|günlük(π^ben)|

Eğer , monte Bernoulli olasılığıdır. Her biri iki değerden yalnızca birini alabileceğinden, doğru bir şekilde belirlenmiş bir model için bile dağıtımlarının normal olamayacağı açıktır:^ π iyben=1πben^

#generate Bernoulli probabilities from true model
x <-rnorm(100)
p<-exp(x)/(1+exp(x))

#one replication per predictor value
n <- rep(1,100)
#simulate response
y <- rbinom(100,n,p)
#fit model
glm(cbind(y,n-y)~x,family="binomial") -> mod
#make quantile-quantile plot of residuals
qqnorm(residuals(mod, type="deviance"))
abline(a=0,b=1)

QQ grafiği n = 1

Ancak , Yordayıcı modeli için yinelenen gözlemler varsa ve sapma kalıntısı bunları toplamak için tanımlanır bennbenben

rbenD=sgn(yben-nbenπ^ben)2[ybengünlükybennπ^ben+(nben-yben)günlüknben-ybennben(1-π^ben)]

(burada şimdi başarıların ) o zaman artıkların dağılımı normalliğe daha fazla yaklaşır:ybennbennben

#many replications per predictor value
n <- rep(30,100)
#simulate response
y<-rbinom(100,n,p)
#fit model
glm(cbind(y,n-y)~x,family="binomial")->mod
#make quantile-quantile plot of residuals
qqnorm(residuals(mod, type="deviance"))
abline(a=0,b=1)

QQ grafiği n = 30

Poisson veya negatif binom GLM'ler için benzer: düşük tahmin edilen sayımlar için artıkların dağılımı ayrık ve çarpıktır, ancak doğru belirlenmiş bir model altında daha büyük sayımlar için normalliğe eğilimlidir.

En azından ormanların boynunda değil, normal bir normallik testi yapmak normal değildir; eğer modeliniz tam normallik varsa normalite testi aslında işe yaramazsa , bir fortiori bunu yapmadığında işe yaramaz. Bununla birlikte, doymamış modeller için, grafiksel rezidüel teşhisler, öngörücü model başına replikat sayısına bağlı olarak bir tutam veya bir avuç tuzla normallik alarak, uyum eksikliğinin varlığını ve doğasını değerlendirmek için yararlıdır.


1

Yaptıkları doğru! Size çifte kontrol için bir referans vereceğim. Bkz. Bölüm 13.4.4, Doğrusal Regresyon Analizine Giriş, 5. BaskıDouglas C. Montgomery, Elizabeth A.Peck, G. Geoffrey Vining. Özellikle, bir binom glm sığdırdığı ve "Sapkınlık Kalıntıları" nın normallik varsayımını iki kez kontrol ettikleri sayfa 460'daki örneklere bakın. Sayfa 458'de belirtildiği gibi, bunun nedeni "sapma kalıntıları, normal normal teori doğrusal regresyon modelinde olduğu gibi, normal kalıntılar gibi davranır". Bu nedenle, bunları normal olasılık grafiği ölçeğinde ve takılmış değerlerde çizmeniz mantıklıdır. Yine yukarıdaki referansın 456. sayfasına bakınız. 460 ve 461 sayfalarında verdikleri örneklerde, sadece binom vakası için değil, aynı zamanda Poisson glm ve (link = log) ile Gamma için de sapma kalıntılarının normalliğini kontrol etmişlerdir.
Binom davası için sapma kalıntısı şu şekilde tanımlanır:

rbenD=-2|ln(1-πben^)|
Eğer ve halinde . Şimdi, nasıl alabileceğinizi göstermek için R'deki bazı kodlamalar:yben=0
rbenD=2|ln(πben^)|
yben=1
> attach(npk)

> #Fitting binomila glm
> fit.1=glm(P~yield,family=binomial(logit))
> 
> #Getting deviance residuals directly
> rd=residuals(fit.1,type = c("deviance"))
> rd
         1          2          3          4          5          6          7 
 1.1038306  1.2892945 -1.2912991 -1.1479881 -1.1097832  1.2282009 -1.1686771 
         8          9         10         11         12         13         14 
 1.1931365  1.2892945  1.1903473 -0.9821829 -1.1756061 -1.0801690  1.0943912 
        15         16         17         18         19         20         21 
-1.3099491  1.0333213  1.1378369 -1.2245380 -1.2485566  1.0943912 -1.1452410 
        22         23         24 
 1.2352561  1.1543163 -1.1617642 
> 
> 
> #Estimated success probabilities
> pi.hat=fitted(fit.1)
> 
> #Obtaining deviance residuals directly
> rd.check=-sqrt(2*abs(log(1-pi.hat)))
> rd.check[P==1]=sqrt(2*abs(log(pi.hat[P==1])))
> rd.check
         1          2          3          4          5          6          7 
 1.1038306  1.2892945 -1.2912991 -1.1479881 -1.1097832  1.2282009 -1.1686771 
         8          9         10         11         12         13         14 
 1.1931365  1.2892945  1.1903473 -0.9821829 -1.1756061 -1.0801690  1.0943912 
        15         16         17         18         19         20         21 
-1.3099491  1.0333213  1.1378369 -1.2245380 -1.2485566  1.0943912 -1.1452410 
        22         23         24 
 1.2352561  1.1543163 -1.1617642 
> 

Kontrol burada Poisson durum için de.


2
Örneğin garip bir seçim. Bu sapma kalıntılarının PP veya QQ grafiğini yaptınız ? eğer öyleyse, ne sonuca vardınız?
Scortchi - Monica'yı eski durumuna döndürün

5
Mesele şu ki, artıkların normalliklerini kontrol etmenin bir anlamı olmayacaktır - normalde açıkça dağıtılmazlar ve olmamalıdırlar. Sadece her bir belirteç modeli için gözlem sayısı arttıkça, artıkların dağılımının (bir belirteç modeli başına bir artık hesaplanmaktadır) normale eğilimi vardır. Benzer şekilde bir Poisson veya negatif binom modeli için - normal yaklaşımın iyi olabilmesi için sayıların büyük olması gerekir.
Scortchi - Monica'yı eski durumuna döndürün

2
Soru, genelleştirilmiş doğrusal modellerden artıkların normal olarak dağıtılıp dağıtılmayacağıdır. Yanıtınız görünen bir niteliksiz "evet" (kaynaklarınızdır gerekli nitelikleri vermek şüphesiz rağmen, her okuyucu bunları kontrol edecek) olmak. Daha sonra , model doğru bir şekilde belirtilmiş olsa bile, artıkların normal olarak dağılmasını beklemek için hiçbir nedenin olmadığı bir örnek verirsiniz : Dikkatsiz bir okuyucu, olması gerektiğini ve açıkça olmadığı gibi, dolayısıyla (sizin gerçi ... artıkların inceleyerek modeli yanlış şartname tespit örneğidir
Scortchi - Eski Monica

2
... öyle demedi). Bu yüzden cevabın yararlı olması için çok fazla açıklama gerektirdiğini düşünüyorum.
Scortchi - Monica'yı eski durumuna döndürün

2
IMO @ Scortchi'nin yorumları burada makul. Google kitap önizlemesindeki Montgomery kitabında neler görebildiğime bakarak , QQ çizimi yapıyorlar, ancak orijinal posterde belirtildiği gibi gerçek bir normallik testi yapmıyorlar. QQ grafiğini yapmak bir teşhis testi olarak makul, ancak hemen hemen tüm gerçekçi koşullarda sapma bile var. normal olmayacak.
Andy W
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.