Birisi bana 'takılanlara karşı kalan artıklar', 'normal q-q', 'ölçek yeri' ve 'kaldıraçlara karşı kaldıraç' alanlarını nasıl yorumlayabileceğimi söyleyebilir mi? Binom bir GLM takıyorum, tasarruf ediyorum ve sonra çiziyorum.
Birisi bana 'takılanlara karşı kalan artıklar', 'normal q-q', 'ölçek yeri' ve 'kaldıraçlara karşı kaldıraç' alanlarını nasıl yorumlayabileceğimi söyleyebilir mi? Binom bir GLM takıyorum, tasarruf ediyorum ve sonra çiziyorum.
Yanıtlar:
R
belirgin bir plot.glm()
metoda sahip değil . Bir model takıpglm()
çalıştırdığınızda plot()
, doğrusal modeller için uygun (yani normal dağılmış bir hata terimiyle) ? Plot.lm çağırır .
Genel olarak, bu parsellerin anlamı (en azından lineer modeller için) CV'deki çeşitli iş parçacıklarında öğrenilebilir (örneğin: Artıklar - Fitted ; çeşitli yerlerdeki qq-araziler: 1 , 2 , 3 ; Ölçek-Konum ; Artıklar) vs Kaldıraç ). Bununla birlikte, söz konusu model bir lojistik regresyon olduğunda, bu yorumlar genellikle geçerli değildir.
Daha spesifik olarak, grafikler genellikle 'komik görünecek' ve insanları modelin tamamen iyi olduğu durumlarda yanlış bir şey olduğuna inanmaya yönlendirecektir. Bunu, modelin doğru olduğunu bildiğimiz birkaç basit simülasyonlu parsellere bakarak görebiliriz:
# we'll need this function to generate the Y data:
lo2p = function(lo){ exp(lo)/(1+exp(lo)) }
set.seed(10) # this makes the simulation exactly reproducible
x = runif(20, min=0, max=10) # the X data are uniformly distributed from 0 to 10
lo = -3 + .7*x # this is the true data generating process
p = lo2p(lo) # here I convert the log odds to probabilities
y = rbinom(20, size=1, prob=p) # this generates the Y data
mod = glm(y~x, family=binomial) # here I fit the model
summary(mod) # the model captures the DGP very well & has no
# ... # obvious problems:
# Deviance Residuals:
# Min 1Q Median 3Q Max
# -1.76225 -0.85236 -0.05011 0.83786 1.59393
#
# Coefficients:
# Estimate Std. Error z value Pr(>|z|)
# (Intercept) -2.7370 1.4062 -1.946 0.0516 .
# x 0.6799 0.3261 2.085 0.0371 *
# ...
#
# Null deviance: 27.726 on 19 degrees of freedom
# Residual deviance: 21.236 on 18 degrees of freedom
# AIC: 25.236
#
# Number of Fisher Scoring iterations: 4
Şimdi bizden aldığımız arazilere bakalım plot.lm()
:
Hem Residuals vs Fitted
ve Scale-Location
model ile sorunlar var gibi araziler bakmak, ama herhangi değildir hani. Doğrusal modeller için tasarlanan bu alanlar, lojistik regresyon modeliyle kullanıldığında genellikle yanıltıcıdır.
Başka bir örneğe bakalım:
set.seed(10)
x2 = rep(c(1:4), each=40) # X is a factor with 4 levels
lo = -3 + .7*x2
p = lo2p(lo)
y = rbinom(160, size=1, prob=p)
mod = glm(y~as.factor(x2), family=binomial)
summary(mod) # again, everything looks good:
# ...
# Deviance Residuals:
# Min 1Q Median 3Q Max
# -1.0108 -0.8446 -0.3949 -0.2250 2.7162
#
# Coefficients:
# Estimate Std. Error z value Pr(>|z|)
# (Intercept) -3.664 1.013 -3.618 0.000297 ***
# as.factor(x2)2 1.151 1.177 0.978 0.328125
# as.factor(x2)3 2.816 1.070 2.632 0.008481 **
# as.factor(x2)4 3.258 1.063 3.065 0.002175 **
# ...
#
# Null deviance: 160.13 on 159 degrees of freedom
# Residual deviance: 133.37 on 156 degrees of freedom
# AIC: 141.37
#
# Number of Fisher Scoring iterations: 6
Şimdi bütün araziler garip görünüyor.
Peki bu araziler size ne gösteriyor?
Residuals vs Fitted
Eğer cevapsız eğrisel eğilimler varsa arsa, örneğin, görmenize yardımcı olabilir. Fakat bir lojistik regresyonun uyumu doğası gereği eğriseldir, bu nedenle artıklarda hiçbir şey yanlış olmadan garip görünen trendler yaşayabilirsiniz. Normal Q-Q
Arsa sizin kalıntılar normal dağıtılır eğer algılanmasına yardımcı olur. Fakat sapma artıklarının normalde modelin geçerli olması için dağıtılması gerekmediğinden, artıkların normalliği / normal olmaması size bir şey söylemeyebilir. Scale-Location
Arsa sen heteroskedastisiyi belirlemenize yardımcı olabilir. Fakat lojistik regresyon modelleri doğası gereği heteroscedastiktir. Residuals vs Leverage
olası aykırı değerleri belirlemenize yardımcı olabilir. Ancak lojistik regresyondaki aykırı değerler, doğrusal regresyondakiyle aynı şekilde ortaya çıkmaz, bu nedenle bu arsa onları tanımlamakta yardımcı olabilir veya olmayabilir. Buradaki basit eve götürme dersi, bu alanların lojistik regresyon modelinizde neler olup bittiğini anlamanıza yardımcı olmak için kullanımı çok zor olabilir. Lojistik regresyon uygularken insanların, bu alanlara hiç bakmamaları, muhtemelen uzmanlığa sahip olmadıkları sürece en iyisidir.
Benzer şekilde birçok yönden olduğu gibi regresyon varsayımları hakkında daha fazla bilgi edinin (örn. Burada veya burada R'deki regresyonla ilgili öğretici ).