Arsa Yorumlanması (glm.model)


30

Birisi bana 'takılanlara karşı kalan artıklar', 'normal q-q', 'ölçek yeri' ve 'kaldıraçlara karşı kaldıraç' alanlarını nasıl yorumlayabileceğimi söyleyebilir mi? Binom bir GLM takıyorum, tasarruf ediyorum ve sonra çiziyorum.


4
Düzenli bir doğrusal regresyon ile uğraşırken bu parselleri nasıl yorumlayacağınızı biliyor musunuz? Çünkü bu senin başlangıç ​​noktan olmalı.
Steve S

Yanıtlar:


55

Rbelirgin bir plot.glm()metoda sahip değil . Bir model takıpglm() çalıştırdığınızda plot(), doğrusal modeller için uygun (yani normal dağılmış bir hata terimiyle) ? Plot.lm çağırır .

Genel olarak, bu parsellerin anlamı (en azından lineer modeller için) CV'deki çeşitli iş parçacıklarında öğrenilebilir (örneğin: Artıklar - Fitted ; çeşitli yerlerdeki qq-araziler: 1 , 2 , 3 ; Ölçek-Konum ; Artıklar) vs Kaldıraç ). Bununla birlikte, söz konusu model bir lojistik regresyon olduğunda, bu yorumlar genellikle geçerli değildir.

Daha spesifik olarak, grafikler genellikle 'komik görünecek' ve insanları modelin tamamen iyi olduğu durumlarda yanlış bir şey olduğuna inanmaya yönlendirecektir. Bunu, modelin doğru olduğunu bildiğimiz birkaç basit simülasyonlu parsellere bakarak görebiliriz:

  # we'll need this function to generate the Y data:
lo2p = function(lo){ exp(lo)/(1+exp(lo)) }

set.seed(10)                    # this makes the simulation exactly reproducible
x  = runif(20, min=0, max=10)   # the X data are uniformly distributed from 0 to 10
lo = -3 + .7*x                  # this is the true data generating process
p  = lo2p(lo)                   # here I convert the log odds to probabilities
y  = rbinom(20, size=1, prob=p) # this generates the Y data

mod = glm(y~x, family=binomial) # here I fit the model
summary(mod)                    # the model captures the DGP very well & has no
# ...                           #  obvious problems:
# Deviance Residuals: 
#      Min        1Q    Median        3Q       Max  
# -1.76225  -0.85236  -0.05011   0.83786   1.59393  
# 
# Coefficients:
#             Estimate Std. Error z value Pr(>|z|)  
# (Intercept)  -2.7370     1.4062  -1.946   0.0516 .
# x             0.6799     0.3261   2.085   0.0371 *
# ...
# 
# Null deviance: 27.726  on 19  degrees of freedom
# Residual deviance: 21.236  on 18  degrees of freedom
# AIC: 25.236
# 
# Number of Fisher Scoring iterations: 4

Şimdi bizden aldığımız arazilere bakalım plot.lm():

görüntü tanımını buraya girin

Hem Residuals vs Fittedve Scale-Locationmodel ile sorunlar var gibi araziler bakmak, ama herhangi değildir hani. Doğrusal modeller için tasarlanan bu alanlar, lojistik regresyon modeliyle kullanıldığında genellikle yanıltıcıdır.

Başka bir örneğe bakalım:

set.seed(10)
x2 = rep(c(1:4), each=40)                    # X is a factor with 4 levels
lo = -3 + .7*x2
p  = lo2p(lo)
y  = rbinom(160, size=1, prob=p)

mod = glm(y~as.factor(x2), family=binomial)
summary(mod)                                 # again, everything looks good:
# ...
# Deviance Residuals: 
#   Min       1Q   Median       3Q      Max  
# -1.0108  -0.8446  -0.3949  -0.2250   2.7162  
# 
# Coefficients:
#                Estimate Std. Error z value Pr(>|z|)    
# (Intercept)      -3.664      1.013  -3.618 0.000297 ***
# as.factor(x2)2    1.151      1.177   0.978 0.328125    
# as.factor(x2)3    2.816      1.070   2.632 0.008481 ** 
# as.factor(x2)4    3.258      1.063   3.065 0.002175 ** 
# ... 
# 
# Null deviance: 160.13  on 159  degrees of freedom
# Residual deviance: 133.37  on 156  degrees of freedom
# AIC: 141.37
# 
# Number of Fisher Scoring iterations: 6

görüntü tanımını buraya girin

Şimdi bütün araziler garip görünüyor.

Peki bu araziler size ne gösteriyor?

  • Residuals vs FittedEğer cevapsız eğrisel eğilimler varsa arsa, örneğin, görmenize yardımcı olabilir. Fakat bir lojistik regresyonun uyumu doğası gereği eğriseldir, bu nedenle artıklarda hiçbir şey yanlış olmadan garip görünen trendler yaşayabilirsiniz.
  • Normal Q-QArsa sizin kalıntılar normal dağıtılır eğer algılanmasına yardımcı olur. Fakat sapma artıklarının normalde modelin geçerli olması için dağıtılması gerekmediğinden, artıkların normalliği / normal olmaması size bir şey söylemeyebilir.
  • Scale-LocationArsa sen heteroskedastisiyi belirlemenize yardımcı olabilir. Fakat lojistik regresyon modelleri doğası gereği heteroscedastiktir.
  • Bu Residuals vs Leverageolası aykırı değerleri belirlemenize yardımcı olabilir. Ancak lojistik regresyondaki aykırı değerler, doğrusal regresyondakiyle aynı şekilde ortaya çıkmaz, bu nedenle bu arsa onları tanımlamakta yardımcı olabilir veya olmayabilir.

Buradaki basit eve götürme dersi, bu alanların lojistik regresyon modelinizde neler olup bittiğini anlamanıza yardımcı olmak için kullanımı çok zor olabilir. Lojistik regresyon uygularken insanların, bu alanlara hiç bakmamaları, muhtemelen uzmanlığa sahip olmadıkları sürece en iyisidir.


5
İyi keder bu inanılmaz bir cevaptır.
d8aninja 10:15

@gung Lütfen glm ise ne yapabiliriz diyebilir misiniz? QQ, Residual vs Fitted alternatif var mı? Örneğin, GLM'ye bir poisson bağlantısı çizdim, ancak uygun olup olmadığını nasıl analiz edeceğimi bilmiyorum
GRS

2
@GRS, bunu okumayı deneyin .
gung - Monica

@ Tüm cevaplarınız detaylı ve net. Bu site de dahil olmak üzere birden fazla kaynaktan okumaktan başka, bir veya iki iyi kitabı / siteyi teşhis alanlarını anlamada 'önemli uzmanlık' elde etmek için başvurabilir misiniz? Yalnızca uygulama ve deneyim ile elde edebileceğimiz az sayıda yeteneğin olduğunu biliyorum, ancak ayrıntılarını derinlemesine anlatan herhangi bir kitap / web sitesi başvurabilirseniz, çok yardımcı olacaktır.
Dr Nisha Arora

@DrNishaArora, gerçekten farkında değilim. Orada bazı kitaplar LR alakalı, ancak belirtilen nedenlerle, bu araziler üzerinde fazla zaman harcamak gidiş değildir.
gung - Monica'yı yeniden yerleştir

0
  1. Takılan kalıntılar vs - güçlü örüntüler olmamalıdır (hafif örüntüler sorun değildir, bakınız @ gung cevabı) ve aykırı değerler olmamalıdır, kalıntılar rastgele sıfıra dağıtılmalıdır.
  2. Normal QQ - artıklar köşegen çizgiyi aşmalı, yani normal şekilde dağıtılmalıdır ( QQ grafiği için wiki'ye bakınız ). Bu çizim, normal olup olmadıklarının kontrol edilmesine yardımcı olur.
  3. Ölçek konumu - Görebileceğiniz gibi, Y ekseninde de artıklar vardır (Artıklar vs takılan arsada olduğu gibi), ancak ölçeklenirler, bu yüzden (1) 'e benzer, ancak bazı durumlarda daha iyi çalışır.
  4. Kalanlar - Kaldıraç - Kaldıraç - dışarıdaki vakaların teşhisine yardımcı olur. Önceki grafiklerde olduğu gibi, dıştaki vakalar numaralandırılmıştır, ancak bu arsa üzerinde , verilerin geri kalanından çok farklı olan herhangi bir durum varsa, bunlar ince kırmızı çizgilerin altında gösterilir ( Cook'un mesafesindeki wiki'yi kontrol edin ).

Benzer şekilde birçok yönden olduğu gibi regresyon varsayımları hakkında daha fazla bilgi edinin (örn. Burada veya burada R'deki regresyonla ilgili öğretici ).


2
Bu cevap, glm bağlamında yanlıştır, yukarıdaki cevapta, @gung tarafından ortaya konan, yanlıştır. Bu sorunun cevabını arıyorsanız, BU SORUMLUSU IGNORE. Bu cevabın yazarıysanız, yukarıdaki cevabı gung ile kontrol ediniz. Kabul ediyorsanız, yanıltıcı olduğu için bu yanıtı silmeyi düşünmelisiniz.
colin

@colin, bu cevapta sizce tam olarak neyin yanlış olduğunu yorumlamak ister misiniz? Madenle ikinci cevap arasındaki tek fark, dişlinin daha fazla ayrıntıya girdiği ...
Tim

3
Bu parsellerin doğrusal regresyon bağlamında nasıl kullanılması gerektiğini açıklarsınız. gung, bu yorumların neden bu durumda başarısız olduğunu açıklar, çünkü bir binom glm modeline uygulanırlar. Bu nedenle, bir kullanıcı bu tanılama alanlarını sizin önerdiğiniz şekilde yorumladıysa (ve önerileriniz bir lm durumunda yardımcı olacaktır), modelinin, gerçekte olmadığı zaman, glm varsayımlarını ihlal ettiği sonucuna varır.
colin

"Artıklar vs takılı kalıyor - kalıplar yok ve aykırı değerler olmamalı, artıklar rastgele 0'a dağıtılmalıdır." “Residuals vs Fitted arsa, örneğin, kaçırdığınız eğrisel trendler varsa, görmenize yardımcı olabilir. Ancak, lojistik bir regresyonun uyumu, doğaya göre eğriseldir, böylece artıklarda hiçbir şey olmayan garip görünen trendlere sahip olabilirsiniz. yanlış." ... biriniz yanlış olmalı.
colin

2
Kabul ediyorum, bu siyah beyaz değil, ancak güçlü trendlerin olduğu birçok örnek var, ancak belirtilen model spesifik glm'nin varsayımları altında tamamen uygun. Bu nedenle, “kalıplar ve aykırılıklar olmamalı, artıkların rastgele 0'a dağıtılması gerektiğini” belirtin. Bir model varsa, model varsayımlarını ihlal ettiğinizi kolayca yorumlayabilirsiniz. Durum bu değil.
colin,
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.