Kalıntıların ve arsa değerlerinin Poisson regresyonuna göre yorumlanması


25

Verilerimi R'de bir GLM (poisson regresyon) ile uydurmaya çalışıyorum. Artıkları ve takılan değerleri çizdiğimde, arsa çoklu (neredeyse hafif içbükey bir eğri ile doğrusal) "çizgiler" yarattı. Ne anlama geliyor?

library(faraway)
modl <- glm(doctorco ~ sex + age + agesq + income + levyplus + freepoor + 
            freerepa + illness + actdays + hscore + chcond1 + chcond2,
            family=poisson, data=dvisits)
plot(modl)

görüntü tanımını buraya girin


Grafiği yükleyip yükleyemeyeceğinizi bilmiyorum (bazen yeni gelenler yapamaz), ancak değilse, insanların değerlendirebilmesi için en azından sorunuza bir miktar veri ve R kodu ekleyebilir misiniz?
dediklerinin - Eski Monica

Jocelyn, gönderinizi yorum yazdığınız bilgilerle güncelledim. Bunu homeworkbir görev hakkında konuştuğundan beri de etiketledim .
chl

Grafiğin biraz daha okunabilir olup olmadığını görmek için arsa (jitter (mod1)) deneyin. Neden artıkları bizim için tanımlamıyorsunuz ve grafiği kendiniz yorumlarken bize en iyi tahmininizi yapmıyorsunuz.
Michael Bishop,

1
Asıl soru, Poisson dağılımını & Pois reg’i anladığınızı ve ne kadar arta kalan değer veya bir arsa değerinin size anlattığını (yanlışsa güncelleyin) anladığınızı varsayacağım. arsada. B / c bu bir ev ödevi, genel politikamız olarak cevap vermiyoruz, ancak ipuçlarını verelim. Çok sayıda ortak değişkeniniz olduğunu fark ettim, merak ediyorum 1 sürekli ve çok sayıda ikili değişken var mı?
dediklerinin - Eski Monica

1
Gung'un yorumundan iki takip. İlk önce dene table(dvisits$doctorco). Arsadaki 10 eğri çizginin bu tablodaki karşılığı nedir? Ayrıca, 5000 gözlemden fazla olduğunda, 13 regresyon katsayısı takma konusunda çok fazla endişelenmeyin.
misafir

Yanıtlar:


29

Bu, bağımlı değişken ayrık olduğunda böyle bir komplodan beklediğiniz görünümdür.

kyy=ky^ky^ky^y^1log(y^)ky

Benzer fakat rastgele bir modelle (küçük rastgele katsayılar kullanarak) söz konusu arsayı oldukça yakından çoğaltabiliriz :

# Create random data for a random model.
set.seed(17)
n <- 2^12                       # Number of cases
k <- 12                         # Number of variables
beta = rnorm(k, sd=0.2)         # Model coefficients
x <- matrix(rnorm(n*k), ncol=k) # Independent values
y <- rpois(n, lambda=exp(-0.5 + x %*% beta + 0.1*rnorm(n)))

# Wrap the data into a data frame, create a formula, and run the model.
df <- data.frame(cbind(y,x))    
s.formula <- apply(matrix(1:k, nrow=1), 1, function(i) paste("V", i+1, sep=""))
s.formula <- paste("y ~", paste(s.formula, collapse="+"))
modl <- glm(as.formula(s.formula), family=poisson, data=df)

# Construct a residual vs. prediction plot.
b <- coefficients(modl)
y.hat <- x %*% b[-1] + b[1]     # *Logs* of the predicted values
y.res <- y - exp(y.hat)         # Residuals
colors <- 1:(max(y)+1)          # One color for each possible value of y
plot(y.hat, y.res, col=colors[y+1], main="Residuals v. Fitted")

Kalıntı vs takılı


6
(+1) Renk, neler olduğunu göstermede çok uzun bir yol gider.
kardinal

Öyleyse yukarıdaki arsa ilgili mi? Metinler (Biyomedikal Araştırmacılar İçin İstatistiksel Modelleme: Kompleks Verilerin Analizine Basit Bir Giriş, Dupont, 2002, s. 316, örn.) Takılan ve kalan arsaların sıfır kalıntı çizgisi etrafında merkezlenmesi gerektiğini (ya da ham ise artıklar) veya değil (eğer sapma, örneğin). Sonuç değişkeninde sınırlı sayıda sayımla, bu bantları elde edersiniz ve yukarıdaki grafikte olduğu gibi, y = 0'daki çizgi etrafında merkezlenmezler. OP'nin artık grafiğini (veya örnek grafiği) nasıl biliyoruz? Bu cevapta yapılanlar) modelin verilere uygun olduğunu gösterir?
Meg,

1
@Meg Bu tavsiye doğrudan bir GLM'nin kalıntıları için geçerli değildir. Bu cevabı açıklamak için kullanılan modelin doğru olduğu bilinmektedir, çünkü verileri üretmek için kullanılan modeldir.
whuber

1/2: Teşekkürler @whuber. Bu cevabı anlıyorum, veriler belirli bir dağıtımdan simüle edildiğinden modelin doğru olduğu biliniyor, ancak pratikte bilinmiyor (OP'nin görevinde olduğu gibi). Ayrıca, ne artıklar hakkında yazdığı gelmez POI regresyon (tüm GLMs, hayır, ama bu bir) uygulanır - verdiğim referans özellikle POI regresyon tartışıyordu. Sadece metinlerin y = 0 merkezli standart POI kalıntıları (Pearson veya sapma, örneğin) gösterdiğini gördüm, bu yüzden ne aramam gerektiğinden emin değilim, çünkü bu model için (açıkça doğru) bunun gibi değil.
Meg,

2/2: İÇN artıklarını daha ayrıntılı bir şekilde tartışan bir referansa sahip misiniz?
Meg,

8

Bazen artık grafiklerdeki gibi çizgiler, farklı tahminler alan (neredeyse) aynı gözlenen değerlere sahip noktaları temsil eder. Hedef değerinize bakın: kaç tane benzersiz değer var? Önerim doğruysa, egzersiz veri setinizde 9 benzersiz değer bulunmalıdır.


1
0,1,,9

-3

Bu örüntü, ailenin ve / veya bağlantının yanlış eşleşmesinin karakteristiğidir. Çok fazla veri dağıtmışsanız, o zaman belki negatif binom (count) veya gamma (sürekli) dağılımlarını göz önünde bulundurmalısınız. Ayrıca, artıklarınızı genelleştirilmiş doğrusal modeller kullanırken öngörücülere değil, dönüştürülmüş doğrusal öngörücüye karşı çizmelisiniz. Poisson tahmincisini dönüştürmek için, lineer tahmin edicinin karekökünün 2 katını almanız ve artıklarınızı buna karşı çizmeniz gerekir. Artıklar daha fazla mümkünse pearson artıkları olmamalı, sapma kalıntılarını denemeli ve öğrenci artıkları olmamalıdır.


3
Poisson ailesinin bir glm'deki kanonik bağı log olduğunda neden karekökün 2 katı? Doğrusal öngörücünün exp () olması gerekmez mi? Ancak, artıkları doğrusal kestiricinin kendisine karşı komplo kurmakla ilgili problemin ne olduğunu görmüyorum, burada ne yapıldığını düşünüyorum - belki de bunu genişletebilirsiniz.
Peter Ellis

“Desenin” hangi yönünü dikkatinizi muhtemel bir model yanlış spesifikasyonuna çekeceğini açıklar mısınız, Ryan? İnce bir şey gibi görünüyor, ancak potansiyel olarak önemli bir içgörü.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.