Neden lineer regresyon rezidüel, ancak genelleştirilmiş lineer modelde varsayım vardır?


14

Neden doğrusal regresyon ve Genelleştirilmiş Model tutarsız varsayımlara sahiptir?

  • Doğrusal regresyonda artık Gauss'tan gelir
  • Diğer regresyonlarda (lojistik regresyon, zehir regresyonu), bazı dağılımlardan (binom, zehir vb.) Yanıt geldiğini varsayıyoruz .

Neden bazen kalan ve diğer zamanın yanıt aldığını varsayıyoruz? Farklı özellikler elde etmek istediğimiz için mi?


EDIT: mark999's iki form eşit olduğunu düşünüyorum. Ancak, iid hakkında ek bir şüphem var:

Diğer sorularım, Lojistik regresyon konusunda varsayım var mı? genelleştirilmiş doğrusal modelin iid varsayımı olmadığını gösterir (bağımsız fakat özdeş değil)

Doğrusal regresyon için, artık üzerinde varsayım yaparsak, iidimiz olacak, ancak yanıt üzerinde varsayım yaparsak, bağımsız fakat özdeş olmayan örneklere sahip olacağız (farklı ile farklı Gaussian ) olacak mı?μ


Yanıtlar:


12

Gauss hatalarına sahip basit doğrusal regresyon, genelleştirilmiş doğrusal modellere genelleme yapmayan çok hoş bir özelliktir.

Genelleştirilmiş doğrusal modellerde, cevap ortalama verilen bazı dağılımları takip eder . Doğrusal regresyon bu paterni izler; Eğer sahipsek

yi=β0+β1xi+ϵi

ileϵiN(0,σ)

o zaman bizde

yiN(β0+β1xi,σ)

Tamam, bu yüzden cevap genelleştirilmiş doğrusal modeller için verilen dağılımı takip eder, ancak doğrusal regresyon için artıkların bir Gauss dağılımını takip etmesine de sahibiz. Genel kural olmadığında artıkların normal olduğu neden vurgulanmaktadır? Çünkü çok daha kullanışlı bir kural. Kalıntıların normalliği hakkında düşünmenin güzel yanı, bunun incelenmesi çok daha kolay. Tahmini araçları çıkarırsak, tüm artıklar kabaca aynı varyansa ve kabaca aynı ortalamaya (0) sahip olmalı ve kabaca normal olarak dağıtılacaktır (not: "kabaca" diyorum çünkü eğer regresyon parametreleri, tabii ki biz değil,ϵix . Ama umarım tahminlerde bunun cahil olduğu yeterince kesindir!).

Öte yandan, düzeltilmemiş ' bakarak, eğer hepsinin farklı araçları varsa normal olduklarını gerçekten söyleyemeyiz. Örneğin, aşağıdaki modeli düşünün:yi

yi=0+2×xi+ϵi

ile veϵiN(0,0.2)xiBernoulli(p=0.5)

Sonrayi

İşte açıklamak için bazı Rkod.

x <- rbinom(1000, size = 1, prob = 0.5)
y <- 2 * x + rnorm(1000, sd = 0.2)
fit <- lm(y ~ x)
resids <- residuals(fit)
par(mfrow = c(1,2))
hist(y, main = 'Distribution of Responses')
hist(resids, main = 'Distribution of Residuals')

histogramlar


yi=1+2×xi+ϵi

3
@ hxd1011: evet, bu x verilen marjinal dağılım (açıkça normal değil) ve koşullu dağılım arasındaki farktır (simüle ettiğimizden beri normal olduğunu biliyoruz!). Koşullu ve marjinal dağılımlar arasındaki farkı düşünmemek son derece yaygın bir hatadır.
Cliff AB

14

i=1,,n

Yi=β0+β1Xi1++βkXik+ϵi,
ϵiσ2Xi1,,XikYiβ0+β1Xi1++βkXikσ2

Xi1,,Xikβ0+β1Xi1++βkXik

Normal hatalara sahip olağan çoklu doğrusal regresyon modeli, normal tepki ve kimlik bağlantısına sahip genelleştirilmiş doğrusal bir modeldir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.