Bu nedenle, hata teriminin Normal olarak dağıtıldığını varsayarsak, bu yanıtın da Normal olarak dağıtıldığı anlamına gelmez mi?
Uzaktan bile değil. Bunu hatırlamamın yolu, artıkların modelin deterministik kısmına normal şartlı olmasıdır . İşte pratikte neye benzediğini gösteren bir gösteri.
Bazı verileri rastgele oluşturarak başlıyorum. Sonra öngörücülerin doğrusal bir işlevi olan bir sonuç tanımlarım ve bir model tahmin ederim.
N <- 100
x1 <- rbeta(N, shape1=2, shape2=10)
x2 <- rbeta(N, shape1=10, shape2=2)
x <- c(x1,x2)
plot(density(x, from=0, to=1))
y <- 1+10*x+rnorm(2*N, sd=1)
model<-lm(y~x)
Şimdi bu artıkların neye benzediğine bakalım. Sonucun beri normalde, dağıtılması gerekmektedir şüpheli y
istatistiksel bağımsız, normal gürültü kendisine eklenmiş vardı. Gerçekten de durum böyle.
plot(density(model$residuals), main="Model residuals", lwd=2)
s <- seq(-5,20, len=1000)
lines(s, dnorm(s), col="red")
plot(density(y), main="KDE of y", lwd=2)
lines(s, dnorm(s, mean=mean(y), sd=sd(y)), col="red")
Bununla birlikte, y'nin dağılımını kontrol ederken, bunun kesinlikle normal olmadığını görebiliriz! Yoğunluk fonksiyonunu aynı ortalama ve varyansla kapladım y
, ama açıkçası korkunç bir uyum!
Bunun bu durumda olmasının nedeni, giriş verilerinin uzaktan normal olmamasıdır. Bu regresyon modeli hakkında hiçbir şey, bağımsız değişkente değil, bağımlı değişkente değil, artıklar hariç normallik gerektirmez.