Her şey parametreleri nasıl tahmin ettiğinize bağlıdır . Genellikle, tahmin ediciler doğrusaldır, bu da artıkların verilerin doğrusal işlevleri olduğunu gösterir. Hatalar zaman bir normal dağılıma sahip, o zaman veri yaramaz, yani artıklar yapmak nereden u i ( i tabii indeksleri veri vakası).ubenu^benben
Kalanlar yaklaşık Normal (tek değişkenli) bir dağılıma sahip gibi göründüğünde, bunun Normal olmayan hata dağılımlarından kaynaklandığı düşünülebilir (ve mantıksal olarak mümkündür) . Bununla birlikte, en küçük kareler (veya maksimum olasılık) tahmin teknikleri ile, artıkların hesaplanması için doğrusal dönüşüm, artıkların (çok değişkenli) dağılımının karakteristik fonksiyonunun hataların cf'sinden çok farklı olamayacağı anlamında "hafif" tir. .
Uygulamada, asla hataların tam olarak normal olarak dağıtılmasına ihtiyacımız yoktur, bu yüzden bu önemsiz bir konudur. Hatalar için çok daha büyük bir ithalat, (1) beklentilerinin sıfıra yakın olması; (2) korelasyonları düşük olmalıdır; ve (3) kabul edilebilir derecede az sayıda dış değer olmalıdır. Bunları kontrol etmek için, artıklara çeşitli uyum iyiliği testleri, korelasyon testleri ve aykırı değerlerin (sırasıyla) testleri uygulanır. Dikkatli regresyon modellemesi her zaman bu tür testleri çalıştırmayı içerir ( plot
bir lm
sınıfa uygulandığında R'nin yöntemi ile otomatik olarak sağlananlar gibi artıkların çeşitli grafiksel görselleştirmelerini içerir ).
Bu soruya ulaşmanın bir başka yolu , varsayılmış modelden simüle etmektir. İşte R
işi yapmak için bazı (minimal, bir kerelik) kodlar:
# Simulate y = b0 + b1*x + u and draw a normal probability plot of the residuals.
# (b0=1, b1=2, u ~ Normal(0,1) are hard-coded for this example.)
f<-function(n) { # n is the amount of data to simulate
x <- 1:n; y <- 1 + 2*x + rnorm(n);
model<-lm(y ~ x);
lines(qnorm(((1:n) - 1/2)/n), y=sort(model$residuals), col="gray")
}
#
# Apply the simulation repeatedly to see what's happening in the long run.
#
n <- 6 # Specify the number of points to be in each simulated dataset
plot(qnorm(((1:n) - 1/2)/n), seq(from=-3,to=3, length.out=n),
type="n", xlab="x", ylab="Residual") # Create an empty plot
out <- replicate(99, f(n)) # Overlay lots of probability plots
abline(a=0, b=1, col="blue") # Draw the reference line y=x
N = 32 vakası için, 99 set artıktan oluşan bu overlaid olasılık grafiği, hata dağılımına yakın olma eğiliminde olduğunu gösterir (standart normaldir), çünkü referans hattına eşit şekilde ayrılırlar :y= x
Durum n = 6 için, olasılık grafiklerindeki daha küçük medyan eğim, artıkların hatalardan biraz daha küçük bir varyansa sahip olduğunu ima eder, ancak genel olarak normal olarak dağılma eğilimi gösterirler, çünkü çoğu referans çizgisini yeterince iyi izler (verilen küçük değeri ):n