Lineer regresyonda artıkların dağılımının doğrulanması


17

Diyelim ki basit bir doğrusal regresyon , artıkları kaydettik ve artıkların dağılımı için bir histogram çizin. Tanıdık bir dağıtım gibi görünen bir şey alırsak, hata teriminin bu dağıtımda olduğunu varsayabilir miyiz? Diyelim ki, artıkların normal dağılıma benzediğini tespit edersek, popülasyonda hata teriminin normalliğini varsaymak mantıklı geliyor mu? Bence mantıklı, ama nasıl haklı gösterilebilir?^ u iy=β0+β1x+uuben^


1
Şahsen bir histogramdan (veya bir çekirdek yoğunluk grafiğinden) normalliği değerlendirmeyi oldukça zor buluyorum. Asla "nihai" bir kanıt olarak onlara güvenmem. QQ grafikleri bu amaç için çok daha güçlüdür.

Yanıtlar:


18

Her şey parametreleri nasıl tahmin ettiğinize bağlıdır . Genellikle, tahmin ediciler doğrusaldır, bu da artıkların verilerin doğrusal işlevleri olduğunu gösterir. Hatalar zaman bir normal dağılıma sahip, o zaman veri yaramaz, yani artıklar yapmak nereden u i ( i tabii indeksleri veri vakası).ubenu^benben

Kalanlar yaklaşık Normal (tek değişkenli) bir dağılıma sahip gibi göründüğünde, bunun Normal olmayan hata dağılımlarından kaynaklandığı düşünülebilir (ve mantıksal olarak mümkündür) . Bununla birlikte, en küçük kareler (veya maksimum olasılık) tahmin teknikleri ile, artıkların hesaplanması için doğrusal dönüşüm, artıkların (çok değişkenli) dağılımının karakteristik fonksiyonunun hataların cf'sinden çok farklı olamayacağı anlamında "hafif" tir. .

Uygulamada, asla hataların tam olarak normal olarak dağıtılmasına ihtiyacımız yoktur, bu yüzden bu önemsiz bir konudur. Hatalar için çok daha büyük bir ithalat, (1) beklentilerinin sıfıra yakın olması; (2) korelasyonları düşük olmalıdır; ve (3) kabul edilebilir derecede az sayıda dış değer olmalıdır. Bunları kontrol etmek için, artıklara çeşitli uyum iyiliği testleri, korelasyon testleri ve aykırı değerlerin (sırasıyla) testleri uygulanır. Dikkatli regresyon modellemesi her zaman bu tür testleri çalıştırmayı içerir ( plotbir lmsınıfa uygulandığında R'nin yöntemi ile otomatik olarak sağlananlar gibi artıkların çeşitli grafiksel görselleştirmelerini içerir ).

Bu soruya ulaşmanın bir başka yolu , varsayılmış modelden simüle etmektir. İşte Rişi yapmak için bazı (minimal, bir kerelik) kodlar:

# Simulate y = b0 + b1*x + u and draw a normal probability plot of the residuals.
# (b0=1, b1=2, u ~ Normal(0,1) are hard-coded for this example.)
f<-function(n) { # n is the amount of data to simulate
    x <- 1:n; y <- 1 + 2*x + rnorm(n); 
    model<-lm(y ~ x); 
    lines(qnorm(((1:n) - 1/2)/n), y=sort(model$residuals), col="gray")
}
#
# Apply the simulation repeatedly to see what's happening in the long run.
#
n <- 6    # Specify the number of points to be in each simulated dataset
plot(qnorm(((1:n) - 1/2)/n), seq(from=-3,to=3, length.out=n), 
    type="n", xlab="x", ylab="Residual") # Create an empty plot
out <- replicate(99, f(n))               # Overlay lots of probability plots
abline(a=0, b=1, col="blue")             # Draw the reference line y=x

N = 32 vakası için, 99 set artıktan oluşan bu overlaid olasılık grafiği, hata dağılımına yakın olma eğiliminde olduğunu gösterir (standart normaldir), çünkü referans hattına eşit şekilde ayrılırlar :y=x

N = 32 için şekil

Durum n = 6 için, olasılık grafiklerindeki daha küçük medyan eğim, artıkların hatalardan biraz daha küçük bir varyansa sahip olduğunu ima eder, ancak genel olarak normal olarak dağılma eğilimi gösterirler, çünkü çoğu referans çizgisini yeterince iyi izler (verilen küçük değeri ):n

N = 6 için şekil


verilerinizi oluştururken rexp(n)yerine sözler eklerseniz işler daha ilginç olur rnorm(n). Artıkların dağılımı, WAY'ı düşündüğünüzden normale yaklaştırır.
StasK

Ancak artıkların normal olduğunu varsaymazsak, elde edilen tahmini katsayıların p değeri nasıl hesaplanır? Test istatistikleri nedir?
Ant

5

yben=xben'β+εben
y=Xβ+ε
e=(ben-'H)y
'H=X(X'X)-1X'
eben(1hii)ϵihijϵj,jijihij2+hii2=hiiO(1/n) ϵiei(1hii)ϵi

1

Tanıdık bir dağıtım gibi görünen bir şey alırsak, hata teriminin bu dağıtımda olduğunu varsayabilir miyiz?

Hatalarla ilgili normalite varsayımı geçerli değilse, sadece uygun olduğunuz model geçersiz olduğundan, yapamayacağınızı iddia ediyorum. (dağılımın şeklinin Cauchy vb.Gibi belirgin bir şekilde normal olmadığı anlamında)

Fe Poisson dağıtılmış hataları varsaymak yerine, olağan yaklaşım, artıkları normalleştirmek için log y veya 1 / y gibi bir tür veri dönüşümü yapmaktır. (gerçek model doğrusal olmayabilir, bu da çizilen artıkların normal olmasına rağmen garip bir şekilde dağılmasını sağlar)

Diyelim ki, artıkların normal dağılıma benzediğini tespit edersek, popülasyonda hata teriminin normalliğini varsaymak mantıklı geliyor mu?

Bir OLS regresyonuna uyduktan sonra hataların normalliğini varsaydınız. Bu iddia için argüman sunmanız gerekip gerekmediği, çalışmanızın türüne ve seviyesine bağlıdır. (genellikle sahada kabul edilen uygulamanın ne olduğuna bakmak yararlıdır)

Artık, artıklar normal olarak dağılmış gibi görünüyorsa, önceki varsayımlarınızın ampirik bir kanıtı olarak kullanabileceğiniz için kendinizi arkada evcilleştirebilirsiniz. :)


0

Evet mantıklı. Kalanlar hatalardır. Ayrıca normal bir QQ grafiğine de bakabilirsiniz.


Evet, doğru, "ama nasıl doğrulanabilir?" Bize ampirik dağılımınu^ben yaklaşık olarak u?
whuber

7
Bu bilgiçliktir, ancak artıklar hata değildir. Kalıntılar, tahmin edilen modelden gözlemlenen farklardır,yben-xbenβ^. Hatalar gerçek modelden farklardıryben-xbenβ.
Makro

@whuber: Ne olduğunu bilmiyorum, ancak örneklemi haklı çıkartan şeyin aynı olduğunu varsayıyorum x nüfusa yaklaşmak X, sağ?
Wayne

1
@Wayne, artıkların normal dağılıma benzediğini fark edersek, "bu" prosedüre atıfta bulunduğuna inanıyorum ... ... popülasyondaki hata terimlerinin normalliğini üstlenmek. " Ben temelde haklı olduğunu düşünüyorum, ama incelik artıkları numunenin hem bir ürünü olmasıdır ve parametrelerin tahmin edilmesinde kullanılan yönteme. Bunun düşünceli ve ilginç bir soru olduğunu düşünüyorum.
whuber

@whuber Ben öğrencilere karşı standartlaştırılmış ve ham artıklara karşı ilginizi çeker.
Michelle
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.