Kalanlar hata terimleri tahminlerimizdir
Bu sorunun kısa cevabı nispeten basittir: bir regresyon modelindeki varsayımlar, hata terimlerinin davranışı hakkındaki varsayımlardır ve artıklar hata terimleri tahminlerimizdir. Ipso facto , gözlemlenen artıkların davranışlarının incelenmesi, hata terimleriyle ilgili varsayımların makul olup olmadığını bize bildirir.
Bu genel muhakeme çizgisini daha ayrıntılı olarak anlamak için, artıkların standart bir regresyon modelindeki davranışlarını ayrıntılı olarak incelemeye yardımcı olur. Bağımsız homoskedastik normal hata terimlerine sahip standart bir çoklu doğrusal regresyon altında, artık vektörün dağılımı bilinmektedir, bu da regresyon modelindeki temel dağılım varsayımlarını test etmenizi sağlar. Temel fikir, artık vektörün regresyon varsayımları altındaki dağılımını anlamanız ve artık değerlerin bu teorik dağılımla makul bir şekilde eşleşip eşleşmediğini kontrol etmenizdir. Teorik kalıntı dağılımından sapmalar, hata terimlerinin altında yatan varsayılan dağılımın bir açıdan yanlış olduğunu göstermektedir.
Temel hata dağıtımını kullanıyorsanız ϵi∼IID N(0,σ2) standart bir regresyon modeli için ve katsayılar için OLS tahminini kullanırsanız, artıkların dağılımının çok değişkenli normal dağılım olduğu gösterilebilir:
r=(I−h)ϵ∼N(0,σ2(I−h)),
burada bir şapka matris regresyon için. Kalan vektör hata vektörünü taklit eder, ancak varyans matrisi ek çarpım terimi . Regresyon varsayımlarını test etmek için marjinal T dağılımına sahip olan öğrenci kalıntılarını kullanıyoruz:h=x(xTx)−1xTI−h
si≡riσ^Ext⋅(1−li)∼T(dfRes−1).
(Bu formül, varyans tahmincisinin göz önünde bulundurulan değişkeni hariç tuttuğu, dışarıdan . değerleri, şapka matrisindeki diyagonal değerler olan kaldıraç değerleridir . bağımsızdır, ancak büyükse bağımsızdır. Bu, marjinal dağılımın bilinen basit bir dağıtım olduğu, ancak eklem dağılımının karmaşık olduğu anlamına gelir.) Şimdi, sınır mevcutsa, katsayı tahmin edicilerinin gerçek regresyon katsayılarının tutarlı tahmin edicileri olduğu ve artıkların, gerçek hata terimleri.li=hi,inlimn→∞(xTx)/n=Δ
Esasen, bu, öğrenciye bırakılan artıkları T-dağılımıyla karşılaştırarak, temeldeki dağıtım varsayımlarını hata terimleri için test ettiğiniz anlamına gelir. Hata dağılımının altında yatan özelliklerin her biri (doğrusallık, homoskedastisite, ilişkisiz hatalar, normallik), öğrenci kalıntılarının dağılımının benzer özellikleri kullanılarak test edilebilir. Model doğru bir şekilde belirtilirse, büyük için artıklar gerçek hata terimlerine yakın olmalı ve benzer bir dağıtım formuna sahip olmalıdır.n
Açıklayıcı bir değişkenin regresyon modelinden çıkarılması , katsayı tahmin edicilerinde ihmal edilen değişken sapmaya yol açar ve bu, artık dağılımı etkiler. Artık vektörün hem ortalaması hem de varyansı, atlanan değişkenten etkilenir. Regresyondaki atlanan terimler ise, artık vektör . Atlanan matrisindeki veri vektörleri IID normal vektörleri ve hata terimlerinden bağımsızsa,Zδr=(I−h)(Zδ+ϵ)ZZδ+ϵ∼N(μ1,σ2∗I) böylece artık dağılım:
r=(I−h)(Zδ+ϵ)∼N(μ(I−h)1,σ2∗(I−h)).
Modelde zaten bir kesme terimi varsa (yani, birim vektörü tasarım matrisindeyse) o zaman1(I−h)1=0yani artıkların standart dağılım şekli korunur. Modelde kesişme terimi yoksa, atlanan değişken, artıklar için sıfırdan farklı bir ortalama verebilir. Alternatif olarak, atlanan değişken IID normal değilse, standart artık dağılımından başka sapmalara yol açabilir. Bu son durumda, artık testlerin atlanmış bir değişkenin varlığından kaynaklanan herhangi bir şeyi tespit etmesi olası değildir; teorik kalıntı dağılımından sapmaların atlanmış bir değişkenin sonucu olarak mı yoksa yalnızca dahil edilen değişkenlerle kötü bir ilişki nedeniyle mi meydana geldiğini belirlemek genellikle mümkün değildir (ve muhtemelen her durumda aynı şeydir).