Neden artıklar regresyondaki hatalarla ilgili varsayımları test etmek için kullanıyoruz?


10

Diyelim ki .Yi=β0+β1Xi1+β2Xi2++βkXik+ϵi

Regresyon hatalarının normalde ortalama sıfır ve sabit varyansla dağıtılması gerektiği gibi bir takım varsayımlara sahiptir . Bu varsayımları, artıkların normal test etmek için normal bir QQ çizimi kullanarak ve artıkların sabit varyansla sıfıra değiştiğini kontrol etmek için artık bir parça ile donatılmış bir arsa kullanarak kontrol .ϵiei=YiY^i

Ancak, bu testlerin hepsi hatalarda değil artıklarda yapılır.

Anladığım kadarıyla, hatalar her gözlemin 'gerçek' ortalama değerlerinden sapması olarak tanımlanır. Böylece, . Bu hatalar bizim tarafımızdan gözlemlenemez. *ϵi=YiE[Yi]

Benim sorum şu: artıklar hataları taklit etmek için ne kadar iyi bir iş yapıyorlar?

Eğer varsayımlar artıklarda tatmin edici görünüyorsa, bu hatalardan da memnun oldukları anlamına mı geliyor? Varsayımları test etmenin, modeli test veri kümesine yerleştirmek ve kalıntıları oradan almak gibi başka (daha iyi) yollar var mı?


* Ayrıca, bu modelin doğru bir şekilde belirtilmesini gerektirmez mi? Yani, yanıtın model tarafından belirtilen şekilde vb. Yordayıcılarıyla gerçekten bir ilişkisi vardır .X1,X2,

Bazı öngörücüler eksikse (örneğin, ), o zaman gerçek ortalama bile olmaz ve yanlış bir modelle ilgili daha fazla analiz anlamsız görünür.Xk+1 to XpE[Yi]=β0+β1Xi1+β2Xi2++βkXik

Modelin doğru olup olmadığını nasıl kontrol ederiz?

Yanıtlar:


9

Kalanlar hata terimleri tahminlerimizdir

Bu sorunun kısa cevabı nispeten basittir: bir regresyon modelindeki varsayımlar, hata terimlerinin davranışı hakkındaki varsayımlardır ve artıklar hata terimleri tahminlerimizdir. Ipso facto , gözlemlenen artıkların davranışlarının incelenmesi, hata terimleriyle ilgili varsayımların makul olup olmadığını bize bildirir.

Bu genel muhakeme çizgisini daha ayrıntılı olarak anlamak için, artıkların standart bir regresyon modelindeki davranışlarını ayrıntılı olarak incelemeye yardımcı olur. Bağımsız homoskedastik normal hata terimlerine sahip standart bir çoklu doğrusal regresyon altında, artık vektörün dağılımı bilinmektedir, bu da regresyon modelindeki temel dağılım varsayımlarını test etmenizi sağlar. Temel fikir, artık vektörün regresyon varsayımları altındaki dağılımını anlamanız ve artık değerlerin bu teorik dağılımla makul bir şekilde eşleşip eşleşmediğini kontrol etmenizdir. Teorik kalıntı dağılımından sapmalar, hata terimlerinin altında yatan varsayılan dağılımın bir açıdan yanlış olduğunu göstermektedir.

Temel hata dağıtımını kullanıyorsanız ϵiIID N(0,σ2) standart bir regresyon modeli için ve katsayılar için OLS tahminini kullanırsanız, artıkların dağılımının çok değişkenli normal dağılım olduğu gösterilebilir:

r=(Ih)ϵN(0,σ2(Ih)),

burada bir şapka matris regresyon için. Kalan vektör hata vektörünü taklit eder, ancak varyans matrisi ek çarpım terimi . Regresyon varsayımlarını test etmek için marjinal T dağılımına sahip olan öğrenci kalıntılarını kullanıyoruz:h=x(xTx)1xTIh

siriσ^Ext(1li)T(dfRes1).

(Bu formül, varyans tahmincisinin göz önünde bulundurulan değişkeni hariç tuttuğu, dışarıdan . değerleri, şapka matrisindeki diyagonal değerler olan kaldıraç değerleridir . bağımsızdır, ancak büyükse bağımsızdır. Bu, marjinal dağılımın bilinen basit bir dağıtım olduğu, ancak eklem dağılımının karmaşık olduğu anlamına gelir.) Şimdi, sınır mevcutsa, katsayı tahmin edicilerinin gerçek regresyon katsayılarının tutarlı tahmin edicileri olduğu ve artıkların, gerçek hata terimleri.li=hi,inlimn(xTx)/n=Δ

Esasen, bu, öğrenciye bırakılan artıkları T-dağılımıyla karşılaştırarak, temeldeki dağıtım varsayımlarını hata terimleri için test ettiğiniz anlamına gelir. Hata dağılımının altında yatan özelliklerin her biri (doğrusallık, homoskedastisite, ilişkisiz hatalar, normallik), öğrenci kalıntılarının dağılımının benzer özellikleri kullanılarak test edilebilir. Model doğru bir şekilde belirtilirse, büyük için artıklar gerçek hata terimlerine yakın olmalı ve benzer bir dağıtım formuna sahip olmalıdır.n

Açıklayıcı bir değişkenin regresyon modelinden çıkarılması , katsayı tahmin edicilerinde ihmal edilen değişken sapmaya yol açar ve bu, artık dağılımı etkiler. Artık vektörün hem ortalaması hem de varyansı, atlanan değişkenten etkilenir. Regresyondaki atlanan terimler ise, artık vektör . Atlanan matrisindeki veri vektörleri IID normal vektörleri ve hata terimlerinden bağımsızsa,Zδr=(Ih)(Zδ+ϵ)ZZδ+ϵN(μ1,σ2I) böylece artık dağılım:

r=(Ih)(Zδ+ϵ)N(μ(Ih)1,σ2(Ih)).

Modelde zaten bir kesme terimi varsa (yani, birim vektörü tasarım matrisindeyse) o zaman1(Ih)1=0yani artıkların standart dağılım şekli korunur. Modelde kesişme terimi yoksa, atlanan değişken, artıklar için sıfırdan farklı bir ortalama verebilir. Alternatif olarak, atlanan değişken IID normal değilse, standart artık dağılımından başka sapmalara yol açabilir. Bu son durumda, artık testlerin atlanmış bir değişkenin varlığından kaynaklanan herhangi bir şeyi tespit etmesi olası değildir; teorik kalıntı dağılımından sapmaların atlanmış bir değişkenin sonucu olarak mı yoksa yalnızca dahil edilen değişkenlerle kötü bir ilişki nedeniyle mi meydana geldiğini belirlemek genellikle mümkün değildir (ve muhtemelen her durumda aynı şeydir).


1
Kapsamlı yanıtınız için teşekkür ederiz. Nerede olduğunu sorabilir miyim ? Bana öyle geliyor kir=(Ih)ϵr=YY^=(Ih)Y
mai

1
Yana sahip , böylece . hx=x(Ih)x=0r=(Ih)Y=(Ih)(xβ+ϵ)=(Ih)ϵ
Ben - Monica'yı yeniden ele

-4

Genellikle artıklar ve hatalar aynı anlama gelir. Modelinizde tahminci yoksa, E (Y) gerçekten Y'nin ortalamasıdır. Tahmincilerde (modelinizde olduğu gibi), E (Y) her X'ten tahmin edilen Y'nin değeridir. Dolayısıyla, kalanlar gözlemlenen her biri arasındaki farktır. ve Y'yi tahmin ettiler.


3
"Genellikle artıklar ve hatalar aynı anlama gelir." Bunun doğru olduğunu düşünmüyorum - anladığım kadarıyla, artıklar gözlemlenen değer ile öngörülen değer arasındaki farkı ölçerken, hatalar gözlenen değer ile gerçek ortalama değer arasındaki farkı ölçer.
mai

1
Açıkçası, hatalar ve artıklar eş anlamlı değildir. Birincisi rastgele değişkenler, ikincisi gerçekleşmelerdir.
Richard Hardy
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.