Doğrusal regresyonda hata terimlerinde sabit olmayan varyansa sahip olmanın sonuçları nelerdir?


9

Doğrusal regresyonun varsayımlarından biri, hata terimlerinde sürekli bir varyans olması ve modelle ilişkili güven aralıkları ve hipotez testlerinin bu varsayımı temel almasıdır. Hata terimleri sabit bir varyansa sahip değilse tam olarak ne olur?

Yanıtlar:


15

Heterosedastisitenin sonuçları:

  1. Sıradan en küçük kareler (OLS) tahmincisi b^=(X'X)X'yhala tutarlıdır, ancak artık verimli değildir .

  2. Tahmin Vbirr^(b)=(X'X)-1σ^2 nerede σ^2=1n-ke'eolduğu değil tutarlı tahmincisi tahmincisi kovaryans matrisi için artıkb^. Hem taraflı hem de tutarsız olabilir. Ve pratikte, varyansı büyük ölçüde küçümseyebilir.

(1) noktası önemli bir konu olmayabilir; insanlar genellikle normal OLS tahmincisini kullanırlar. Ancak 2. noktaya değinilmelidir. Ne yapalım?

Heterosedansisite tutarlı standart hatalara ihtiyacınız vardır . Standart yaklaşım, büyük örnek varsayımlarına, asimptotik sonuçlara dayanmak veb kullanarak:

Vbirr^(b)=1n(X'Xn)-1S(X'Xn)-1
nerede S olarak tahmin ediliyor S=1n-kΣben(xbeneben)(xbeneben)'.

Bu heteroskedastisite tutarlı standart hatalar verir. Ayrıca Huber-White standart hataları, sağlam standart hatalar, "sandviç" tahmincisi, vb. Olarak da bilinir ... Herhangi bir temel standart istatistik paketi, sağlam standart hatalar için bir seçeneğe sahiptir. Kullanın!

Bazı ek yorumlar (güncelleme)

Heteroskedastisite yeterince büyükse, düzenli OLS tahmini büyük pratik problemlere sahip olabilir. Hala tutarlı bir tahminci olsa da, tüm tahmininizin birkaç yüksek sapma gözlemiyle yönlendirildiği küçük örnek problemleriniz olabilir. (@ Seanv507 yorumlarda bunu ifade etmektedir). OLS tahmincisi yüksek varyans gözlemlerine optimalden daha fazla ağırlık vermesi bakımından verimsizdir. Tahmin son derece gürültülü olabilir.

Verimsizliği gidermeye çalışırken bir sorun, muhtemelen hata terimleri için kovaryans matrisini bilmemenizdir, bu nedenle hata terimi kovaryans matrisi tahmininiz çöp ise, GLS gibi bir şey kullanmak işleri daha da kötüleştirebilir.

Ayrıca, yukarıda verdiğim Huber-White standart hatalarının küçük örneklerde büyük sorunları olabilir. Bu konuda uzun bir literatür var. Örneğin. bkz. Imbens ve Kolesar (2016), "Küçük Örneklerde Sağlam Standart Hatalar: Bazı Pratik Öneriler."

İleri çalışma yönergesi:

Bu kendi kendine çalışma ise, dikkate alınması gereken bir sonraki pratik şey kümelenmiş standart hatalardır. Bunlar kümeler içindeki keyfi korelasyon için doğrudur.


1
Matthew - I think more practical problems would clarify point (1). eg wouldn't the estimator be 'biased' towards those regions with higher variance? - which would be a bigger problem if those regions were far from the mean causing high leverage.
seanv507

3
@ seanv507 heteroskedasticity, OLS tahmininin yanlılığını ortaya koymaz. Sanırım bahsettiğiniz şey verimsizlik. Yüksek varyans gözlemleri ve düşük varyans gözlemlerini eşit olarak ağırlıklandırarak, OLS tahmincisi, ters varyans ağırlıklandırması gibi teorik olarak elde edilenden daha yüksek varyansa sahiptir . Tahminlerinizi kullanmak isteyip istemediğinizσben2 tahmin aşamasında (yani tahmin için) b) bildiğinize ne kadar inandığınıza bağlıdır σben2.
Matthew Gunn

1
Matthew, önyargı getirmediğini biliyorum (terimden alıntılar için [özür dilerim ve OP] özür diliyorum :) Uygun terimi düşünemedim). Ama pratik sonuçları ortaya çıkarmaya çalışıyorum (ve OP'nin bunları anlamak istediğini öne sürüyorum) - ne zaman / neden noktası (1) önemli bir sorun değil. Etkisinin o zamanbsezgisel olarak beklediğiniz / isteyebileceğinizden daha yüksek varyans bölgesine bağlıdır. (sezgisel düz çizgi uyumu, her bölgenin eşit ağırlığa sahip olması ve infact OLS'nin yüksek varyans bölgelerine daha fazla konsantre olması olacaktır).
seanv507

@ seanv507 kendi yanıtınızı eklemekten çekinmeyin!
Matthew Gunn

Heteroskedastisiteye dayanıklı standart hatalar kullanmak yerine (Ed Leamer'ın "Asymptopia'ya giden yolda Tantalus" adlı 2010 makalesinde Beyaz yıkama diyor ), heteroskedastisite için nokta tahminlerini (varyans tahmini ile birlikte) WLS. Bu, cevabınızda belirtmeye değer olabilir.
Richard Hardy

3

Kısa cevap temelde modelinizin yanlış olması yani

  • En küçük kareler olması için de B est L linear U nbiased E stimator hata terimlerinin sabit varyans varsayılır.
  • Gauss-Markov varsayımları - eğer yerine getirilirse - katsayılar için en küçük kareler tahmincisinin size garanti eder β yansızdır ve tüm yansız doğrusal tahmin ediciler arasında minimum bir varyansa sahiptir.

Bu nedenle, varyans-kovaryans matrisini tahmin etmede hetero-esneklik problemleri olması durumunda, katsayılarda yanlış standart hatalara yol açar, bu da yanlış t-istatistiklerine ve p-değerlerine yol açar. Kısaca ifade etmek gerekirse, hata terimlerinizde sürekli bir fark yoksa sıradan en küçük kareler tahmin için en etkili yol değildir. Bu ilgili soruya bir göz atın .


0

"Değişen varyans", tahmin hatalarının gerçek standart sapmasını tahmin etmeyi zorlaştırır. Bu, çok geniş veya çok dar güven aralıklarına yol açabilir (özellikle, hataların sapması zaman içinde artarsa, örnek dışı tahminler için çok dar olacaktır).

Ayrıca, regresyon modeli bir veri alt kümesine çok fazla odaklanabilir.

İyi referans: Doğrusal regresyon varsayımlarının test edilmesi

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.