Varsayımlar karşılanmadığında bir regresyon modeli ne kadar yanlış?


28

Bir regresyon modelini yerleştirirken, çıktıların varsayımlarına uyulmazsa, özellikle:

  1. Artıklar homoscedastik değilse ne olur? Kalanlar Kalanlar - Takılan arsa'da artan veya azalan bir model gösteriyorsa.
  2. Artıklar normal dağılmazsa ve Shapiro-Wilk testinde başarısız olursa ne olur? Shapiro-Wilk normallik testi çok katı bir testtir ve bazen Normal-QQ grafiği biraz makul görünse bile, veriler testi geçemez.
  3. Bir veya daha fazla tahmin edici normalde dağılmadığında, Normal QQ grafiğine doğrudan bakmadığında veya veriler Shapiro-Wilk testinde başarısız olursa ne olur?

Sert siyah-beyaz bölünme olmadığını, 0.94'ün doğru ve 0.95'in yanlış olduğunu ve soruda şunu bilmek istediğimi anlıyorum:

  1. Normallikten vazgeçmenin anlamı, R-Kare değerine göre uygun olan bir modeldir. Daha az güvenilir mi, yoksa tamamen işe yaramaz mı?
  2. Sapma ne ölçüde kabul edilebilir veya hiç kabul edilebilir mi?
  3. Normallik kriterlerini karşılamak için verilerde dönüşümler uygulanırken, veriler daha normalse (Shapiro-Wilk testinde daha yüksek P değeri, normal QQ grafiğine daha iyi bakarsanız) model daha iyi hale gelir mi, yoksa işe yaramazsa (eşit derecede iyi veya Veriler normallik testini geçinceye kadar orijinaline kıyasla kötü mü?)

Sanırım başlığın cevabı sadece "Evet".
Thomas Cleberg

@ThomasCleberg İlginç bir cevap. İnsanlar sana "Nasılsın?" Diye sorduğunda söylediğin şey bu mu? :)
JohnK

Hayır, ama eğer yaşıyor muyum diye soruyorlarsa. :)
Thomas Cleberg

Kendinize sormanız gereken temel bir soru: "Regresyon modelini ne için kullanmak istiyorsunuz?"
Floris

Yanıtlar:


32

Artıklar homoscedastik değilse ne olur? Kalanlar Kalanlar - Takılan arsa'da artan veya azalan bir model gösteriyorsa.

Eğer hata terimi homoscedastik değilse (artıkları gözlemlenemeyen hata terimi için bir vekil olarak kullanırız), OLS tahmincisi hala tutarlı ve tarafsızdır ancak artık doğrusal tahminciler sınıfında en verimli değildir. Artık bu özelliğe sahip olan GLS tahmincisi.

Artıklar normal dağılmazsa ve Shapiro-Wilk testinde başarısız olursa ne olur? Shapiro-Wilk normallik testi çok katı bir testtir ve bazen Normal-QQ grafiği biraz makul görünse bile, veriler testi geçemez.

Normallik, Gauss-Markov teoremi için gerekli değildir. OLS tahmincisi hala MAVİ, ancak normallik olmadan, en azından sonlu örneklem büyüklükleri için çıkarım yapmakta zorluk çekeceksiniz, yani hipotez testleri ve güven aralıkları. Yine de hala önyükleme var.

Asimptotik olarak, OLS tahmincisinin hafif düzenlilik koşulları altında sınırlı bir normal dağılıma sahip olması nedeniyle bu daha az problemdir.

Bir veya daha fazla tahmin edici normalde dağılmadığında, Normal QQ grafiğine doğrudan bakmadığında veya veriler Shapiro-Wilk testinde başarısız olursa ne olur?

Bildiğim kadarıyla tahmincilerin ya sabit olduğu kabul edilir ya da gerileme bunlara bağlıdır. Bu normal olmayanlığın etkisini sınırlar.

Normallikten vazgeçmenin anlamı, R-Kare değerine göre uygun olan bir modeldir. Daha az güvenilir mi, yoksa tamamen işe yaramaz mı?

R-karesi, model tarafından açıklanan varyansın oranıdır. Normallik varsayımını gerektirmez ve ne olursa olsun uyum iyiliğinin bir ölçüsüdür. Kısmi bir F testi için kullanmak istersen, bu başka bir hikaye.

Sapma ne ölçüde kabul edilebilir veya hiç kabul edilebilir mi?

Normalden sapma demek istiyorsun, değil mi? Bu gerçekten sizin amaçlarınıza bağlı, çünkü dediğim gibi, normalliğin yokluğunda çıkarım zorlaşıyor, ancak imkansız değil (önyükleme!).

Normallik kriterlerini karşılamak için verilerde dönüşümler uygulanırken, veriler daha normalse (Shapiro-Wilk testinde daha yüksek P değeri, normal QQ grafiğine daha iyi bakarsanız) model daha iyi hale gelir mi, yoksa işe yaramazsa (eşit derecede iyi veya Veriler normallik testini geçinceye kadar orijinaline kıyasla kötü mü?)

Kısacası, tüm Gauss-Markov varsayımlarına ve normalliğe sahipseniz , OLS tahmincisi En İyi Tarafsızdır (BUE), yani tüm tahmin edici sınıflarında en verimli olan Cramer-Rao Lower Bound elde edilir. Bu elbette arzu edilir, ancak gerçekleşmezse dünyanın sonu değildir. Yukarıdaki açıklamalar geçerlidir.

Dönüşümlerle ilgili olarak, cevabın dağılımının normallikle yakınlaşabileceği halde, yorumlamanın daha sonra basit olamayacağı akılda tutulmalıdır.

Bunlar sadece sorularınızın kısa cevapları. Normallik olmamanın etkileri ile özellikle ilgileniyor gibisiniz. Genel olarak, insanların (yapılan?) İnandıkları kadar felaket olmadığını ve geçici çözümlerin olduğunu söyleyebilirim. Dahil ettiğim iki referans, ilki teorik nitelikte olan ileri okuma için iyi bir başlangıç ​​noktasıdır.

Kaynaklar :

Hayashi, Fumio. : "Ekonometri", Princeton Üniversitesi Yayınları, 2000

Kutner, Michael H., vd. "Uygulamalı doğrusal istatistiksel modeller.", McGraw-Hill Irwin, 2005.


Gauss-Markov'un varsayımlarının artı normalliğin olduğu varsayımına göre, OLS'nin tüm tahminciler arasında en verimli olduğu anlamına geldiğine (sadece doğrusal değil) ettiği için, varsayımlardan birinin , lineer olduğu koşullu ortalamasının olduğu . parametreler . Altta yatan modelin doğrusal olduğunu varsayıyorsanız, o zaman doğrusal tahmin edicinin (OLS) diğer tüm tahmin ediciyi (doğrusal olsun ya da olmasın) yenmesi şaşırtıcı değildir. YXiβi
DeltaIV

2
@DeltaIV bunu daha doğrusal tahmin ediciler bahsediyoruz çünkü karıştı düşünüyorum tepki açısından , . y
JohnK,

Aslında her iki nokta da doğru. GM'in varsayımlarından biri aslında ideal modelin doğrusal olduğu , bakınız: en.wikipedia.org/wiki/Gauss%E2%80%93Markov_theorem Aynı zamanda söylediğiniz de doğru: OLS bir değil , tahmincisi . Bu nedenle, doğrusal olduğunu rastgele değişkenler doğrusal olduğunu . βiβiYY1,,Yn
DeltaIV

@DeltaIV "İdeal model" ile neyi kastediyorsunuz? Parametrelerde doğrusal olan gerçek modeldir. Ancak bu bizi sınırlayıcı değil, tahmin ediciler olarak yanıtın yalnızca doğrusal işlevlerini göz önüne alır. GM, dikkatimizi cevabın doğrusal işlevleriyle sınırlarsak, OLS'nin bazı ek varsayımlar altında MAVİ olduğunu belirtir. Şimdi, eğer normallik varsayarsak , yanıtın hangi işlevi olursa olsun , tahmin edicinin tarafsız olması koşuluyla OLS'den daha iyisini yapamazsınız.
JohnK,

ideal model = gerçek model. Elbette, değerini tahmin etmek için doğrusal olmayan fonksiyonlarını düşünebiliriz . İkinci yorumumda kabul ettiğimizi açıklamaya çalıştım. Yiβben
DeltaIV
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.