Çoklu regresyon varsayımları: normalite varsayımı sabit varyans varsayımından nasıl farklıdır?


20

Bunların çoklu regresyon modelini kullanma koşulları olduğunu okudum:

  1. modelin kalıntıları neredeyse normaldir,
  2. artıkların değişkenliği neredeyse sabittir
  3. artıklar bağımsızdır ve
  4. her değişken sonuçla doğrusal olarak ilişkilidir.

1 ve 2 arasındaki farklar nelerdir?

Burada bir tane görebilirsiniz:

resim açıklamasını buraya girin

Yukarıdaki grafik, 2 standart sapma uzaklığındaki kalıntıların Y-hat'tan 10 uzakta olduğunu söylüyor. Bu, artıkların normal bir dağılım izlediği anlamına gelir. Bundan 2 çıkartamaz mısın? Artıkların değişkenliğinin neredeyse sabit olduğunu mu?


7
Bunların sırasının yanlış olduğunu iddia ediyorum . Önem sırasına göre 4, 3, 2, 1 diyebilirim. Bu şekilde, her ek varsayım, modelin, sorunuzdaki sıralamanın aksine, en kısıtlayıcı varsayımın olduğu gibi, daha büyük bir dizi problemi çözmek için kullanılmasına izin verir. ilk.
Matthew Drury

2
Çıkarımsal istatistikler için bu varsayımlar gereklidir. Kare hataların toplamının en aza indirilmesi için herhangi bir varsayım yapılmamıştır.
David Lane

1
1, 3, 2, 4'ü kastettiğime inanıyorum. 1, modelin çok faydalı olması için en azından yaklaşık olarak karşılanmalıdır, modelin tutarlı olması için 3 gerekir, yani daha fazla veri elde ettikçe kararlı bir şeye yakınsayın Tahminin etkili olması için 2, yani aynı satırı tahmin etmek için verileri kullanmanın daha iyi bir yolu yoktur ve 4, en azından yaklaşık olarak, tahmini parametreler üzerinde hipotez testleri yapmak için gereklidir.
Matthew Drury


2
Kendi işiniz değilse lütfen diyagramınız için bir kaynak verin.
Nick Cox

Yanıtlar:


44

1. Kalıntıların normal dağılımı :

Güven aralıkları ve / veya p değerleri elde etmeye çalıştığınızda normallik durumu devreye girer.

birGauss Markov koşulu değildir.ε|X~N-(0,σ2benn)


resim açıklamasını buraya girin

Bu grafik, popülasyondaki noktaların, büyük sarı noktalarda örnek bir veri kümesine (tahmini regresyon çizgisi kesikli sarı çizgi olarak işaretlenmiş olarak) yerleştirilen, mavi renkte (popülasyon regresyon çizgisi katı bir camgöbeği çizgisi ile) dağılımını göstermeye çalışır. Açıkçası bu sadece kavramsal tüketim içindir, çünkü her değeri için sonsuzluk noktaları olacaktır ) - bu nedenle değerlerin bir ortalama etrafında sürekli dağılımı (tahmin edilen değere karşılık gelen) olarak regresyon kavramının grafik ikonografik ayrıklaştırılmasıdır. "bağımsız" değişken), regresörün verilen her bir değeri veya açıklayıcı değişken.X=x

Simüle edilmiş "popülasyon" verileri üzerinde teşhis R grafikleri çalıştırırsak ...

resim açıklamasını buraya girin

Kalıntıların varyansı, X'in tüm değerleri boyunca sabittir .X.

Tipik arsa şöyledir:

resim açıklamasını buraya girin


Kavramsal olarak, çoklu regresörlerin veya açıklayıcı değişkenlerin kullanılması fikri değiştirmez. Paketin uygulamalı öğreticisinin, swirl()çoklu regresyonun gerçekten bağımlı değişkenleri modelde kalan, açıklanamayan varyasyonu ileri süren bir gerileme süreci olarak anlamada son derece yararlı olduğunu düşünüyorum; veya daha basit bir şekilde, basit doğrusal regresyonun vektörel bir formu :

Genel teknik, bir regresör seçmek ve diğer tüm değişkenleri, regresyonlarının kalıntıları ile değiştirmektir.


2. Kalıntıların değişkenliği neredeyse sabittir (Homoskedasticity) :

E[εben2|X]=σ2

Bu koşulu ihlal etmekle sorun olduğunu:

Heteroskedastisitenin OLS tahmincisi için ciddi sonuçları vardır. OLS tahmincisi tarafsız kalsa da, tahmini SE yanlıştır. Bu nedenle, güven aralıkları ve hipotez testlerine güvenilemez. Ek olarak, OLS tahmincisi artık MAVİ değildir.


resim açıklamasını buraya girin

Bu grafikte varyans, sabit kalmanın aksine regresör (açıklayıcı değişken) değerleriyle artar. Bu durumda artıklar normal olarak dağıtılır, ancak bu normal dağılımın varyansı açıklayıcı değişkenle değişir (artar).

"Gerçek" (popülasyon) regresyon çizgisinin, birinci komplodaki (düz koyu mavi) homoskedastisite altında popülasyon regresyon çizgisine göre değişmediğine, ancak tahminlerin daha belirsiz olacağına sezgisel olarak açıktır.

Veri kümesindeki tanı grafikleri ...

resim açıklamasını buraya girin

"ağır kuyruklu" dağılıma karşılık gelen mantık, tüm "yan yana" dikey Gauss parsellerini çan şeklini koruyacak, ama çok uzun kuyrukları olan tek bir tanesine teleskoplamak zorunda olduğumuzdur.


@Glen_b "... ikisi arasındaki ayrımın tam bir kapsamı homoskedastik-ama-normal değil de düşünür."

resim açıklamasını buraya girin

Kalıntılar çok eğridir ve açıklayıcı değişkenin değerleri ile varyans artar.

Bunlar teşhis grafikleri olacak ...

resim açıklamasını buraya girin

işaretlenmiş sağ çarpıklığa karşılık gelir.

Döngüyü kapatmak için, homoskedastik bir modelde Gauss olmayan hata dağılımı olan çarpıklık da görürüz:

resim açıklamasını buraya girin

teşhis arazileri ile ...

resim açıklamasını buraya girin


2
Çok teşekkür ederim. Bir görselleştirme aracı olarak kullanılan nüfusun brüt ayrıklaştırılmasının köprülenmesinin gerekli olduğunu düşündüm. Kodu gönderebilirim, ancak yaratıcı matematik bir derece olduğu için tereddüt ediyorum :-)
Antoni Parellada

3
Her ikisini de tatmin eden bir arsa göstererek ve sonra normal ama homoskedastik göstererek normal hatalar ve homoscedastik hatalar arasındaki ayrımın mükemmel olması. Sanırım ikisi arasındaki ayrımın tam bir kapsamı homoskedastik-ama-normal değil. [Böyle bir örnek eklemenizi önermiyorum, ancak varsayımları düşünürken insanların akıllarında tutmaları için yararlı bir üçüncü kol.]
Glen_b -Mo Monica'yı yeniden

7

OP'nin hatası değil, ama böyle yanlış bilgileri okumaktan yorulmaya başlıyorum.

Bunların çoklu regresyon modelini kullanma koşulları olduğunu okudum:

the residuals of the model are nearly normal,
the variability of the residuals is nearly constant
the residuals are independent, and
each variable is linearly related to the outcome.

"Çoklu regresyon modeli" sadece bir değişkenin diğer değişkenlerin bir fonksiyonu olarak ifade edilebileceğini bildiren bir etikettir.

Ne gerçek hata terimi ne de modelin kalıntıları özellikle neredeyse her şeye ihtiyaç duymaz - kalıntılar normal görünüyorsa, daha sonraki istatistiksel çıkarım için iyidir .

Hata teriminin değişkenliği (varyansı) neredeyse sabit olmak zorunda değildir - eğer değilse, günümüzde oldukça kolay kullanılan heteroskedastisiteli bir modelimiz var.

Kalıntılar her durumda bağımsız değildir, çünkü her biri tüm numunenin bir fonksiyonudur. Gerçek hata terimleri değiller biz varyans daha zor olmasına rağmen, bir dereceye kadar ele alınabilir, otokorelasyon, bir model var -eğer bağımsız olması gerekmez.

Her değişkenin sonuçla doğrusal olarak ilişkili olması gerekmez. Aslında, "lineer" ve "lineer olmayan" regresyon arasındaki ayrımın değişkenler arasındaki ilişkiyle ilgisi yoktur - ancak bilinmeyen katsayıların ilişkiye nasıl girdiği.

Söyleyebileceğimiz, eğer ilk üç tutma ve dördüncüsü düzgün bir şekilde ifade edilirse, o zaman birden fazla regresyon modelinin sadece bir (tarihsel olarak ilk olmasına rağmen) varyantı olan "Klasik Normal Doğrusal Regresyon Modeli" ni elde ederiz.


3
XβXβX

2
Ve soru, hata terimlerinin koşullu beklentisinin sıfır olduğu konusunda kesinlikle temel varsayımı kaçırıyor!
Matthew Gunn

1
@MatthewGunn Pekala, ... bu, bu modelle ne yaptığımızla ilgili çok geniş bir tartışma açıyor: "deterministik / mühendislik" görüşünü ele alırsak, spesifikliğin gerçekten de belirleyici deterministik olduğundan emin olmak için bu varsayıma ihtiyacımız var. Koşullu beklenti işlevini spesifik regresörlerle ilgili olarak tahmin etmek istiyorsak , kodlama otomatik olarak karşılanır (veya en azından zayıf şekli, diklik).
Alecos Papadopoulos

1
@AlecosPapadopoulos Evet, bir anlamda sıradan en küçük kareler size her zaman bir şey tahmini verir! Ama istediğiniz bir şey olmayabilir. OP sadece spesifik regresörlere göre doğrusal, koşullu bir beklenti fonksiyonu istiyorsa, durumun otomatik olarak kabul edildiğini kabul ediyorum. Ancak OP bir parametreyi tahmin etmeye çalışıyorsa, dikeylik koşulunu doğrulamak kritik önem taşır!
Matthew Gunn

@MatthewGunn Gerçekten, bu kesinlikle öyle.
Alecos Papadopoulos

3

Antoni Parellada güzel grafik illüstrasyon ile mükemmel bir cevap vardı.

İki ifade arasındaki farkı özetlemek için sadece bir yorum eklemek istiyorum

  1. modelin kalıntıları neredeyse normal

  2. artıkların değişkenliği neredeyse sabittir

  • Açıklama 1 verir "şekli" olan bir kalıntının "çan şeklinde bir eğri" .
  • Açıklama 2 inceltir yayılmış bir "şekli" 3 çan şeklindeki eğrileri vardır Antoni Parellada arsa 3'te, (sabit), ancak bunlar farklı yayılır.

1

Tek bir regresyon varsayımı kümesi yoktur, ancak orada birkaç varyasyon vardır. Bu varsayım kümelerinden bazıları diğerlerinden daha katı, yani daha dardır. Ayrıca, çoğu durumda ihtiyacınız yoktur ve çoğu durumda dağılımın normal olduğunu varsayamazsınız.

Alıntıladığınız varsayımlar en fazladan daha katıdır, ancak gereksiz yere gevşek bir dilde formüle edilmiştir. Örneğin, neredeyse tam olarak nedir? Ayrıca, varsayımları dayattığımız kalıntılar değil, hatalar . Kalanlar, gözlemlenemeyen hata tahminleridir. Bu bana kötü bir kaynaktan alıntı yaptığınızı söylüyor. Fırlat onu.

Sorunuzun kısa cevabı, hatalarınız için herhangi bir dağılımı, örneğin Student t dağılımını göz önünde bulundurursanız (cevabımda doğru terimi kullanacağım), hataların nasıl "neredeyse sabit" varyasyona sahip olabileceğini görebilirsiniz. Normal dağılımdan ve "neredeyse sabit" varyansa sahip olmak normal dağılım gerektirmez. Başka bir deyişle, hayır, ek bir gereksinim olmadan bir varsayımı diğerinden tasarlayamazsınız.

yben=Xbenβ+εbenεben~N-(0,σ2)
  1. "modelin kalıntıları neredeyse normaldir" - bu kullandığımız ettiğimiz gerçeğidirN-(.)
  2. σεben
  3. "artıklar bağımsızdır" - bu kullanmaktan gelir.N-X
  4. y=Xβ

Dolayısıyla, tüm varsayımları bu şekilde bir veya iki denklemde bir araya getirdiğimizde, hepsi birbirine bağımlı gibi görünebilir, bu doğru değildir. Bunu daha sonra göstereceğim.

örnek 1

yben=Xbenβ+εbenεben~tν
ν

ÖRNEK 2

yben=Xbenβ+εbenεben~N-(0,σ2ben)
ben

1

Tartışmaya yeni bir boyut katmaya ve daha genel hale getirmeye çalıştım. Lütfen çok basit olsaydı özür dilerim.

Regresyon modeli, istatistiksel bir ilişkinin iki temel bileşenini ifade etmenin resmi bir yoludur:

  1. YX
  2. Bir nokta saçılması istatistiksel ilişkinin eğrisi etrafında.

Y

Bunu varsayarak:

  1. YX

  2. X

Y

YX

Benzer şekilde, olasılık dağılımlarının arasındaki ilişkiyi tanımlayan regresyon eğrisiYXYX

Kaynak: Uygulamalı Doğrusal İstatistiksel Modeller, KNNL

Normal Hata Regresyon modelinde, ortalamanın koşullu dağılımını tahmin etmeye çalışırız. YX

Yben=β0 +β1Xben+ε

YbenXben

β0β1 parametreler

εN-(O,σ2)

ben

E(Y|X)β0, β1σ2β0, β1σ2 ve bunların sıfıra eşitlenmesi. Bu normallik varsayımı altında nispeten kolaylaşır.

the residuals of the model are nearly normal,
the variability of the residuals is nearly constant
the residuals are independent, and
each variable is linearly related to the outcome.

1 ve 2 arasındaki farklar nelerdir?

Soru geliyor

Sizin belirttiğiniz birinci ve ikinci varsayımlar, sıfır ortalama ve sabit varyans ile aynı normallik varsayımının iki parçasıdır. Bence soru, iki varsayım arasındaki farktan ziyade, normal bir hata regresyon modeli için iki varsayımın çıkarımları olarak sorulmalıdır. Diyorum ki, elmaların portakallarla karşılaştırılması gibi görünüyor çünkü bir dağılım dağılımının varsayımları ile değişkenliği üzerindeki varsayımlar arasında bir fark bulmaya çalışıyorsunuz. Değişkenlik dağılımın bir özelliğidir. Bu yüzden, iki varsayımın çıkarımlarıyla ilgili daha alakalı soruyu cevaplamaya çalışacağım.

Normallik varsayımı altında maksimum olabilirlik tahmin edicileri (MLE'ler) en küçük kareler tahmin edicileriyle aynıdır ve MLE'ler UMVUE olma özelliğinden yararlanır hepsi tahmin edicilerin arasında asgari varyansa sahip araçlar.

Homoskedastisite varsayımı, parametreleri için aralık tahminlerinin ayarlanmasını sağlarβ0β1t


1
Bu, regresyonun mükemmel bir açıklamasıdır. Fakat bu konudaki belirli soruya nasıl cevap veriyor?
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.