Normal hata varsayımı Y'nin de Normal olduğu anlamına mı geliyor?


12

Yanılmıyorsam, doğrusal bir modelde, yanıtın dağılımının sistematik bir bileşen ve rastgele bir bileşen olduğu varsayılır. Hata terimi rastgele bileşeni yakalar. Bu nedenle, hata teriminin Normal olarak dağıtıldığını varsayarsak, bu yanıtın da Normal olarak dağıtıldığı anlamına gelmez mi? Bence öyle, ama sonra aşağıdaki gibi ifadeler oldukça kafa karıştırıcı görünüyor:

Ve bu modeldeki tek "normallik" varsayımının, artıkların (veya "hataların" ) normal olarak dağıtılması gerektiği olduğunu açıkça görebilirsiniz . Belirleyicisi dağılımı hakkında hiçbir varsayım yoktur veya yanıt değişkeni .ϵiy ixiyi

Kaynak: Tahminler, yanıtlar ve artıklar: Normal olarak neyin dağıtılması gerekir?


7
Eğer 'in non-stokastik olan normalliği bağımlı değişken normalliğini ifade eder. Stokastik bağımsız değişkenler için bu genel olarak elde edilmeyecektir, daha sonra bağımsız değişkenlerin dağılımına bağlıdır. ϵxϵ

Yanıtlar:


19

Standart en küçük kareler model ile bir için , sabit .ε N ( 0 , σ 2 I n )Y=Xβ+εεN(0,σ2In) XRn×p

Bu aslında , ancak bu 'nin dağıtımına ilişkin varsayımımızın bir sonucudur. aslında varsayım olmaktan ziyade . Ayrıca ben koşullu dağılımı bahsediyorum unutmayın , değil marjinal dağılımı . Koşullu dağılıma odaklanıyorum çünkü gerçekten sorduğunuz şey bu.ε Y YY|{X,β,σ2}N(Xβ,σ2In)εYY

Ben kafa karıştırıcı kısmı bu olduğunu düşünüyorum gelmez bir histogram anlamına , normal bakacağız. vektörünün tamamının , her bir elementin potansiyel olarak farklı bir ortalama olduğu çok değişkenli normal dağılımdan tek bir çizim olduğunu söylüyoruz . Bu, normal bir numune ile aynı değildir. Hatalar aslında bir iid örneğidir, bu nedenle bunların histogramı normal görünecektir (ve bu nedenle, yanıtların değil, kalıntıların QQ grafiğini yapıyoruz).Y E ( Y i | X i ) = X T i β εYYE(Yi|Xi)=XiTβε

Örnek: 6. sınıf ve 12. sınıf öğrencileri için yüksekliğini ölçtüğümüzü varsayalım . Bizim modeli ile . histogramına bakarsak, muhtemelen 6. sınıflar için bir tepe ve 12. sınıflar için bir tepe ile bir bimodal dağılım göreceğiz, ancak bu varsayımlarımızın ihlali anlamına gelmiyor.H i = β 0 + β 1 I ( 12. sınıf öğrencisi ) + ε i ε iiid N ( 0 , σ 2 ) H iHHi=β0+β1I(12th grader)+εiεi iid N(0,σ2)Hi


Birisi notasyonu açıklığa kavuşturabilir mi ? σ2In
Mart'ta snoram

Bu kimlik matrisinin bir skaler çarpımı anlamına gelir . σ 2n×nσ2
Mayıs

birim matris kere belli bir farklılığa. n×n
Sycorax, Reinstate Monica

11

Bu nedenle, hata teriminin Normal olarak dağıtıldığını varsayarsak, bu yanıtın da Normal olarak dağıtıldığı anlamına gelmez mi?

Uzaktan bile değil. Bunu hatırlamamın yolu, artıkların modelin deterministik kısmına normal şartlı olmasıdır . İşte pratikte neye benzediğini gösteren bir gösteri.

Bazı verileri rastgele oluşturarak başlıyorum. Sonra öngörücülerin doğrusal bir işlevi olan bir sonuç tanımlarım ve bir model tahmin ederim.

N <- 100

x1 <- rbeta(N, shape1=2, shape2=10)
x2 <- rbeta(N, shape1=10, shape2=2)

x <- c(x1,x2)
plot(density(x, from=0, to=1))

y <- 1+10*x+rnorm(2*N, sd=1)

model<-lm(y~x)

Şimdi bu artıkların neye benzediğine bakalım. Sonucun beri normalde, dağıtılması gerekmektedir şüpheli yistatistiksel bağımsız, normal gürültü kendisine eklenmiş vardı. Gerçekten de durum böyle.

resim açıklamasını buraya girin

plot(density(model$residuals), main="Model residuals", lwd=2)
s <- seq(-5,20, len=1000)
lines(s, dnorm(s), col="red")

plot(density(y), main="KDE of y", lwd=2)
lines(s, dnorm(s, mean=mean(y), sd=sd(y)), col="red")

Bununla birlikte, y'nin dağılımını kontrol ederken, bunun kesinlikle normal olmadığını görebiliriz! Yoğunluk fonksiyonunu aynı ortalama ve varyansla kapladım y, ama açıkçası korkunç bir uyum!

Y yoğunluğu

Bunun bu durumda olmasının nedeni, giriş verilerinin uzaktan normal olmamasıdır. Bu regresyon modeli hakkında hiçbir şey, bağımsız değişkente değil, bağımlı değişkente değil, artıklar hariç normallik gerektirmez.

X denisty


8

Hayır. Örneğin, Olimpik sporcuların ağırlığını tahmin eden bir modelimiz olduğunu varsayalım. Her sporda kilo normal olarak sporcular arasında dağıtılabilirken, tüm sporcular arasında olmayacak - hatta unimodal bile olmayabilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.