Normal artıklar ne anlama geliyor ve bu verilerim hakkında bana ne anlatıyor?


13

Oldukça basit bir soru:

Doğrusal bir regresyondan normal artıkların dağılımı ne anlama gelir? Bu, regresyondan elde ettiğim orijinal verilerime nasıl yansıyor?

Tamamen güldüm, teşekkürler arkadaşlar

Yanıtlar:


5

Doğrusal regresyon aslında sonucunuzun koşullu beklenen değerlerini modeller. Bunun anlamı: Eğer regresyon parametrelerinin gerçek değerlerini bilse (söylemek ve denklemi o out doldurarak, sizin belirleyicisi X değeri göz önüne alındığında,) olacak için verilen bu değere sahip tüm (olası) gözlemlerde için beklenen değeri hesaplarsanız .β0β1

E[Y|X]=β0+β1X
YX

Ancak , verilen değeri için tek bir değerinin (koşullu) ortalamaya tam olarak eşit olmasını beklemezsiniz . Modeliniz yanlış olduğu için değil, hesaba katmadığınız bazı etkiler olduğu için (örneğin ölçüm hatası). Dolayısıyla , belirli bir değerleri için bu değerleri ortalama değerin etrafında dalgalanır (yani geometrik olarak: o için regresyon çizgisinin noktası etrafında ).YXYXX

Normallik varsayımı, şimdi, arasındaki fark söylüyor ler ve bunların eşleme sıfır ortalamalı normal dağıtılması esasına dayanmaktadır. Bir varsa, bu araçlar, değeri, daha sonra bir örnek olabilir birinci hesaplama değerini (yani, tekrar , bir sonraki numune regresyon doğrusu üzerindeki nokta,) bundan normal dağılım ve ekleme: YE[Y|X]XYβ0+β1XE[Y|X]ϵ

Y=E[Y|X]+ϵ

Kısacası: Bu normal dağılım , modelin açıkladığı değişkenliğin üstünde sonucunuzdaki değişkenliği temsil eder .

Not: Çoğu veri kümesinde, belirli bir için birden fazla değeriniz yoktur (tahmin kümeniz kategorik olmadıkça), ancak bu normallik sadece veri kümenizdeki gözlemler için değil, tüm popülasyon için geçerlidir.YX

Not: Doğrusal regresyonun nedenini bir öngörücü ile yaptım, ama aynı şey daha fazlası için de geçerli: sadece yukarıdaki "line" i "hyperplane" ile değiştirin.


Bu harika bir açıklama! Ancak bir soru: e normal olarak dağıtılmak, e için en olası değerlerin -1 ile +1 arasında (standartlaştırıldıktan sonra) olduğunu varsayacağınız anlamına mı geliyor? Yani temelde poisson dağılımı yerine normal bir dağılım kullanıyorsunuz, çünkü normal dağılım bu değerlerin gerçek hayatta nasıl davrandığını daha iyi modeller?
user3813234

1

Çok şey ifade edebilir ya da hiçbir şey ifade etmeyebilir. En yüksek R-Kare'yi elde etmek için bir model takarsanız, aptal olduğunuz anlamına gelebilir. Bir modeli, değişkenlerin gerekli ve ihtiyaç duyulduğu ve aykırı değerlerin tanımlanmasına özen gösterdiği için cimri olacak şekilde yerleştirirseniz, iyi bir iş yaptınız. Bu http://www.autobox.com/cms/index.php?option=com_content&view=article&id=175 hakkında daha fazla bilgi için buraya göz atın.


0

Kalıntıların normalliği, doğrusal bir modelin çalıştırıldığı varsayımıdır. Dolayısıyla, artıklarınız normalse, varsayımınızın geçerli olduğu ve model çıkarımının (güven aralıkları, model tahminleri) de geçerli olduğu anlamına gelir. Bu kadar basit!


Normallik varsayımı, gözlemlenebilir artıklarla değil, gözlemlenemeyen hata ile ilgilidir (dolayısıyla bir varsayım ihtiyacı).
DL Dahly

2
Evet, ancak kalanları gözlemlenemeyen hata hakkındaki varsayımınızı test etmek için kullanıyorsunuz.
wcampbell

Normal artıkların geçerli bir regresyon modelini garanti ettiğini kabul etmiyorum. Diyelim ki X ve Y hatası olan dairesel bir Gauss modeliniz var. Sonra regresyon çizgisi güven aralığı . Bu neredeyse tek karşı örnek değil, çok daha fazlası var.  to 
Carl
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.