Normal olarak dağıtılmayan hatalar neden önem beyanlarımızın geçerliliğini tehlikeye atar?


10

OLS modellerini dikkate alma konusunda bir normallik varsayımı vardır ve bu da hataların normal olarak dağıtılmasıdır. Çapraz Doğrulanmış'a göz atıyorum ve Y ve X gibi hataların normal olması için normal olması gerekmez. Benim sorum, normalde dağıtılmayan hatalarımız olduğunda neden önem beyanlarımızın geçerliliği tehlikeye atılıyor? Güven aralıkları neden çok geniş veya dar olacak?

Yanıtlar:


9

normal olarak dağıtılmayan hatalarımız olduğunda neden önem beyanlarımızın geçerliliği tehlikeye atılır? Güven aralıkları neden çok geniş veya dar olacak?

Güven aralıkları, pay ve paydaların t istatistiklerinde dağıtılma şekline dayanmaktadır.

Normal verilerle, bir t-istatistiğinin payı normal bir dağılıma sahiptir ve payda karesinin (o zaman bir varyanstır) karesinin dağılımı, bir ki-kare dağılımının belirli bir katıdır. Pay ve payda da bağımsız olduğunda (gözlemlerin kendileri bağımsız olduğu göz önüne alındığında, normal verilerde olduğu gibi), tüm istatistiğin bir t dağılımı vardır.

Bu, gibi bir t istatistikinin çok önemli bir miktar olacağı anlamına gelir (dağılımı gerçek eğim katsayısının ne olduğuna bağlı değildir ve o bilinmeyen bir fonksiyonu var güven aralıkları inşa için uygun hale getirir), ... ve bu aralıkların ardından kullanacağı istenilen kapsama almak için kendi inşaat -quantiles.β^-βsβ^βt

Veriler başka bir dağıtımdan olsaydı, istatistiğin t-dağılımı olmazdı. Örneğin, ağır kuyruklu olsaydı, t dağılımı biraz daha hafif kuyruklu olma eğilimindeydi (dıştaki gözlemler paydayı paydan daha fazla etkiler). İşte bir örnek. Her iki durumda da, histogram 10.000 regresyon içindir:

resim açıklamasını buraya girin

Soldaki histogram, veriler koşullu olarak normal olduğunda, n = 30 (ve bu durumda ) içindir. Dağıtım olması gerektiği gibi görünüyor. Sağdaki histogram, koşullu dağılımın eğri ve ağır kuyruklu olduğu ve histogramın dışında çok az değer gösterdiği durum içindir - dağılım, normal veriler için teorik dağılıma benzemez, çünkü istatistik artık t-dağılımına sahip değil.β=0(-2,2)

% 95 t aralığı (numunemizdeki eğimlerin% 95'ini içermelidir) -2.048 ila 2.048 arasında çalışır. Normal veriler için, aslında 10000 numune eğiminin% 95.15'ini içermekteydi. Çarpık veriler için% 99.91 içerir.


Çarpık ve kuyruklu versiyon için hangi dağıtımı kullandınız?
gung - Monica'yı eski

2
Şekil parametresi 0.01 ile @ gung Gamma (örnek büyüklüğü 30, basit doğrusal regresyon monte edilmiş); diğer yüksek eğimli dağılımlarda oldukça benzer sonuçlar ortaya çıkar. Sen çarpık gelen dağıtım bakmak tamamen farklı hale getirmek için neredeyse o buna ihtiyacı yoktur . t
Glen_b
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.