normal olarak dağıtılmayan hatalarımız olduğunda neden önem beyanlarımızın geçerliliği tehlikeye atılır? Güven aralıkları neden çok geniş veya dar olacak?
Güven aralıkları, pay ve paydaların t istatistiklerinde dağıtılma şekline dayanmaktadır.
Normal verilerle, bir t-istatistiğinin payı normal bir dağılıma sahiptir ve payda karesinin (o zaman bir varyanstır) karesinin dağılımı, bir ki-kare dağılımının belirli bir katıdır. Pay ve payda da bağımsız olduğunda (gözlemlerin kendileri bağımsız olduğu göz önüne alındığında, normal verilerde olduğu gibi), tüm istatistiğin bir t dağılımı vardır.
Bu, gibi bir t istatistikinin çok önemli bir miktar olacağı anlamına gelir (dağılımı gerçek eğim katsayısının ne olduğuna bağlı değildir ve o bilinmeyen bir fonksiyonu var güven aralıkları inşa için uygun hale getirir), ... ve bu aralıkların ardından kullanacağı istenilen kapsama almak için kendi inşaat -quantiles.β^- βsβ^βt
Veriler başka bir dağıtımdan olsaydı, istatistiğin t-dağılımı olmazdı. Örneğin, ağır kuyruklu olsaydı, t dağılımı biraz daha hafif kuyruklu olma eğilimindeydi (dıştaki gözlemler paydayı paydan daha fazla etkiler). İşte bir örnek. Her iki durumda da, histogram 10.000 regresyon içindir:
Soldaki histogram, veriler koşullu olarak normal olduğunda, n = 30 (ve bu durumda ) içindir. Dağıtım olması gerektiği gibi görünüyor. Sağdaki histogram, koşullu dağılımın eğri ve ağır kuyruklu olduğu ve histogramın dışında çok az değer gösterdiği durum içindir - dağılım, normal veriler için teorik dağılıma benzemez, çünkü istatistik artık t-dağılımına sahip değil.β= 0( - 2 , 2 )
% 95 t aralığı (numunemizdeki eğimlerin% 95'ini içermelidir) -2.048 ila 2.048 arasında çalışır. Normal veriler için, aslında 10000 numune eğiminin% 95.15'ini içermekteydi. Çarpık veriler için% 99.91 içerir.