Bazı problemlere bakıyorum ve bazılarında katsayıları test etmek için bazen Öğrenci dağılımını kullanan insanları, bazen Normal dağılımı görüyorum. Kural nedir?
Bazı problemlere bakıyorum ve bazılarında katsayıları test etmek için bazen Öğrenci dağılımını kullanan insanları, bazen Normal dağılımı görüyorum. Kural nedir?
Yanıtlar:
Normal dağılım, Merkezi Limit Teoreminin bazı versiyonlarını içeren birçok anlamlı istatistiksel problemde büyük örnek dağılımıdır: cevaba ulaşmak için eklenmiş (yaklaşık) bağımsız bilgi parçanız var. Parametre tahminleri asimptotik olarak normalse, fonksiyonları asemptotik olarak normal olacaktır (normal durumlarda).
Öte yandan, Student dağılımı normal regresyon hatalarında daha kısıtlayıcı koşullar altında elde edilir. Bu varsayımı satın alabiliyorsanız, lineer regresyonda hipotezi test etmek için kullanılan dağılımını satın alabilirsiniz . Bu dağılımın kullanımı, normal dağılımın kullanımından daha geniş güven aralıkları sağlar. Bunun asıl anlamı, küçük örneklerde, belirsizlik ölçünüzü, regresyon ortalama kare hatası veya artıkların standart sapmasını tahmin etmeniz gerektiğidir . (Büyük örneklerde, bildiğiniz kadar bilgi sahibi olursunuz, bu nedenle dağılımı normal dağılıma dönüşür.)t σ t
Öğrenci dağılımının haklı gösterilemediği sonlu örneklerle bile doğrusal regresyonda bazı durumlar vardır. Bunlar, regresyon hatalarına ilişkin ikinci dereceden koşulların ihlali ile ilgilidir; yani (1) sabit varyans ve (2) bağımsız olmaları. Bu varsayımlar ihlal edilirse ve standart hatalarınızı heteroskedastik, ancak bağımsız artıklar için Eicker / White tahmincisi kullanarak düzeltirseniz ; veya seri olarak ilişkili hatalar veya kümelenmiş standart hatalar için Newey-West tahmincisiküme ile ilişkili veriler için, Öğrenci dağıtımı için makul bir gerekçe sunmanın bir yolu yoktur. Bununla birlikte, asimptotik normallik argümanının (traingüler diziler ve benzeri) uygun bir sürümünü kullanarak, normal yaklaşımı haklı gösterebilirsiniz (ancak güven aralıklarınızın çok dar olacağını aklınızda bulundurmalısınız).
Öğrenci t dağılımının normal dağılım ve gama dağılımının bir karışımı olarak gösterilmesini seviyorum:
Gama dağılımının ortalamasının ve bu dağılımın varyansının . Dolayısıyla t-dağılımını, sabit varyans varsayımını "benzer" varyans varsayımına genelleme olarak görebiliriz. temel olarak varyansların ne kadar benzer olmasına izin verdiğimizi kontrol eder. Yukarıdaki integrali "gizli değişken" gösterimi olarak şu şekilde kullanabileceğimiz için bunu "rastgele ağırlıklı" regresyon olarak da görürsünüz:V [ ρ | ν ] = 2 ν
Burada ve tüm değişkenlerden bağımsızdır. Aslında bu sadece t-dağılımının tanımı,ρ ı ~ G bir m m bir ( νG, birmmbir(ν
Büyük bir değeri veya küçük bir değeri nedeniyle büyük bir hatası oluşabileceğinden , bu sonucun neden öğrenci dağılımını normale göre "sağlam" hale görebilirsiniz . Şimdi tüm gözlemler için ortaktır, ancak , sonuçlanacak genel "sağduyu" şey, aykırı değerlerin küçük için kanıt . Ayrıca, lineer regresyon yapacak , bilindiği varsayılarak, ith gözleminin ağırlığı olduğunuσ 2 ρ i σ 2 ρ i ρ i μ i = x T iρ i ρ i
Bir uç değer, küçük bir kanıt oluşturmaktadır Böylece i gözlem az ağırlık alacağı anlamına gelir. Buna ek olarak, küçük bir "aykırı" - diğerlerinden çok daha iyi öngörülen / takılan bir gözlem - büyük bir için kanıt oluşturur . Dolayısıyla bu gözlemde regresyonda daha fazla ağırlık verilecektir. Bu, bir aykırı değer veya iyi bir veri noktası ile sezgisel olarak ne yapılacağı ile uyumludur.ρ i
Bu sorulara karar vermek için bir "kural" olmadığını unutmayın, ancak benimki ve diğerleri bu soruya verilen yanıt , sonlu varyans yolu boyunca yapabileceğiniz bazı testleri bulmak için yararlı olabilir (öğrenci t, eşit veya daha düşük özgürlük dereceleri için sonsuz varyanstır) ikiye).