Regresyon çizgisini tahmin etmek için neden artıkların normalliği “hiç de önemli değil”?


21

Gelman ve Hill (2006) p46'ya şunu yazmaktadır:

Genel olarak en az önemli olan regresyon varsayımı, hataların normal olarak dağılmış olmasıdır. Aslında, regresyon çizgisini tahmin etmek amacıyla (bireysel veri noktalarının tahmin edilmesine kıyasla), normallik varsayımı hiç de önemli değildir. Bu nedenle, birçok regresyon ders kitabının aksine, regresyon artıklarının normalliğinin teşhisini önermiyoruz.

Gelman ve Hill bu noktayı daha fazla açıklamıyorlar.

Gelman ve Hill doğru mu? Eğer öyleyse, o zaman:

  1. Neden "hiç de önemli değil"? Neden önemli değil ya da tamamen alakasız?

  2. Bireysel veri noktalarını öngörürken, artıkların normalliği neden önemlidir?

Gelman, A., & Hill, J. (2006). Regresyon ve çok seviyeli / hiyerarşik modeller kullanılarak veri analizi. Cambridge Üniversitesi Basını

Yanıtlar:


21

İçin tahmini normallik tam bir varsayım değil, büyük bir göz verimliliği olurdu; Birçok durumda iyi bir doğrusal tahminci iyi sonuç verir ve bu durumda (Gauss-Markov tarafından), LS tahmini, iyi olacak şeylerin en iyisi olacaktır. (Yazılarınız oldukça ağır veya çok hafifse, başka bir şeyi düşünmeniz mantıklı olabilir)

Testler ve CI'larda, normallik varsayılırsa da, genellikle o kadar kritik değildir (yine, kuyruklar çok ağır veya hafif olmadığı sürece veya belki de her birinin biri olduğu sürece), bu durumda, en azından çok değil- küçük numuneler testler ve tipik CI'lerin nominal özelliklerine yakın olma eğilimindedir (iddia edilen önem seviyesi veya kapsamdan çok uzak olmayan) ve iyi performans gösterir (tipik durumlar için makul güç veya alternatiflerden çok geniş olmayan CI'ler için) normal durumdan daha ileri bir güç sorunu daha fazla olabilir ve bu durumda büyük numuneler genellikle göreceli verimliliği arttırmaz, bu nedenle etki büyüklükleri göreceli olarak iyi bir güce sahip bir testte gücün orta olduğu durumlarda, çok zayıf olabilir normalliği üstlenen testler için.

CI'lerin nominal özelliklerine yakın olma eğilimi ve testlerdeki anlamlılık seviyeleri, birlikte çalışan birçok faktörden kaynaklanmaktadır (bunlardan biri, değişkenlerin çok fazla olduğu sürece normal dağılıma yakın olması için değişkenlerin doğrusal kombinasyonlarının eğilimidir) ve Bunların hiçbiri toplam varyansın büyük bir kısmına katkıda bulunmuyor).

Bununla birlikte, normal varsayıma dayanan bir tahmin aralığı söz konusu olduğunda, normalite göreceli olarak daha önemlidir, çünkü aralığın genişliği tek bir değerin dağılımına büyük ölçüde bağlıdır . Bununla birlikte, orada bile, en yaygın aralık boyutu için (% 95 aralık), çoğu tek biçimli dağılımın, ortalamanın yaklaşık 2sds içinde dağılımlarının% 95'ine çok yakın olması, normal bir tahmin aralığının bile makul bir performans göstermesine neden olma eğilimindedir. dağılım normal değilken. [Bu, çok daha dar veya daha geniş aralıklarla o kadar iyi bir şekilde ilerlemiyor -% 50 aralık veya% 99.9 aralık - yine de.]


"Değişkenlerin doğrusal kombinasyonlarının normal dağılıma yakın olma eğilimi". - Bunun Merkezi Limit Teoremine bağlı olmadığını varsayalım. Bu mu? Eğer değilse, bu nasıl bir "teorem"?
Heisenberg

1
@Heisenberg CLT'nin belirli sürümleriyle bağlantısı var, evet. (Lyapunov ve Lindeberg sürümlerini görür buraya ). Sonlu örneklere uygulamak için bir teorem istiyorsanız, Berry-Esseen teoreminin bir versiyonuna bakıyoruz. Ancak ifadenin bir teoremden çok bir gözlem (dolayısıyla “eğilim” kelimesinin kullanılması) amaçlanmıştır.
Glen_b -Reinstate Monica

7

2: Bireysel veri noktalarını tahmin ederken, bu tahminin etrafındaki güven aralığı artıkların normal dağıldığını varsayar.

Bu, güven aralıklarıyla ilgili genel varsayımdan çok farklı değildir - geçerli olması için dağılımını anlamamız gerekir ve en yaygın varsayım normalliktir. Örneğin, ortalama bir çalışma etrafında standart bir güven aralığı, çünkü örneklerin dağılımı normallik anlamına gelir, bu nedenle az ya da t dağılımını kullanabiliriz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.