Bağımlı değişkenin normalliği = artıkların normalliği?

Bu mesele her zaman çirkin kafasını ortaya çıkarıyor gibi görünüyor ve kendi istatistik anlayışımla (ve akıl sağlığımla!) Başa çıkmaya çalışıyorum.

Genel doğrusal modellerin (t-testi, ANOVA, regresyon vb.) Varsayımları “normalliğin varsayımını” içerir, ancak bunun nadiren açıkça tanımlandığını buldum.

Sık sık, “normalliğin varsayımının” her grup için geçerli olduğunu belirten istatistik kitaplarına / el kitaplarına / vb . Rastladım. Her bir grubun normallikten ayrılmalarını incelemeliyiz .

Sorular :

varsayımlar Y veya Y kalıntıları değerlerini ifade ediyor mu?
Belirli bir grup için , Y değerleri artıklarının yaklaşık olarak (veya en azından normal olarak) yaklaşık olarak normal olmayan bir Y değer dağılımına (örneğin eğriltilmiş) sahip olmak mümkün mü?

Diğer kaynaklar, varsayımın modelin kalıntılarıyla ilgili olduğunu (grupların olduğu durumlarda, örneğin t-testleri / ANOVA) ve bu kalıntıların normalliğinin ayrıldığını incelemeliyiz (yani, sadece bir QQ arsa / testi) koşmak).
için artıkların normalliği gelmez modelinin ait artıkların normalliği ima gruplar ? Başka bir deyişle, model artıklarını incelememiz gerekir mi (birçok metindeki talimatların aksine)?

Bunu bir bağlama koymak için, bu varsayımsal örneği düşünün:
- İki popülasyon (X) arasındaki ağaç yüksekliğini (Y) karşılaştırmak istiyorum.
- Bir popülasyonda, Y dağılımı kuvvetle sağ çarpıktır (yani, çoğu ağaç kısa, çok az boylu), diğeri neredeyse normaldir
- Yükseklik normal dağılıma sahip popülasyonda daha yüksektir ('gerçek' bir fark olabileceğini düşündürmektedir).
- Verilerin dönüşümü, ilk popülasyonun dağılımını önemli ölçüde iyileştirmez.
Öncelikle, kökten farklı yükseklik dağılımları verilen grupları karşılaştırmak geçerli midir?
Burada "normallik varsayımına" nasıl yaklaşırım? Bir popülasyondaki hatırlama yüksekliği normalde dağılmaz. Kalıntıları her iki popülasyon için ayrı ayrı mı inceliyorum yoksa modele ait kalıntıları (t-testi)?

Lütfen cevaplardaki sayılara göre sorulara bakın, deneyim bana insanların kolayca kaybolduklarını ya da kırıldıklarını gösterdi (özellikle ben!). Unutma, istatistikçi değilim; Yine de istatistiklerle ilgili makul bir kavramsal (yani teknik değil!) anlayışa sahibim .

PS, arşivleri araştırdım ve anlayışımı geliştirmeyen aşağıdaki konuları okudum:

normal-distribution residuals normality-assumption

— DeanP
kaynak

" Soru 1) varsayım Y değerlerini mi yoksa Y'nin kalıntılarını mı ifade ediyor? " - Kesin olarak söylemek gerekirse, ikisi de kontrol ettiğiniz şey olsa da . Normal kabul edilen, gözlemlenemeyen hatalar veya her bir tahmincinin kombinasyonunda Y'nin koşullu dağılımıdır . Koşulsuz Y dağılımının normal olduğu kabul edilmez.

— Glen_b

+1 Bu sorunun ortaya çıktığı bazı konuların çoğunu düzenleme ve birleştirme çabası için teşekkür ederiz; kesinlikle bir SSS.

— whuber

Sadece bu soru için teşekkür ederim. Hem konu için hem de ne kadar iyi organize ve bağlantılı olduğunu. Bunu uzun zaman önce sorduğunuzu biliyorum ama bu çok iyi bir soru!

— hmmmm

Yanıtlar:

Anlamanıza yardımcı olabilecek bir nokta:

$x$ $a$ $b$ $y=\frac{x-a}{b}$

Artıklar sadece y değerleri eksi olduğu için, tahmin edilen ortalama (standartlaştırılmış artıklar da standart hatanın bir tahminine bölünür), o zaman y değerleri normal olarak dağılmışsa, artıklar hem de çevresindedir. Dolayısıyla teori ya da varsayımlar hakkında konuştuğumuzda, hangisinin konuştuğumuz önemli değil çünkü biri diğerini ima ediyor.

Yani bu yol açar sorular için:

evet, ikisi de
Hayır, (ancak bireysel y değerleri, birlikte gruplanırsa normal görünmemesini sağlayacak farklı araçlara sahip normallerden gelecek)
Artıkların normalliği, grupların normalliği anlamına gelir, ancak bazı durumlarda artıkları veya y-değerlerini gruplara göre incelemek iyi olabilir (havuzlama, bir grupta açıkça görülen normal olmayan davranışları gizleyebilir veya başka durumlarda hepsine birlikte bakabilir (yeterli gözlem yok) Grup başına belirlemek, ancak hep birlikte söyleyebilirsiniz).
Bu, ne demek istediğinizi, örnek büyüklüğünüzün ne kadar büyük olduğunu ve "Yaklaşık" konusundaki hislerinizi gösterir. Normallik varsayımı sadece sonuçlar üzerindeki testler / aralıklar için gereklidir, modele uyabilir ve normallik olup olmadığını belirten nokta tahminlerini açıklayabilirsiniz. Merkez Sınırı Teoremi, eğer örneklem büyüklüğü yeterince büyükse, artıklar olmasa bile tahminlerin yaklaşık olarak normal olacağını söylüyor.
Hangi soruyu cevaplamaya çalıştığınıza ve ne kadar mutlu olduğunuza bağlı.

Anlamak için önemli olan bir başka nokta (fakat öğrenmede genellikle sıkışık olan) burada 2 tip artık kalıntısı olmasıdır: Gözlenen değerler ile gerçek teorik model arasındaki farklar olan teorik artıklar ile farklar arasındaki gözlenen artıklar gözlemlenen değerler ve hali hazırda takılan modelden elde edilen tahminler arasında. Teorik artıkların normal olduğunu varsayıyoruz. Gözlenen artıklar, i, i veya normal dağılıma sahip değildir (fakat ortalamaları 0'dır). Bununla birlikte, pratik amaçlar için gözlenen artıklar teorik artıkları tahmin etmekte ve bu nedenle teşhis için hala yararlı olmaktadır.

— Greg Snow
kaynak

Hatalar ve artıklar hakkında daha fazla bilgi için, bu makaleyi wiki en.wikipedia.org/wiki/Errors_and_residuals

— adresinde okumanın

y - \hat{y}

$y - \hat y$

y

$y$

\hat{y}

$\hat{y}$

-

$-$ "eksi" dır).

— Greg Snow

On birinci (ikinci çeyrek cevabına göre kabul edildi): Açıkçası, artık Y'ler değil, artıklar. Değişkenler gözlemler arasında farklılık gösterdiğinde, artıklar normal olsa bile iki yönlü bir marjinal dağılıma kolayca sahip olabilirsiniz. Dolayısıyla, Ys'ye, sadece artıklara bakılamaz.

— Björn

@Bjorn, bu iyi bir açıklama. Y değişkenleri normaldir, x'e göre koşulludur, bu nedenle ham y değerleri normallerin bir karışımıdır ve sadece y değerlerinin bir grafiği x üzerinde normal koşullu olduğu varsayımına uysalar bile normallik göstermeyebilir. Teşhis için genellikle artıkları kullanırız (çünkü şartlı kısım çoğunlukla kaldırılmıştır). (Koşullu) normallik varsayımı hem teorik artıkları hem de y-değerlerini ifade eder.

— Greg Snow,

Kısa cevaplar:

kalıntılar
yok hayır
Her iki yaklaşımın da avantajları ve dezavantajları vardır
neden olmasın? Ortalamaları ortalama yerine karşılaştırmak daha mantıklı olabilir.
bize söylediklerinizden, normallik varsayımı muhtemelen ihlal edilmiştir

Daha uzun cevap:

Bu varsayım, bağımlı değişkenin (y) normal olarak dağıldığı ancak farklı gruplar için farklı araçlara sahip olduğu varsayımıdır . Sonuç olarak, sadece y dağılımını çizerseniz, standart çan şeklindeki normal eğrinizden kolayca çok farklı görünebilir. Artıklar y'nin "filtrelenmiş" anlamına gelen bu farklarla dağılımını temsil eder.

Alternatif olarak, her gruptaki y dağılımına ayrı ayrı bakabilirsiniz. Bu aynı zamanda gruplar arasındaki yollardaki farklılıkları da filtreler. Bunun avantajı, bu şekilde sizin durumunuzla alakalı gibi görünen her gruptaki dağılım hakkında da bilgi edinmenizdir. Dezavantajı, her grubun artıklara bakarken elde edeceğiniz birleşik veri setinden daha az gözlem içermesidir. Dahası, birçok grubunuz varsa, örneğin modelinize birçok yordayıcı değişkenleri girdiğinizden ya da modelinize bir (yarı-sürekli) yordayıcı değişkeni girdiğiniz için grupları anlamlı şekilde karşılaştıramazsınız. Bu nedenle modeliniz yalnızca bir kategorik yordayıcı değişkeninden oluşuyorsa ve her gruptaki gözlem sayısı yeterince büyükse, o zaman her gruptaki y dağılımını ayrı ayrı incelemek anlamlı olabilir.

— Maarten Buis
kaynak

Kesinlikle, artıklar yalnızca bilinmeyen ve bilinmeyen hataların veya rahatsızlıkların tahminidir, bu nedenle normallik ilke olarak doğru olsa bile, pratikte normal artıkları elde edemezsiniz. Daha da önemlisi, hataların normalliği bu yöntemlerde en az önemli varsayımdır!

— Nick Cox

@NickCox (+1) her iki sayıma da karar verdi

— Maarten Buis

$Y$ $X$
$X$ $Y$

$e$ $Y$ $\epsilon$ $X$
$Y$ $Y|X-N(X\beta,\sigma^2)$
$X$ $Y$ $Y|X$ normal.

Sorular 2)
Evet için çarpık değerlere sahip olmak mümkündür. $Y$ $X$ . Yine de, eğer bütün varsayımlar karşılanırsa, artıklar normal olacaktır (başka zaman aralıkları ve hipotez testleri nasıl yapılabilir ?!). Sorunuzun bu kısmı için, bu başlıkta oldukça kesin bir cevap var: Ya artıklar normal dağılmışsa, ama y değilse?

Soru 3)
Normallik gerektiren lineer modellerin kullanılması için önemli olan şey, normal olmayan, toplamda bir grup içinde olan veya olmayan artıkların, modelinizin verilerinize uymayabileceğini gösteren önemli bir gösterge olduğudur.
Eğer ANOVA yapıyorsanız, o zaman elbette genel artıklarınızın normal olması gerekmez (ya da daha doğrusu homoscedastik), bu mantıklı olmaz. Yine de, bir gerilemede, genel olarak normal artıklarla sonuçlanan bir modeliniz olsa iyi olur. Aksi takdirde, aralık tahmincileriniz ve testleriniz yanlış olacaktır. Bu, belirli otokorelasyonlar veya eksik bir değişken önyargısı olabilir. Model% 100 doğruysa (belki yapısal kırılmalar ve gerekirse ağırlıklandırma dahil), normal hata terimlerini varsaymak çok da zor değildir, hatta 0 civarındadır. yeterince büyük mü Kesin bir cevap yoktur, ancak% 100 doğru bir yaklaşım için evet, tüm artıklar normal olmalıdır.

Soru 4 ve 5) Karşılaştırarak
ne demek istediğine bağlı. Normal hata terimlerinin varsayımı göz önüne alındığında, iki farklı dağılımın varsayımına dayanarak test edebilirsiniz. Farklı dağıtım parametrelerini hesaba katmak için GLS tahminini bir regresyon için de kullanabilirsiniz - Eğer doğru bir modele sahipseniz ... ve sanırım gruplarınızın kendileri bir gösterge / ikili değişken olarak çalışıyor mu?
Öyleyse, artıkların dağılımının normal olacağına karar vermek muhtemelen çok zor olacaktır - sonuç, verilerinizle bir şeyler yapabilmenize rağmen, normal OLS'ye dayandırılmayacak olmasıdır.
Ancak, verilerle ne yapmak istediğinize bağlıdır.

$Y|X$

Bence, normal OLS cebirinin sonuç dağılımlarına odaklanarak bakmak iyi bir yaklaşım olacaktır.

— IMA
kaynak