Normal olarak dağılmış X ve Y'nin normal olarak dağılmış artıklara neden olma olasılığı daha yüksektir?

12

Burada doğrusal regresyonda normallik varsayımının yanlış yorumlanması tartışılmıştır ('normallik' artıklardan ziyade X ve / veya Y'yi ifade eder) ve poster normal olarak dağılmamış X ve Y'ye sahip olmanın mümkün olup olmadığını sorar ve hala normal olarak dağılmış kalıntıları vardır.

Benim sorum: normal olarak dağıtılan X ve Y'nin normal olarak dağıtılan artıklarla sonuçlanma olasılığı daha yüksek mi? Birçok ilgili yayın var, ancak bu soruyu özellikle sorduğu gibi kimseye inanmıyorum.

Bunun tek bir regresyon olması durumunda belki de önemsiz bir nokta olduğunun farkındayım, ancak birden fazla test varsa daha az. Diyelim ki hepsi aynı eğime sahip 100 X değişkenim var ve hepsini test etmek istiyorum. Hepsini normal bir dağılıma dönüştürdüysem, normal olarak dağılmayan artıklar nedeniyle yeniden incelemeye ihtiyaç duyan (farklı / dönüşümlü olmayan) daha az X değişkenine sahip olabilir miyim veya bir regresyon öncesi dönüşüm tamamen keyfi olur mu?

— Scott
kaynak

1

"Daha muhtemel" cevaplamak için, muhtemelen sadece marjlar değil, ortak dağıtım hakkında bir şeyler ortaya koymak zorundayız.

— Glen_b -Monica

15

Hayır artıklar olan değeri , koşullu üzerinde (eksi ortalama tahmin her noktasında ). Değişebilirsin (istediğiniz herhangi bir şekilde , , ) ve değerlerini buna karşılık gelir içinde belirli bir noktada değerler olmaz değişim. Böylece koşullu dağılımı (yani ) aynı olacaktır. Yani, daha önce olduğu gibi normal olacak veya olmayacak. (Bu konuyu daha iyi anlamak için cevabımı burada okumanıza yardımcı olabilir: $Y$ $X$ $Y$ $X$ $X$ $X + 10$ $X^{-1/5}$ $X/\pi$ $Y$ $X$ $X$ $Y$ $Y | X$ Kalanlar normal olarak dağıtılırsa, ancak Y dağıtılmazsa ne olur? )

Değişen yapabileceği şey (kullandığınız veri dönüşümünün doğasına bağlı olarak) ve arasındaki fonksiyonel ilişkiyi değiştirmektir . doğrusal olmayan bir değişiklikle (örneğin, eğriltmeyi kaldırmak için), daha önce düzgün bir şekilde belirtilen bir model yanlış tanımlanacaktır. doğrusal olmayan dönüşümleri genellikle ve arasındaki ilişkiyi doğrusallaştırmak , ilişkiyi daha yorumlanabilir kılmak veya farklı bir teorik soruyu ele almak için kullanılır. $X$ $X$ $Y$ $X$ $X$ $X$ $Y$

Doğrusal olmayan dönüşümlerin modeli nasıl değiştirebileceği ve modelin cevapladığı sorular (günlük dönüşümüne vurgu yaparak) hakkında daha fazla bilgi için, bu mükemmel CV dizilerini okumanıza yardımcı olabilir:

Doğrusal dönüşümler parametrelerinizin değerlerini değiştirebilir, ancak işlevsel ilişkiyi etkilemez. Hem merkezi Örneğin, ve regresyon, kesenini, çalıştırmadan önce haline gelecek . Benzer şekilde, bir sabitle böldüğünüzde (santimetreden metreye değiştiğini söyleyin) eğim bu sabitle çarpılır (örn. , yani 1 metreden 100 metreden fazla artacaktır). $X$ $Y$ $\hat \beta_0$ $0$ $X$ $\hat \beta_{1{\rm\ (m)}} = 100 \times \hat \beta_{1{\rm\ (cm)}}$ $Y$

Öte yandan, doğrusal olmayan dönüşümler edecek artıkların dağılımını etkiler. Aslında dönüştürülmesi , artıkların normalleştirilmesi için yaygın bir öneridir. Böyle bir dönüşümün onları daha fazla veya daha az normal hale getirip getirmeyeceği, artıkların ilk dağılımına ( ilk dağılımına değil ) ve kullanılan dönüşüme bağlıdır. Ortak bir strateji, Box-Cox dağıtım ailesinin parametresi üzerinden optimize etmektir . Bir uyarı burada uygundur: doğrusal olmayan dönüşümler modeliniz doğrusal olmayan dönüşümler olarak sadece misspecified yapabilirsiniz can. $Y$ $Y$ $Y$ $\lambda$ $Y$ $X$

Şimdi, eğer her ikisi de ve normaldir? Aslında, bu, eklem dağılımının iki değişkenli normal olacağını garanti etmez (bkz. @ Cardinal'in mükemmel cevabı: Eklem dağılımı Gaussian olmayan bir çift Gauss rastgele değişkenine sahip olmak mümkün mü ). $X$ $Y$

Tabii ki, bunlar oldukça garip olasılıklar gibi görünüyor, öyleyse marjinal dağılımlar normal görünüyorsa ve eklem dağılımı da iki değişkenli normal görünüyorsa, bu artıkların normal olarak da dağıtılmasını gerektiriyor mu? Cevabımda göstermeye çalıştığım gibi, yukarıda bağlandığım gibi, artıklar normal olarak dağıtılırsa, normalliği dağılımına bağlıdır . Bununla birlikte, artıkların normallerinin, marjinallerin normallerinden kaynaklandığı doğru değildir. Şu basit örneği (ile kodlanmış ) düşünün : $Y$ $X$ R

set.seed(9959)              # this makes the example exactly reproducible
x = rnorm(100)              # x is drawn from a normal population
y = 7 + 0.6*x + runif(100)  # the residuals are drawn from a uniform population

mod = lm(y~x)
summary(mod)
# Call:
# lm(formula = y ~ x)
# 
# Residuals:
#     Min      1Q  Median      3Q     Max 
# -0.4908 -0.2250 -0.0292  0.2539  0.5303 
# 
# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)    
# (Intercept)  7.48327    0.02980   251.1   <2e-16 ***
# x            0.62081    0.02971    20.9   <2e-16 ***
# ---
# Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# 
# Residual standard error: 0.2974 on 98 degrees of freedom
# Multiple R-squared:  0.8167,  Adjusted R-squared:  0.8148 
# F-statistic: 436.7 on 1 and 98 DF,  p-value: < 2.2e-16

resim açıklamasını buraya girin

Grafiklerde, her iki marjinalin de makul göründüğünü ve eklem dağılımının makul şekilde iki değişkenli normal göründüğünü görüyoruz. Bununla birlikte, artıkların homojenliği qq-grafiğinde ortaya çıkar; her iki kuyruk da normal dağılıma göre çok hızlı bir şekilde düşer (aslında olması gerektiği gibi).

— gung - Monica'yı eski durumuna döndürün
kaynak

0

Kısa cevap klasik Basit Regresyon Teorisinde, X sabittir ve bilindiği varsayılır (örneğin, bkz. Http://www.theanalysisfactor.com/the-distribution-of-independent-variables-in-regression-models-2/ ), herhangi bir ölçüm hatası olmadan bile En Küçük kareler beta sürümünüz taraflı ve hatta tutarsız olabilir (bkz. https://www.google.com/url?sa=t&source=web&rct=j&ei=Bd3sU4_kHfPjsATAm4LADA&url=https://files.nyu .edu / mrg217 / public / Measurement_handouts.pdf & cd = 2 & ved = 0CCMQFjAB & usg = AFQjCNF_pZvocW1SzInQPYpQTifUsQ36kQ & sig2 = 4lAnOQO23FiZbZ7323jOzA ).

X'i bir değişken yapmakla ilgili olarak, Gauss-Markov teoremindeki Wikipedia kısaca şunları söylüyor:

"OLS tedavilerinin çoğunda, X verilerinin sabit olduğu varsayılmaktadır. Bu varsayım, ekonometri gibi ağırlıklı olarak deneysel olmayan bir bilim için uygun görülmemektedir. [2] Bunun yerine Gauss – Markov teoreminin varsayımları X üzerinde koşullu olarak belirtilir "

bilimden sanata veya sanata / bilime büyük bir değişmez dönüşüm olarak okudum.

— AJKOER
kaynak