Kalanlar normal dağılmış fakat y değilse?


110

Garip bir sorum var. Basit bir doğrusal modelle analiz edeceğiniz bağımlı değişkenin çarpık kaldığı küçük bir örneğiniz olduğunu varsayalım. Böylece farz bu normalde dağıtılmış olmasına neden olur, çünkü normalde, dağıtılan değildir . Ancak QQ-Normal grafiğini hesapladığınızda, artıkların normal dağıldığına dair kanıtlar vardır. Böylece, herkes, olmamasına rağmen, hata teriminin normal şekilde dağıldığını varsayabilir . Yani ne o hata terimi normal dağılıma sahip gibi görünüyor zaman tabii ama gelmez yapar ki?y y yuyyy

Yanıtlar:


143

Tepki değişkeni olmasa da, regresyon probleminde kalanların normal olarak dağılması makul olur. olan tek değişkenli bir regresyon sorunu düşünün . böylece regresyon modelinin uygun olması ve ayrıca değerinin gerçek olduğunu varsayalım . Bu durumda, gerçek regresyon modelinin kalıntıları normal olsa da, koşullu ortalaması bir fonksiyonu olduğu için dağılımı dağılımına bağlıdır . Veri kümesi değerlerinin bir sürü varsa sıfıra yakın olan ve gittikçe daha az yüksek bir değer , daha sonra dağılımβ = 1 y x y x xyN(βx,σ2)β=1yxyxxxy sola doğru eğilir. Eğer değerleri simetrik olarak dağıtılmışsa, simetrik olarak dağıtılacaktır, vb. Bir regresyon problemi için, cevabın sadece değerinde şartlandırılmış normal olduğunu varsayıyoruz .xyx


9
(+1) Bunun yeterince sık tekrarlanabileceğini sanmıyorum! Ayrıca burada tartışılan aynı konuya bakın .
Wolfgang

1
Cevabınızı anlıyorum ve doğru geliyor. En azından çok fazla olumlu oy kazandınız :) Ama ben hiç mutlu değilim. Dolayısıyla, örneğinizde yaptığınız varsayımlar . Ancak regresyon tahmin ederken tahmin ediyorum . Bu yüzden ortalamaları tahmin ettiğimde verilmelidir. Bundan x'in bir değer olduğunu takip etmeli ve farkına varmadan önce nasıl dağıldığını önemsemem. Yani dağılımıdır . Nerede anlamıyorum etkiliyor . β=1yN(1x,σ2)E(y|x)xyN(value,σ2)yxy
MarkDollar

4
Oylama sayısına da (hoşça) şaşırdım; o) Regresyon modeline uymak için kullanılan verileri elde etmek için, tahmin etmek istediğiniz bazı ortak dağıtım 'den bir örnek aldınız. . Bununla birlikte, , (gürültülü) bir fonksiyonu olduğu için, numunelerinin dağılımı, o özel numune için numunelerinin dağılımına bağlı olmalıdır . "true" dağılımı ilginizi , ancak y'nin örnek dağılımı x örneğine bağlıdır. p(y,x)E(y|x)yxyxx
Dikran Marsupial

2
Lattitude ( ) ' in bir fonksiyonu olarak sıcaklık ( )' nin bir tahmin örneğini düşünün . değerlerinin dağılımı, hava istasyonlarını nereye yerleştirmeyi seçtiğimize bağlı olacaktır. Eğer hepsini kutuplara veya ekvatorlara yerleştirirsek, iki modlu bir dağılıma sahip oluruz. Bunları düzenli bir eşit alan ızgarasına yerleştirirsek, iklim fiziği her iki örnek için aynı olmasına rağmen, değerlerinin tekdüze olmayan bir dağılımını elde ederiz . Elbette bu sizin takılan regresyon modelinizi etkileyecektir ve bu tür şeylerin çalışılması "ortak değişken kayması" olarak bilinir. HTHyxyy
Dikran Marsupial

Ayrıca, , kullanılan verilerin operasyonel eklem dağılımından elde edilen bir iddialı örnek olduğu varsayımına bağlı olduğundan şüpheleniyorum . p ( y , x )E(y|x)p(y,x)
Dikran Marsupial

100

@DikranMarsupial elbette tam olarak haklı, ancak özellikle bu kaygı sıkça ortaya çıktığı için, amacını açıklamanın güzel olabileceği aklıma geldi . Spesifik olarak, bir regresyon modelinin kalıntıları normalde p değerlerinin doğru olması için dağıtılmalıdır. Ancak, artıklar normal olarak dağılmış olsa bile, bu olacağını garanti etmez (önemli değil ...); dağılımına bağlıdır . XYX

Basit bir örnek alalım (ki ben bunu yapıyorum). Diyelim ki izole sistolik hipertansiyon için bir ilacı test ediyoruz (yani, en yüksek tansiyon sayısı çok yüksek). Sistolik bp'nin normalde hasta popülasyonumuzda, ortalama 160 ve SD3'lük bir dağılım ile dağıldığını ve hastaların her gün aldıkları ilacın her mg'si için sistolik bp'nin 1 mmHg azaldığını da belirtelim. Başka bir deyişle, değerinin gerçek değeri 160 ve -1 ve gerçek veri oluşturma işlevi şudur: β 1 B P s y s = 160 - 1 x günlük ilaç dozajı + εβ0β1X,

BPsys=1601×daily drug dosage+εwhere εN(0,9)
Hayali çalışmamızda, günde 300 mg hasta 0 mg (plasebo), 20 mg veya 40 mg bu yeni ilacı almaya randomize edilmiştir. ( normal şekilde dağılmadığına dikkat edin .) Ardından, ilacın etkili olması için yeterli bir süre geçtikten sonra verilerimiz şöyle görünebilir: X

görüntü tanımını buraya girin

(Dozajları, puanları ayırt etmeleri zor olacak kadar örtüşmeyecek şekilde sıkıştırdım.) Şimdi, (yani, marjinal / orijinal dağılım) dağılımını ve artıkları kontrol edelim : Y

görüntü tanımını buraya girin

Qq-plotlar bize uzaktan normal olmadığını, artıkların oldukça normal olduğunu gösteriyor. Çekirdek yoğunluğu grafikleri bize dağıtımların daha sezgisel olarak erişilebilir bir resmini verir. Açıktır ise üç modlu artıklar bir normal dağılım bakmak gerekiyordu çok benziyor oysa. YYY

Peki ya takılan regresyon modeli, normal olmayan ve (ancak normal artıkların) etkisi nedir? Bu soruyu cevaplamak için, böyle bir durumda bir regresyon modelinin tipik performansıyla ilgili neye endişelenebileceğimizi belirtmemiz gerekir. İlk mesele, ortalama olarak betalar değil mi? (Elbette, bazılarının etrafında zıplayacaklar, ancak uzun vadede, betaların örnekleme dağılımları gerçek değerlere odaklanmış mı?) Bu önyargı meselesi . Başka bir konu ise, aldığımız p değerlerine güvenebilir miyiz? Yani, sıfır hipotezi doğru olduğunda,X p < .05 β 1YXp<.05zamanın sadece% 5'i? Bunları belirlemek için, yukarıdaki veri üretme sürecindeki verileri ve ilacın etkisinin olmadığı, çok sayıda, paralel bir durumu simüle edebiliriz. Daha sonra örnekleme dağılımlarını ve gerçek değere odaklanıp odaklanmadıklarını kontrol edebilir ve boş durumda, ilişkinin ne sıklıkla 'önemli' olduğunu kontrol edebiliriz: β1

set.seed(123456789)                       # this make the simulation repeatable

b0 = 160;   b1 = -1;   b1_null = 0        # these are the true beta values
x  = rep(c(0, 20, 40), each=100)          # the (non-normal) drug dosages patients get

estimated.b1s  = vector(length=10000)     # these will store the simulation's results
estimated.b1ns = vector(length=10000)
null.p.values  = vector(length=10000)

for(i in 1:10000){
  residuals = rnorm(300, mean=0, sd=3)
  y.works = b0 + b1*x      + residuals
  y.null  = b0 + b1_null*x + residuals    # everything is identical except b1

  model.works = lm(y.works~x)
  model.null  = lm(y.null~x)
  estimated.b1s[i]  = coef(model.works)[2]
  estimated.b1ns[i] = coef(model.null)[2]
  null.p.values[i]  = summary(model.null)$coefficients[2,4]
}
mean(estimated.b1s)       # the sampling distributions are centered on the true values
[1] -1.000084                  
mean(estimated.b1ns)
[1] -8.43504e-05               
mean(null.p.values<.05)   # when the null is true, p<.05 5% of the time
[1] 0.0532                   

görüntü tanımını buraya girin

Bu sonuçlar, her şeyin yolunda gittiğini göstermektedir.

Hareketlerden geçmeyeceğim, ancak eğer normal olarak dağıtılmış olsaydı , aksi halde aynı kurulumla, orijinal / marjinal dağılımı normalde artıklar gibi dağıtılırdı (daha büyük bir SD'ye rağmen). Ayrıca, çarpık bir dağılımının (bu sorunun arkasındaki itici güç) etkilerini de göstermedim , fakat @ DikranMarsupial'ın noktası bu durumda olduğu gibi geçerlidir ve benzer şekilde gösterilebilir.Y XX YX


1
Yani artıkların normal olarak dağılmış olduğu varsayımı sadece p değerlerinin doğru olması için mi? Kalıntı normal değilse neden p değerleri yanlış gidebilir?
avokado

3
@loganecolss, yeni bir soru olarak daha iyi olabilir. Her halükarda, evet , p değerlerinin doğru olup olmadığını anlamak zorundadır. Kalıntılarınız yeterince normal değilse ve N'niz düşükse, örnekleme dağılımı nasıl yapıldığına göre değişir. P-değeri, bu örnekleme dağılımının ne kadarının test istatistiğinizin ötesinde olduğu için p-değeri yanlış olacaktır.
gung

0

Bir regresyon modeline uygun olarak, her seviyesindeki cevabın normalliğini kontrol etmeliyiz , ancak bu amaç için anlamsız olduğundan toplu olarak değil . Gerçekten normalliğini kontrol etmeniz gerekirse , her seviyesi için kontrol edin .XY XYX


3
Cevabın marjinal dağılımı hiç "anlamsız" değildir; cevabın marjinal dağılımı (ve genellikle normal hatalarla düz regresyon dışındaki modellerde ipucu vermelidir). Söz konusu modeli eğlendirdiğimizde şartlı dağılımların önemli olduğunu vurgulamakta haklısınız, ancak bu mevcut mükemmel cevaplara yardımcı olmuyor.
Nick Cox
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.