@DikranMarsupial elbette tam olarak haklı, ancak özellikle bu kaygı sıkça ortaya çıktığı için, amacını açıklamanın güzel olabileceği aklıma geldi . Spesifik olarak, bir regresyon modelinin kalıntıları normalde p değerlerinin doğru olması için dağıtılmalıdır. Ancak, artıklar normal olarak dağılmış olsa bile, bu olacağını garanti etmez (önemli değil ...); dağılımına bağlıdır . XYX
Basit bir örnek alalım (ki ben bunu yapıyorum). Diyelim ki izole sistolik hipertansiyon için bir ilacı test ediyoruz (yani, en yüksek tansiyon sayısı çok yüksek). Sistolik bp'nin normalde hasta popülasyonumuzda, ortalama 160 ve SD3'lük bir dağılım ile dağıldığını ve hastaların her gün aldıkları ilacın her mg'si için sistolik bp'nin 1 mmHg azaldığını da belirtelim. Başka bir deyişle, değerinin gerçek değeri 160 ve -1 ve gerçek veri oluşturma işlevi şudur:
β 1 B P s y s = 160 - 1 x günlük ilaç dozajı + εβ0β1X,
BPsys=160−1×daily drug dosage+εwhere ε∼N(0,9)
Hayali çalışmamızda, günde 300 mg hasta 0 mg (plasebo), 20 mg veya 40 mg bu yeni ilacı almaya randomize edilmiştir. ( normal şekilde dağılmadığına dikkat edin .) Ardından, ilacın etkili olması için yeterli bir süre geçtikten sonra verilerimiz şöyle görünebilir:
X
(Dozajları, puanları ayırt etmeleri zor olacak kadar örtüşmeyecek şekilde sıkıştırdım.) Şimdi, (yani, marjinal / orijinal dağılım) dağılımını ve artıkları kontrol edelim : Y
Qq-plotlar bize uzaktan normal olmadığını, artıkların oldukça normal olduğunu gösteriyor. Çekirdek yoğunluğu grafikleri bize dağıtımların daha sezgisel olarak erişilebilir bir resmini verir. Açıktır ise üç modlu artıklar bir normal dağılım bakmak gerekiyordu çok benziyor oysa. YYY
Peki ya takılan regresyon modeli, normal olmayan ve (ancak normal artıkların) etkisi nedir? Bu soruyu cevaplamak için, böyle bir durumda bir regresyon modelinin tipik performansıyla ilgili neye endişelenebileceğimizi belirtmemiz gerekir. İlk mesele, ortalama olarak betalar değil mi? (Elbette, bazılarının etrafında zıplayacaklar, ancak uzun vadede, betaların örnekleme dağılımları gerçek değerlere odaklanmış mı?) Bu önyargı meselesi . Başka bir konu ise, aldığımız p değerlerine güvenebilir miyiz? Yani, sıfır hipotezi doğru olduğunda,X p < .05 β 1YXp<.05zamanın sadece% 5'i? Bunları belirlemek için, yukarıdaki veri üretme sürecindeki verileri ve ilacın etkisinin olmadığı, çok sayıda, paralel bir durumu simüle edebiliriz. Daha sonra örnekleme dağılımlarını ve gerçek değere odaklanıp odaklanmadıklarını kontrol edebilir ve boş durumda, ilişkinin ne sıklıkla 'önemli' olduğunu kontrol edebiliriz: β1
set.seed(123456789) # this make the simulation repeatable
b0 = 160; b1 = -1; b1_null = 0 # these are the true beta values
x = rep(c(0, 20, 40), each=100) # the (non-normal) drug dosages patients get
estimated.b1s = vector(length=10000) # these will store the simulation's results
estimated.b1ns = vector(length=10000)
null.p.values = vector(length=10000)
for(i in 1:10000){
residuals = rnorm(300, mean=0, sd=3)
y.works = b0 + b1*x + residuals
y.null = b0 + b1_null*x + residuals # everything is identical except b1
model.works = lm(y.works~x)
model.null = lm(y.null~x)
estimated.b1s[i] = coef(model.works)[2]
estimated.b1ns[i] = coef(model.null)[2]
null.p.values[i] = summary(model.null)$coefficients[2,4]
}
mean(estimated.b1s) # the sampling distributions are centered on the true values
[1] -1.000084
mean(estimated.b1ns)
[1] -8.43504e-05
mean(null.p.values<.05) # when the null is true, p<.05 5% of the time
[1] 0.0532
Bu sonuçlar, her şeyin yolunda gittiğini göstermektedir.
Hareketlerden geçmeyeceğim, ancak eğer normal olarak dağıtılmış olsaydı , aksi halde aynı kurulumla, orijinal / marjinal dağılımı normalde artıklar gibi dağıtılırdı (daha büyük bir SD'ye rağmen). Ayrıca, çarpık bir dağılımının (bu sorunun arkasındaki itici güç) etkilerini de göstermedim , fakat @ DikranMarsupial'ın noktası bu durumda olduğu gibi geçerlidir ve benzer şekilde gösterilebilir.Y XX YX