Temel istatistiklerde, çıkarımların geçerli olabilmesi için genel bir doğrusal model ile gözlemlerin bağımsız olması gerektiğini öğrendim. Kümeleme gerçekleştiğinde, bağımsızlık artık hesaba katılmadıkça geçersiz çıkarımlara yol açmayabilir. Bu tür kümelenmeyi hesaba katmanın bir yolu karışık modeller kullanmaktır. Bunu açıkça gösteren simüle edilmiş ya da edilmemiş bir örnek veri kümesi bulmak istiyorum. Kümelenmiş verileri analiz etmek için UCLA sitesindeki örnek veri kümelerinden birini kullanmayı denedim
> require(foreign)
> require(lme4)
> dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")
> m1 <- lm(api00~growth+emer+yr_rnd, data=dt)
> summary(m1)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 740.3981 11.5522 64.092 <2e-16 ***
growth -0.1027 0.2112 -0.486 0.6271
emer -5.4449 0.5395 -10.092 <2e-16 ***
yr_rnd -51.0757 19.9136 -2.565 0.0108 *
> m2 <- lmer(api00~growth+emer+yr_rnd+(1|dnum), data=dt)
> summary(m2)
Fixed effects:
Estimate Std. Error t value
(Intercept) 748.21841 12.00168 62.34
growth -0.09791 0.20285 -0.48
emer -5.64135 0.56470 -9.99
yr_rnd -39.62702 18.53256 -2.14
Bir şey eksik olmadığı sürece, bu sonuçlar, çıktısının lm()
geçersiz olduğunu düşünmeyeceğim kadar benzer . Diğer bazı örneklere baktım (örneğin Bristol Üniversitesi Çok Düzeyli Modelleme Merkezi'nden 5.2 ) ve standart hataların da çok farklı olmadığını gördüm (karışık modelden rastgele etkilerle ilgilenmiyorum, ancak karışık model çıktısından alınan ICC 0.42).
Yani, sorularım 1) kümelenme meydana geldiğinde standart hataların hangi koşullar altında önemli ölçüde farklı olacağını ve 2) birisi böyle bir veri kümesine (simüle veya değil) bir örnek verebilir.