Gözlemler bağımsız olmadığında geçersiz çıkarım


13

Temel istatistiklerde, çıkarımların geçerli olabilmesi için genel bir doğrusal model ile gözlemlerin bağımsız olması gerektiğini öğrendim. Kümeleme gerçekleştiğinde, bağımsızlık artık hesaba katılmadıkça geçersiz çıkarımlara yol açmayabilir. Bu tür kümelenmeyi hesaba katmanın bir yolu karışık modeller kullanmaktır. Bunu açıkça gösteren simüle edilmiş ya da edilmemiş bir örnek veri kümesi bulmak istiyorum. Kümelenmiş verileri analiz etmek için UCLA sitesindeki örnek veri kümelerinden birini kullanmayı denedim

> require(foreign)
> require(lme4)
> dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")

> m1 <- lm(api00~growth+emer+yr_rnd, data=dt)
> summary(m1)

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 740.3981    11.5522  64.092   <2e-16 ***
growth       -0.1027     0.2112  -0.486   0.6271    
emer         -5.4449     0.5395 -10.092   <2e-16 ***
yr_rnd      -51.0757    19.9136  -2.565   0.0108 * 


> m2 <- lmer(api00~growth+emer+yr_rnd+(1|dnum), data=dt)
> summary(m2)

Fixed effects:
             Estimate Std. Error t value
(Intercept) 748.21841   12.00168   62.34
growth       -0.09791    0.20285   -0.48
emer         -5.64135    0.56470   -9.99
yr_rnd      -39.62702   18.53256   -2.14

Bir şey eksik olmadığı sürece, bu sonuçlar, çıktısının lm()geçersiz olduğunu düşünmeyeceğim kadar benzer . Diğer bazı örneklere baktım (örneğin Bristol Üniversitesi Çok Düzeyli Modelleme Merkezi'nden 5.2 ) ve standart hataların da çok farklı olmadığını gördüm (karışık modelden rastgele etkilerle ilgilenmiyorum, ancak karışık model çıktısından alınan ICC 0.42).

Yani, sorularım 1) kümelenme meydana geldiğinde standart hataların hangi koşullar altında önemli ölçüde farklı olacağını ve 2) birisi böyle bir veri kümesine (simüle veya değil) bir örnek verebilir.


Kümeleme ile ne demek istediğinizi genişletebilir misiniz?
bayerj

@bayerj kümeleme yoluyla, yani birbirine benzer gözlemler bir tür ünite içinde, örneğin 50 bireysel olarak alınan 10 kan basıncı ölçümü içinde birlikte gruplandığında.
Joe King

Yanıtlar:


11

Her şeyden önce, bu veri kümesini haklısınız, belki de karışık modeli anlamak için en iyisi değildir. Ama önce neden bakalım

require(foreign)
dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")

length(dt$dnum)          # 310
length(unique(dt$dnum))  # 187 
sum(table(dt$dnum)==1)   # 132

132 gözlemin sadece bir gözlemi olan 310 gözlemin ve 187 grubun olduğunu görüyorsun. Bu, çok seviyeli modelleme kullanmamamız gerektiği anlamına gelmez, sadece belirttiğiniz gibi çok farklı sonuçlar elde edemeyeceğimiz anlamına gelir.

Çok seviyeli modelleme motivasyonu

Çok seviyeli modelleme kullanma motivasyonu, sadece üstlenilen analizin sonuçlarından değil, tasarımın kendisinden başlar. Tabii ki en yaygın örnek, bireylerden birden fazla gözlem almak, ancak daha kolay anlaşılır bir durum vermek için işleri daha da aşırı yapmaktır, dünyanın farklı ülkelerinden bireylere gelirlerini sormayı düşünün. Bu nedenle en iyi örnekler, elbette inceleme sonucunda homojen olan kümeler almak elbette çok fazla fark yaratmayacağından, çok fazla heterojenliğe sahip olanlardır.

Misal

Öyleyse, işleri daha net hale getirmek için bazı verileri simüle edelim, simülasyon, gerçek yaşam verileriyle o kadar açık değil gibi daha iyi çalışır. ülkeyi aldığınızı ve her ülkeden kişiye gelirlerini ve katsayısı ile gelir üzerinde olumlu etkisi olan başka bir şeyi sorduğunuzu düşünün ., 100 , 0.510100yx0.5

set.seed(1)
I <- 100
J <- 10
n <- I*J
i <- rep(1:I, each=J)
j <- rep(1:J,I)
x <- rnorm(n,mean=0, sd=1)
beta0  <- 1000
beta1  <- 0.5
sigma2 <- 1
tau2   <- 200
u <- rep(rnorm(I,mean=0,sd=sqrt(tau2)),each=J)
y <- beta0 + beta1*x + u + rnorm(n,mean=0, sd=sqrt(sigma2))

Yani, doğrusal bir model çalıştırıyorsunuz

> summary(lm(y~x))

Coefficients:
            Estimate Std. Error  t value Pr(>|t|)    
(Intercept) 999.8255     0.4609 2169.230   <2e-16 ***
x             0.5728     0.4456    1.286    0.199    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 14.57 on 998 degrees of freedom
Multiple R-squared:  0.001653,  Adjusted R-squared:  0.0006528 
F-statistic: 1.653 on 1 and 998 DF,  p-value: 0.1989

ve bunun xistatistiksel bir etkisi olmadığı sonucuna varıyorsunuz y. Standart hatanın ne kadar büyük olduğunu görün. Ancak rastgele kesişme modeli çalıştırmak

> summary(lmer(y~x + (1|i)))

Random effects:
 Groups   Name        Variance Std.Dev.
 i        (Intercept) 213.062  14.597  
 Residual               1.066   1.032  
Number of obs: 1000, groups:  i, 100

Fixed effects:
            Estimate Std. Error t value
(Intercept) 999.8247     1.4600   684.8
x             0.4997     0.0327    15.3

tahminin standart hatasının ne kadar değiştiğini görürsünüz. Rastgele etki kısmına baktığımızda, değişkenliğin nasıl ayrıştırıldığını görüyoruz - gelirdeki değişkenliğin çoğu ülkeler arasında ve ülkeler içinde insanların daha benzer gelirleri var. Basit bir ifadeyle, burada olan şey, kümelenmenin etkisini hesaba katmamak x, “kaybolmak” (eğer bu tür bir terimi kullanabilirsek), ama değişkenliği ayrıştırmak, aslında ne elde etmeniz gerektiğini bulmanızdır.


+1 Teşekkür ederim, bu harika. Kümelenmeyi hesaba katmada SE'lerin tipik olarak daha küçük olduğunu birkaç kez okuduğuma eminim, bu yüzden hala biraz kafam karıştı - doğrusal modelin çok küçük bir SE döndüreceği senaryolar nelerdir?
Joe King

@JoeKing, çok düzeyli modelleme için değil, kümelenmiş sağlam SE için bu geçerlidir. Bunu, verileri aldığınız ats.ucla sayfasındaki sayfada da görebilirsiniz.
Steve

@JoeKing farkı tam olarak anlamak için stats.stackexchange.com/questions/8291/…
Steve
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.