Sabit ve Rastgele Efektler


10

Yakın zamanda Genelleştirilmiş Doğrusal Karışık Modeller hakkında bilgi edinmeye başladım ve grup üyeliğini sabit ya da rastgele bir etki olarak değerlendirmek için ne gibi bir fark olduğunu keşfetmek için R'yi kullanıyordum. Özellikle, burada tartışılan örnek veri kümesine bakıyorum:

http://www.ats.ucla.edu/stat/mult_pkg/glmm.htm

http://www.ats.ucla.edu/stat/r/dae/melogit.htm

Bu derste belirtildiği gibi, Doctor ID'nin etkisi dikkat çekicidir ve karışık modelin daha iyi sonuçlar vermesi için rastgele bir kesinti bekliyordum. Ancak, iki yöntem için AIC değerlerinin karşılaştırılması bu modelin daha kötü olduğunu göstermektedir:

> require(lme4) ; hdp = read.csv("http://www.ats.ucla.edu/stat/data/hdp.csv")
> hdp$DID = factor(hdp$DID) ; hdp$Married = factor(hdp$Married)
> GLM = glm(remission~Age+Married+IL6+DID,data=hdp,family=binomial);summary(GLM)

Call:
glm(formula = remission ~ Age + Married + IL6 + DID, family = binomial, 
data = hdp)

Deviance Residuals: 
Min       1Q   Median       3Q      Max  
-2.5265  -0.6278  -0.2272   0.5492   2.7329  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept) -1.560e+01  1.219e+03  -0.013    0.990    
Age         -5.869e-02  5.272e-03 -11.133  < 2e-16 ***
Married1     2.688e-01  6.646e-02   4.044 5.26e-05 ***
IL6         -5.550e-02  1.153e-02  -4.815 1.47e-06 ***
DID2         1.805e+01  1.219e+03   0.015    0.988    
DID3         1.932e+01  1.219e+03   0.016    0.987   

[...]

DID405       1.566e+01  1.219e+03   0.013    0.990    
DID405       1.566e+01  1.219e+03   0.013    0.990    
DID406      -2.885e-01  3.929e+03   0.000    1.000    
DID407       2.012e+01  1.219e+03   0.017    0.987    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 10353  on 8524  degrees of freedom
Residual deviance:  6436  on 8115  degrees of freedom
AIC: 7256

Number of Fisher Scoring iterations: 17


> GLMM = glmer(remission~Age+Married+IL6+(1|DID),data=hdp,family=binomial) ; m

Generalized linear mixed model fit by the Laplace approximation 
Formula: remission ~ Age + Married + IL6 + (1 | DID) 
Data: hdp 
AIC  BIC logLik deviance
7743 7778  -3867     7733
Random effects:
Groups Name        Variance Std.Dev.
DID    (Intercept) 3.8401   1.9596  
Number of obs: 8525, groups: DID, 407

Fixed effects:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)  1.461438   0.272709   5.359 8.37e-08 ***
Age         -0.055969   0.005038 -11.109  < 2e-16 ***
Married1     0.260065   0.063736   4.080 4.50e-05 ***
IL6         -0.053288   0.011058  -4.819 1.44e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Correlation of Fixed Effects:
         (Intr) Age    Marrd1
Age      -0.898              
Married1  0.070 -0.224       
IL6      -0.162  0.012 -0.033


> extractAIC(GLM) ; extractAIC(GLMM)

[1]  410.000 7255.962
[1]    5.000 7743.188

Böylece, sorularım:

(1) İki fonksiyon tarafından sağlanan AIC değerlerini karşılaştırmak uygun mu? Öyleyse, sabit etki modeli neden daha iyi?

(2) Sabit veya rastgele etkilerin daha önemli olup olmadığını belirlemenin en iyi yolu nedir (örn. Doktora bağlı değişkenliğin hasta özelliklerinden daha önemli olduğunu belirlemek için?

Yanıtlar:


7

Sabit efekt modelleri ve rastgele efekt modelleri verilerin farklı sorularını sorar. Grup düzeyinde bir dizi sahte değişken belirtmek, temel olarak ortalama yanıttaki tüm grup düzeyinde gözlemlenmemiş heterojenliği kontrol eder ve tahminlerinizi sadece birimlerdeki değişkenliği yansıtacak şekilde bırakır. Rastgele efekt modelleri, meta nüfusunun (ne olursa olsun) olduğu ve örneğinizin bu popülasyondan çok sayıda çekilişi yansıttığı varsayımı ile başlar. Dolayısıyla, sonuçlarınızı heterojen kesişmeler etrafında tutturmak yerine, verilerinizin sözde çizildiği (genellikle normal) dağılımın parametrelerini açıklamak için kullanılacaktır.

Sabit efekt modellerinin, sahip olduğunuz veriler üzerinde çıkarım yapmak için iyi olduğu ve rastgele efekt modellerinin, verilerinizin rastgele bir örnek olduğu daha büyük popülasyonda çıkarım yapmaya çalışmak için iyi olduğu söylenir.

Sabit efekt modelleri hakkında bilgi sahibi olduğumda, hata bileşenleri ve panel verileri kullanılarak motive edildi. Belirli bir birimin çoklu gözlemlerini ve zamanında rastgele bir tedaviyi alın .t

ybent=αben+βTbent+εbent

Hata teriminizi, hata teriminizin zaman içinde değişen ve aşağıdakilerden farklı olan bileşenine ayırabilirsiniz:

ybent=αben+βTbent+eben+ubent

Şimdi grupsal ortalamayı her iki taraftan çıkarın:

ybent-y¯ben=αben-α¯ben+β(Tbent-T¯ben)+eben-e¯ben+ubent-u¯bent

abone olmayanlar , temel çıkarma ile denklemden çıkarlar - yani zaman içindeki ortalama hiç değişmezse her zamankiyle aynıdır. Bu, hata teriminizin zamanla değişmeyen bileşeninizi de içerir. Böylece tahminleriniz zamanla değişmeyen heterojenlikle karıştırılmaz. t

Bu rastgele bir efekt modeli için pek işe yaramaz - endekslenmemiş değişkenleriniz bu dönüşüm ("iç" dönüşüm) tarafından üstlenilmez. Bu nedenle, grup içinde farklılık göstermeyen şeylerin etkileri konusunda çıkarım yapabilirsiniz. Gerçek dünyada, bu tür şeylerin önemi vardır. Bu nedenle, rastgele etkiler "verilerin modellenmesi" için iyi iken, sabit etki modelleri belirli terimlerin tarafsız tahminlerine yaklaşmak için iyidir. Rastgele efekt modeliyle, tamamen kaldırdığınızı iddia edemezsiniz .teben

Bu örnekte, zaman gruplama değişkenidir. Örneğinizde DID. (yani: genelleme yapar)


1

1) Sadece bu iki modelle değil karşılaştırmayı yapmak uygundur. Karşılaştırmak istersiniz:

GLM <- glm(remission~Age+Married+IL6, data=hdp, family=binomial)

ile

GLMM <- glmer(remission~Age+Married+IL6+(1|DID), data=hdp, family=binomial)

ve bunu bir anova ile yapabilirsiniz:

anova(GLM, GLMM)

(Emin değilim bu birlikte çalışacak olan glmve glmerfarklı R nesneler olabilir gibi sonuçlar. Sen, karşılaştırılabilir dönüş nesneleri gibi iki işlevi kullanmak gerekebilir lmeve glsya ANOVA kendin yap.)

Anova, rastgele doktor etkisinin eklenmesinin önemli olup olmadığını görmek için bir günlük olabilirlik oranı testi yapacaktır. Önem beyan etmeden önce bu p değerini 2'ye bölmeniz gerekir, çünkü rastgele doktor etkisinin 0 olduğu ve 0'ın bir varyans için parametre alanının sınırında (kullandığınız gerçek dağılım) boş değer hipotezini test ettiğinizden Test ve dağılımının bir karışımıdır - ancak bu noktada kendi cehaletimin sınırına ).χ02χ12

Benim için, iç içe model oluşturma ve hipotez test sürecini anlamak için en iyi kitap Batı, Galce ve Galecki (2007) Doğrusal Karışık Modeller: Pratik bir rehber oldu . Her şeyi adım adım geçiyorlar.

2) Hasta başına birden fazla gözleminiz varsa, hasta için rastgele bir etki de eklersiniz. Daha sonra sabır ve doktorun göreceli önemini test etmek için hastanın öngörücü etkilerine karşı doktor için öngörücü etkilere bakabilirsiniz. Her biri için rastgele etki terimleri, ilgilendiğiniz bir soru ise, hastalar ve doktorlar arasındaki varyans miktarını ölçecektir.

(Yanılıyorsam birisi beni düzeltin!)


Ben emin anlamda olması için yapar değilim DIDolarak hem sabit etkisi, ve 2 modelinde rastgele kesişmesine. Dahası, 1. modelde sabit bir etki olması, bu 2 / b seçiminin DID, dahil edilmesi gerekip gerekmediği değil , etkisi hakkında düşünmenin yolu olacağı anlamına gelir . Farklı bir notta, bir eşya (2) olduğunu fark ettim; bir yerde bir eşyaya (1) sahip olmak mı istediniz?
gung - Monica'yı eski durumuna döndürün

Kesinlikle haklısın; Ben OPD birincilik sabit etkisi olarak DID olması gereken orijinal glm formülü gidiyordu. Şimdi seçim DID'nin rastgele bir efekt olarak ele alınmasının modele herhangi bir değer katıp katmadığı arasında.
Christopher Poile

1

Modeller çok farklı. Glm modeli, tüm doctorID etkileri tahmin edilirken ve parametre tahminleri atandığında, sapmadaki genel azalmaya (boş bir modelden) değiniyor. Elbette, Yaş, Evli ve IL6'nın iki modelde de aynı Wald istatistiklerine sahip olduğunu fark ettiniz, değil mi? Benim anlayışım (itiraf edeceğim son derece rafine bir model değil), karışık modelin doctorID'leri rahatsız edici faktörler veya katmanlar olarak, yani herhangi bir ebeveyn dağılımından alınamayacağı düşünülen "etkiler" olarak ele almasıdır. Karışık bir model kullanmanın "doktor etkisi" hakkındaki anlayışınızı geliştireceğini düşünmek için hiçbir neden görmüyorum, aslında bunun tam tersi.

İlginiz Yaş, Evli ya da IL6'nın etkilerinde olsaydı, bu iki modelde AIC'yi değil, aynı modelleme yapısı içinde ilgili ortak değişkenlerin kaldırılmasıyla AIC'deki farklılıklar arasında karşılaştırılacağını hayal ederdim.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.