Verilerimdeki bazı değişikliklere rağmen neden karışık modelimde rastgele bir etkinin sıfır farkını alıyorum?


22

Aşağıdaki sözdizimini kullanarak karma efektler lojistik regresyon uyguladık;

# fit model
fm0 <- glmer(GoalEncoding ~ 1 + Group + (1|Subject) + (1|Item), exp0,
             family = binomial(link="logit"))
# model output
summary(fm0)

Konu ve Öğe rastgele etkilerdir. Konu terimi için katsayı ve standart sapma olan tuhaf bir sonuç alıyoruz;

Generalized linear mixed model fit by maximum likelihood (Laplace
Approximation) [glmerMod]
Family: binomial  ( logit )
Formula: GoalEncoding ~ 1 + Group + (1 | Subject) + (1 | Item)
Data: exp0

AIC      BIC      logLik deviance df.resid 
449.8    465.3   -220.9    441.8      356 

Scaled residuals: 
Min     1Q Median     3Q    Max 
-2.115 -0.785 -0.376  0.805  2.663 

Random effects:
Groups  Name        Variance Std.Dev.
Subject (Intercept) 0.000    0.000   
Item    (Intercept) 0.801    0.895   
Number of obs: 360, groups:  Subject, 30; Item, 12

Fixed effects:
                Estimate Std. Error z value Pr(>|z|)    
 (Intercept)     -0.0275     0.2843    -0.1     0.92    
 GroupGeMo.EnMo   1.2060     0.2411     5.0  5.7e-07 ***
 ---
 Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

 Correlation of Fixed Effects:
             (Intr)
 GroupGM.EnM -0.002

Bu olmamalıdır çünkü denekler arasında çeşitlilik olduğu açıktır. Stata'da aynı analizi yaptığımızda

xtmelogit goal group_num || _all:R.subject || _all:R.item

Note: factor variables specified; option laplace assumed

Refining starting values: 

Iteration 0:   log likelihood = -260.60631  
Iteration 1:   log likelihood = -252.13724  
Iteration 2:   log likelihood = -249.87663  

Performing gradient-based optimization: 

Iteration 0:   log likelihood = -249.87663  
Iteration 1:   log likelihood = -246.38421  
Iteration 2:   log likelihood =  -245.2231  
Iteration 3:   log likelihood = -240.28537  
Iteration 4:   log likelihood = -238.67047  
Iteration 5:   log likelihood = -238.65943  
Iteration 6:   log likelihood = -238.65942  

Mixed-effects logistic regression               Number of obs      =       450
Group variable: _all                            Number of groups   =         1

                                                Obs per group: min =       450
                                                               avg =     450.0
                                                               max =       450

Integration points =   1                        Wald chi2(1)       =     22.62
Log likelihood = -238.65942                     Prob > chi2        =    0.0000

------------------------------------------------------------------------------
        goal |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
   group_num |   1.186594    .249484     4.76   0.000     .6976147    1.675574
       _cons |  -3.419815   .8008212    -4.27   0.000    -4.989396   -1.850234
------------------------------------------------------------------------------

------------------------------------------------------------------------------
  Random-effects Parameters  |   Estimate   Std. Err.     [95% Conf. Interval]
-----------------------------+------------------------------------------------
_all: Identity               |
               sd(R.subject) |   7.18e-07   .3783434             0           .
-----------------------------+------------------------------------------------
_all: Identity               |
                 sd(R.trial) |   2.462568   .6226966      1.500201    4.042286
------------------------------------------------------------------------------
LR test vs. logistic regression:     chi2(2) =   126.75   Prob > chi2 = 0.0000

Note: LR test is conservative and provided only for reference.
Note: log-likelihood calculations are based on the Laplacian approximation.

Sonuçlar, Konu terimi için sıfır olmayan bir katsayı / se ile beklendiği gibidir.

Başlangıçta bunun Konu teriminin kodlanması ile ilgisi olabileceğini düşündük, ancak bunu bir dizgeden bir tamsayıya çevirmek fark yaratmadı.

Açıkçası, analiz düzgün çalışmıyor, ancak zorlukların kaynağını belirleyemiyoruz. (Bu forumdaki bir başkası benzer bir sorunla karşı karşıya kaldı, ancak bu konu soruya cevap vermedi )


2
Bunun olmaması gerektiğini söylüyorsunuz, çünkü "açıkça konular arasında bir varyasyon var" ama subjectbu değişkenler hakkında neyin veya başka bir şey olmadığını bilmediğimiz için , bu "bizim için çok açık" değil! konu için "Stata analizinden 7.18e-07! Teknik olarak sanırım" sıfır değil ", ama 0'dan da fazla değil ...!
smillig 11:14

Gözlemler için çok teşekkürler. Denekler, bir çalışmaya katılanlardır ve performansta değişiklik olma zorunluluğu vardır. Ortalama puanlar% 39'du ve standart sapma% 11'di. Raporlanan istatistiklerde bunun 0.000'den büyük görünmesini beklerdim, ancak yanlış olabilir. Evet, elbette 7.18e-07, 0.000’e eşittir ve 0.000’in mutlaka sıfır olması gerekmez.
Nick Riches

1
Her denek kaç kez test edildi / örneklendi? Araştırmanızın temel yönlerini bilmeden, eğer Stata size konulardaki varyasyonun 0.000000718 (0.378 standart bir hatayla) olduğunu söylerse ve R size bunun 0.000 olduğunu söylerse, burada gerçekten herhangi bir varyasyon olmadığı hikayesi değil konu düzeyinde? Ayrıca Stata'nın konu değişikliği için size bir güven aralığı vermediğini unutmayın.
smillig

Yorumlarınız için tekrar teşekkürler. Denekler 11 kez test edildi. Sanırım bu, grup ve öğe etkileri bir kez hesaba katıldığında, katılımcılar arasında çok az değişiklik olduğu anlamına geliyor. Biraz "şüpheli" görünüyor, ancak iki farklı analizde tutarlılık var?
Nick Riches

Yanıtlar:


28

Bu, https://bbolker.github.io/mixedmodels-misc/glmmFAQ.html adresinde bir miktar tartışılmıştır ("tekil modeller" için arama yapın ); Özellikle az sayıda grup olduğu zaman yaygındır (30 bu bağlamda özellikle küçük olmasa da).

lme4Diğer birçok paket arasındaki ve arasındaki farklardan biri , lme4selefi de dahil olmak üzere birçok paketin, nlmegünlük ölçeğinde varyansı yerleştirerek varyans tahminlerinin negatif olmaması gerektiği gerçeğini ele almasıdır: bu, varyans tahminlerinin tam olarak sıfır olamayacağı anlamına gelir; çok küçük. lme4aksine, kısıtlı optimizasyon kullanır, bu yüzden tam olarak sıfır olan değerleri döndürür ( daha fazla tartışma için bkz. http://arxiv.org/abs/1406.5823 s. 24). http://rpubs.com/bbolker/6226 bir örnek verir.

Özellikle, Stata'nın konu-içi değişkenlik sonuçlarına yakından baktığımda, .8383434 (bu durumda esasen yararsız!) Bir Wald standart sapması ile 7.18e-07 (-3.4'ün kesişmesine göre) bir tahminde bulunuyorsunuz ve "0" olarak listelenen bir% 95 CI; bu teknik olarak "sıfır olmayan" dır , ancak programın bildireceği kadar sıfıra yakındır ...

İyi bilinen ve teorik olarak kanıtlanabilir (örneğin Stram ve Lee Biometrics 1994), varyans bileşenleri için boş dağılımın, sıfırdaki bir nokta kütlesinin ('başak') bir karışımı ve sıfırdan uzak bir ki-kare dağılımının bir karışımı olduğu bilinmektedir . Şaşırtıcı olmayan bir şekilde (ancak ispatlanmış / iyi bilinen olup olmadığını bilmiyorum), varyans bileşen tahminlerinin örnekleme dağılımı, gerçek değer sıfır olmasa da, genellikle sıfırda yükselir - bkz. Örneğin, http://rpubs.com/ Bir örnek için bbolker / 4187 veya ?bootMersayfadaki son örnek :

library(lme4)
library(boot)
## Check stored values from a longer (1000-replicate) run:
load(system.file("testdata","boo01L.RData",package="lme4"))
plot(boo01L,index=3) 

görüntü tanımını buraya girin


2
+1. Başka bir iyi cevap da kız kardeşin başlığında : stats.stackexchange.com/a/34979 (Bu linki gelecekteki okuyucular için bırakıyorum).
amip diyor Reinstate Monica

14

Bir sorun olduğunu sanmıyorum. Model çıktısından çıkarılan ders, konu performansında “açıkça” bir değişiklik olsa da, bu konu değişikliğinin kapsamının yalnızca yalnızca artık varyans terimi ile tamamen veya neredeyse tamamen açıklanabileceği yönündedir. Gözlenen tüm varyasyonları açıklamak için ilave bir konu düzeyinde rastgele etki eklenmesi emrini vermek için yeterli ilave konu seviyesi değişimi yoktur.

Bu şekilde düşün. Bu aynı paradigma altında deneysel verileri simüle ettiğimizi hayal edin. Parametreleri, deneme bazında kalıntı varyasyon olacak şekilde ayarladık, ancak 0 konu seviyesi varyasyonu (yani tüm denekler aynı "gerçek ortalama" artı hataya sahip). Şimdi bu parametrelerden verileri her taklit ettiğimizde, elbette ki konuların tam olarak eşit performansa sahip olmadığını göreceğiz. Bazıları düşük puanlarla, bazıları da yüksek puanlarla sonuçlanır. Fakat bunların hepsi, artık deneme seviyesi değişmesinden dolayıdır. Biliyoruz ki (simülasyon parametrelerini belirleyerek) gerçekten herhangi bir konu düzeyinde bir değişiklik olmadığını.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.