Rastgele etki faktörü için önerilen minimum grup sayısı nedir?


26

Bazı tekrarlanan önlemler verilerini analiz etmek için R( lme4) 'de karma bir model kullanıyorum . Bir cevap değişkenim (dışkı elyaf içeriği) ve 3 sabit efektim (vücut kütlesi vb.) Var. Çalışmamda sadece 6 katılımcı var, her biri için 16 tekrarlı ölçüm var (ancak ikisinde sadece 12 tekrar var). Denekler, farklı 'tedavilerde' farklı gıda kombinasyonları verilen kertenkelelerdir.

Sorum şu: konu kimliğini rastgele bir etki olarak kullanabilir miyim?

Bunun, deneklerin rastgele örneklenmiş doğasını ve denekler içindeki gözlemlerin denekler arasındaki gözlemlerle daha yakından ilişkili olacağı gerçeğini hesaba katarak, boyuna karışık etki modellerinde olağan eylem şekli olduğunu biliyorum. Ancak, konu ID'sini rastgele bir etki olarak ele almak, bu değişken için bir ortalama ve varyans tahminini içerir.

  • Yalnızca 6 kişim olduğundan (bu faktörün 6 seviyesi), ortalama ve varyansın doğru bir şekilde tanımlanması için bu yeterli midir?

  • Her konu için birkaç tekrarlı ölçüm yapmam gerçeği bu konuda yardımcı oluyor mu (ne kadar önemli olduğunu anlamıyorum)?

  • Son olarak, konu kimliğini rastgele bir etki olarak kullanamazsam, sabit bir etki olarak dahil etmek, tekrarlanan önlemler aldığımı kontrol etmeme izin verir mi?

Düzenleme: Konu kimliğini rastgele bir etki olarak kullanabilir miyim deyince, "iyi bir fikir mi" demek istiyorum. Modeli sadece 2 seviyeli bir faktöre uyabileceğimi biliyorum, ama bu kesinlikle savunmasız olur mu? Hangi noktaya denekleri rastgele etkiler olarak ele almanın düşünülmesi mantıklı hale geliyor? Literatür, 5-6 seviyelerinin daha düşük bir sınır olduğunu önermektedir. Bana göre rastgele etkinin ortalama ve varyansı tahminleri 15+ faktör seviyesi bulunana kadar çok kesin olmazdı.

Yanıtlar:


21

Kısa cevap: Evet, ID'yi 6 seviye ile rastgele efekt olarak kullanabilirsiniz.

Biraz daha uzun cevap: @ BenBolker’ın GLMM SSS’sinde (diğer şeylerin yanı sıra) “ xxx faktörünü sabit mi yoksa rastgele olarak mı ele almalıyım?Başlığı altında :

'Modern' karma model kestirimi ile ilgili olan özel bir nokta ('klasik' moment metodu kestiriminden ziyade) pratik amaçlar için makul sayıda rasgele etki seviyesinin (örneğin bloklar) olması gerektiğidir. Minimumda 5 veya 6.

Demek alt sınırdasın ama sağ taraftasın.


12

Çok seviyeli bir model için minimum grup sayısını bulmak için Gelman ve Hill (2007) tarafından Regresyon ve Mulitilevel / Hiyerarşik modeller kullanarak Veri Analizi kitabına baktım .

Bu konuyu Bölüm 11, Kısım 5 (sayfa 247) 'de ele alıyorlar, burada <5 grup olduğunda daha sonra çok seviyeli modellerin klasik modellere çok az eklenmiş olduğunu yazıyorlar. Bununla birlikte, çok seviyeli bir model uygulama riskinin çok düşük olduğu görülüyor.

Aynı yazarlar bu konuya Bölüm 12, Bölüm 9'da (sayfa 275-276) dönüyor gibi görünmektedir. Orada çok seviyeli bir model için minimum grup sayısına ilişkin tavsiyelerin yanlış yönlendirildiğini yazıyorlar. Yine, çok seviyeli modellerin, grup sayısının küçük olması durumunda, klasik modellerin üzerine çok az eklediğini söylüyorlar. Bununla birlikte, aynı zamanda çok seviyeli modellerin havuzsuz regresyondan daha kötü bir şey yapmaması gerektiğini yazmaktadırlar (burada havuzlamanın olmadığı grup göstergelerinin klasik regresyonda kullanıldığı anlamına gelir).

275-276. Sayfalarda yazarların bir veya iki grup halinde (örneğin, erkek kadına karşı) özel bir alt bölümü vardır. Burada tipik olarak modeli klasik biçimde ifade ettiklerini yazarlar. Bununla birlikte, çok düzeyli modellemenin sadece bir veya iki grupta bile yararlı olabileceğini belirtiyorlar. Bir veya iki grupla çok seviyeli modellemenin klasik regresyona indirgendiğini yazıyorlar.

Bundan benim izlenimim, klasik regresyonun, modellerin sürekliliğinin bir ucu, yani çok düzeyli bir modelin özel bir hali olduğu.

Yukarıdakilere dayanarak, benim izlenimim, klasik regresyon ve çok düzeyli modellemenin, yalnızca iki grup olduğunda neredeyse aynı tahminleri getireceği ve yalnızca bir, iki, üç, dört, beş veya altı grupla çok düzeyli modelleri kullanmanın tamam olduğu yönündedir.

Gelecekte bu yanıtı Rkodla ve iki grup kullanırken her iki yaklaşımla elde edilen tahminleri karşılaştıran küçük bir veri seti ile değiştirmeye çalışacağım .


10

Buna değer olarak, nispeten basit bir LMM (var olan sleepstudyveri setini kullanarak) için varyans tahmininin kararlılığına bakmak için bir miktar simülasyon çalışması yaptım lme4. İlk yöntem ngroups, denek sayısı için mümkün olan bütün konu kombinasyonlarını oluşturur ve olası her kombinasyon için modeli yeniden düzenler. İkincisi, birkaç rastgele konu altkümesi alır.

library(lme4)
library(ggplot2)
library(tidyr)

m0 <- lmer(Reaction ~ Days + (1|Subject), data = sleepstudy,
           control = lmerControl(optimizer = "nloptwrap"))
# set the number of factor levels
ngroups <- 3:18 
# generate all possible combinations
combos <- lapply(X = ngroups, 
                 FUN = function(x) combn(unique(sleepstudy$Subject), x)) 

# allocate output (sorry, this code is entirely un-optimized)
out <- list(matrix(NA, ncol(combos[[1]]), 1), matrix(NA, ncol(combos[[2]]), 1),
            matrix(NA, ncol(combos[[3]]), 1), matrix(NA, ncol(combos[[4]]), 1),
            matrix(NA, ncol(combos[[5]]), 1), matrix(NA, ncol(combos[[6]]), 1),
            matrix(NA, ncol(combos[[7]]), 1), matrix(NA, ncol(combos[[8]]), 1),
            matrix(NA, ncol(combos[[9]]), 1), matrix(NA, ncol(combos[[10]]), 1),
            matrix(NA, ncol(combos[[11]]), 1), matrix(NA, ncol(combos[[12]]), 1),
            matrix(NA, ncol(combos[[13]]), 1), matrix(NA, ncol(combos[[14]]), 1),
            matrix(NA, ncol(combos[[15]]), 1), matrix(NA, ncol(combos[[16]]), 1))
# took ~ 2.5 hrs on my laptop, commented out for safety
#system.time(for(ii in 1:length(combos)) {
#    for(jj in 1:ncol(combos[[ii]])) {
#    sls <- sleepstudy[sleepstudy$Subject %in% combos[[ii]][,jj],]
#    out[[ii]][jj] <- attr(VarCorr(update(m0, data = sls))$Subject, 'stddev')
#        }
#    })

# pad with zeros, not all were equal
# from http://stackoverflow.com/questions/11148429/r-convert-asymmetric-list-to-matrix-number-of-elements-in-each-sub-list-diffe
max.len <- max(sapply(out, length))
corrected.list <- lapply(out, function(x) {c(x, rep(NA, max.len - length(x)))})
mat <- do.call(rbind, corrected.list)
mat <- data.frame(t(mat))
names(mat) <- paste0('s',3:18)
mat <- gather(mat, run, value)

ggplot(mat, aes(x = value, fill = run)) + 
    geom_histogram(bins = 60) +
    geom_vline(xintercept = 37.12, linetype =  'longdash', 
               aes(colour = 'original')) +
    facet_wrap(~run, scales = 'free_y') +
    scale_x_continuous(breaks = seq(0, 100, by = 20)) + 
    theme_bw() + 
    guides(fill = FALSE)

Noktalı siyah çizgi, varyansın orijinal nokta tahminidir ve yüzler farklı sayıda konuyu temsil eder ( s3üç denekten oluşan gruplar, s4dört olmak üzere vb.). görüntü tanımını buraya girin

Ve alternatif yol:

ngroups <- 3:18
reps <- 500
out2<- matrix(NA, length(ngroups), reps)

for (ii in 1:length(ngroups)) {
    for(j in 1:reps) {
        sls <- sleepstudy[sleepstudy$Subject %in% sample(unique(sleepstudy$Subject), ngroups[i], replace = FALSE),]
        out2[i,j] <- attr(VarCorr(update(m0, data = sls))$Subject, 'stddev')
    }
}
out2 <- data.frame(t(out2))
names(out2) <- paste0('s',3:18)
out2 <- gather(out2, run, value)

ggplot(out2, aes(x = value, fill = run)) + 
    geom_histogram(bins = 60) +
    geom_vline(xintercept = 37.12, linetype =  'longdash', 
               aes(colour = 'original')) +
    facet_wrap(~run, scales = 'free_y') +
    scale_x_continuous(breaks = seq(0, 100, by = 20)) + 
    theme_bw() + 
    guides(fill = FALSE)

görüntü tanımını buraya girin

Yine de (bu örnekte, zaten), varyansın daha sonra olmasa da en az 14 konu olana kadar gerçekten stabilize olmadığı görülmektedir.


1
+1. Tabii ki, konu sayısı ne kadar küçükse, varyans tahmincisinin varyansı o kadar büyüktür. Fakat burada önemli olan şeyin bu olduğunu sanmıyorum. Asıl soru, hangi sayıda denek bazı makul sonuçlar elde etmeyi sağlıyor? "Mantıksız" sonucu sıfır varyans elde etmek olarak tanımlarsak, simülasyonunuzda oldukça sık n = 5 veya daha az olan bir olay olur. N = 6 veya n = 7'den başlayarak, neredeyse hiç kesin sapma 0 tahmini almazsınız, yani model dejenere olmayan bir çözüme yaklaşıyor. Benim sonucum n = 6'nın sınırda kabul edilebilir olduğudur.
amip diyor Reinstate Monica


8

Angrist ve Pischke'nin "En Zararsız Ekonometri" bölümünde, yarı şaka olarak söyledikleri "42 kümeden daha az" başlıklı bir bölüm var.

Bu nedenle, aşağıdakileri takip ederek ... hayata cevabını, evreni ve her şeyi 42 olarak belirledik, şu soruya inanıyoruz: standart küme ayarını kullanarak [GEE'deki varyans tahmincisine benzer şekilde] güvenilir çıkarım için kaç küme yeterlidir?

Ekonometri hocamın sizinki gibi soruları cevaplamak için kullandığı yöntem şöyledir: “Amerika özgür bir ülkedir, ne istersen yapabilirsin. " Başka bir deyişle, R veya Stata veya HLM veya Mplus veya SAS PROC GLIMMIX kodunu 6 konuyla çalıştırabileceksiniz (ve eğer seçiminiz bunu yapmazsa bu alternatif paketlere geçebilir), ancak muhtemelen Bu yaklaşımı savunmak ve asimptotik testleri doğrulamak çok zor bir zaman.

Varsayılan olarak, rastgele bir eğim olarak bir değişkeni dahil etmek, bunun sabit bir etki olarak dahil edilmesini gerektirdiğini ve bunun yalnızca ortalamanın rasgele bir etkisi olarak olmasını istiyorsanız, çok sayıda sözdizimi döngüsünden atlamanız gerektiğine inanıyorum. sıfır. Bu, yazılım geliştiricilerin sizin için yaptığı makul bir seçimdir.


1
Sorunun cevabının, bir dereceye kadar "bir ipin ne kadar sürdüğü" olduğuna inanıyorum. Ancak, 15-20 den küçük bir örneklemden bir ortalama veya varyans tahmininde çok fazla güven vermeyeceğim, bu nedenle aynı kural kuralı rastgele etki seviyelerine uygulanmayacaktı. Hiç kimsenin konu kimliğini uzunlamasına çalışmalarda sabit ve rastgele bir etki olarak içerdiğini görmedim - bu ortak uygulama mı?
Chris

Karışık modeldeki küçük bir konu sayısının tepesinde, rastgele etkileri gözlemlenmez, bu yüzden onları veriden ayırmanız gerekir ve belki de sadece ortalamayı ve ortalamayı tahmin etmekten daha güvenilir bir şekilde yapmak için nispeten daha fazla veriye ihtiyacınız vardır. her şey gözlendiğinde değişkenlik. Böylece 42 vs 15-20 :). Sanırım rastgele yamaçları kastetmiştim, konu başlarında sadece rastgele etkiler olarak görünen kimlik numaralarında haklısın, aksi halde tanımlanmayacaklar. Ekonomistler bu arada rastgele etkilere inanmıyorlar ve neredeyse sadece “sabit etkiler” dedikleri şeyi, yani konu içi tahminleri yayınlıyorlar.
StasK

2
+1 @StasK ile başa çıkmak çok zor bir soruya çok iyi bir cevap. Bence gereksiz bir alaycılık belirtisi var ve cevabınızı OP'ye biraz daha saygılı olacak şekilde düzenlemeyi düşünebilirsiniz.
Michael R. Chernick

@Michael, muhtemelen bunun karamsar bir cevap olduğu konusunda haklısınız ve muhtemelen gereksiz yere öyle. OP, duymak istedikleri cevabı kabul etse de, bu konuda bir karar aldı. Daha ciddi bir cevap, iyi bir simülasyon kanıtına veya daha yüksek dereceli bir asimptotik analizine işaret edecektir, ancak ne yazık ki bu tür referansların farkında değilim.
StasK

3
Değeri için, "42" sihirli sayısının rastgele etkilerin haklı olduğu zamanlarla ilgili olmadığını, sonlu boyut düzeltmelerinden endişe duymadan kurtulabildiğini düşünüyorum (örneğin etkili payda serbestlik dereceleri hakkında düşünme / Kenward-Roger düzeltmeleri / diğer benzer yaklaşımlar).
Ben Bolker,

7

Ayrıca bir Bayesian karma modeli de kullanabilirsiniz - bu durumda rastgele etkilerin tahminindeki belirsizlik tamamen% 95 tahmin güvenilir aralığının hesaplanmasında halledilir. Örneğin yeni R paketi brmsve işlevi brm, lme4neredeyse aynı sözdizimine sahip olduğu için sıkça karışık bir modelden Bayesian'ye çok kolay bir geçişe izin veriyor .


4

Sadece 6 seviyeli rastgele etkiler modeli kullanmam 6 seviyeli rastgele etki kullanan modeller bazen çok sayıda istatistiksel program kullanılarak çalıştırılabilir ve bazen tarafsız tahminler yapabilir, ancak:

  1. İstatistiki toplulukta keyfi bir fikir birliği olduğunu düşünüyorum, 10-20 asgari sayı. Araştırmanızın yayınlanmasını istiyorsanız, istatistiksel inceleme yapmadan bir dergi aramanız önerilir (ya da kararınızı oldukça karmaşık bir dil kullanarak haklı gösterebilirsiniz).
  2. Bu kadar az sayıda küme ile küme arasındaki varyansın zayıf tahmin edilmesi muhtemeldir. Küme varyansı arasındaki zayıf tahmin genellikle ilgili katsayıların standart hatasının hatalı tahminine dönüşür. (rastgele etki modelleri, teorik olarak sonsuza kadar giden küme sayısına dayanmaktadır).
  3. Genellikle modeller sadece yakınlaşmazlar. Modelinizi çalıştırmayı denediniz mi? Modellerin birleştiği her konu için yalnızca 12-16 ölçü ile şaşırdım. Bu tür bir modeli bir araya getirmeyi başardığımda küme başına yüzlerce ölçüm yaptım.

Bu konu, alandaki çoğu standart ders kitabında ele alınmaktadır ve sorunuzda bunları çözdünüz. Sana yeni bir bilgi verdiğimi sanmıyorum.


Bu, teknik içeriğiyle ilgili bir neden için oy kullanıldı mı?
N Brouwer

Ne tür verilerle çalışıyorsunuz? Modelin kişi başına 12-16 ölçü ile birleşeceğini duyduğuna şaşırdığına emin değilim. Ortaya çıkan modellerde önyargı hakkında yorum yapamam, ancak lme4karışık modellerde yakınsama konusunda hiçbir sıkıntım olmadı ve bunları sıklıkla OP ile benzer örnek boyutlarında çalıştırıyorum (ayrıca biyoloji veri kümeleriyle de çalışıyorum).
RTbecard

1

Asıl sorudan bu yana uzun zaman geçti ancak model seçimiyle ilgili birkaç nokta ekleyebileceğimi düşündüm.

1 - Model tanımlandığı sürece (yani parametre alanında serbestlik dereceniz vardır) modele uyacak şekilde YTL'yi kullanmanız gerekir. Optimizasyon yöntemine bağlı olarak model yakınsak olabilir veya olmayabilir. Her durumda, 1 veya 2'den fazla rasgele etki ve kesinlikle 1'den fazla çapraz seviye etkileşimi içermeyi denemeyeceğim. Burada sunulan sorunun özel durumunda, kertenkele spesifik özellikleri (ör. Yaş, büyüklük vb.) Ve tedavi / ölçüm özellikleri grup büyüklüğü 6 arasındaki etkileşimin olduğundan şüpheleniyorsak, yeterince kesin tahminler yapmak için yeterli olmayabilir.

2 - Birkaç cevapta bahsedildiği gibi, yakınsama bir sorun olabilir. Ancak benim deneyimim, sosyal bilim verilerinin ölçüm sorunları nedeniyle büyük yakınsama problemi olmasına rağmen, yaşam bilimleri ve özellikle de biyo-kimyasal tekrarlanan ölçümlerin çok daha küçük standart hatalara sahip olmasıdır. Her şey veri üretme sürecine bağlıdır. Sosyal ve ekonomik verilerde çeşitli soyutlama seviyelerinde çalışmak zorundayız. Biyolojik ve kimyasal ve şüphesiz astronomik veri ölçümlerinde hata problemi azdır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.