Rastgele efekt modelinde küme başına minimum örnek boyutu


10

Rastgele bir etki modelinde küme başına gözlem sayısının mantıklı bir yanı var mı? 1,500 örnek büyüklüğünde, değiştirilebilir rasgele etki olarak modellenmiş 700 küme var. Daha az ama daha büyük kümeler oluşturmak için kümeleri birleştirme seçeneğim var. Her küme için rastgele etkiyi tahmin etmede anlamlı sonuçlar elde etmek için küme başına minimum örnek boyutunu nasıl seçebilirim acaba? Bunu açıklayan iyi bir makale var mı?

Yanıtlar:


13

TL; DR : Karışık etki modelinde küme başına minimum örnek boyutu, küme sayısının yeterli olması ve tekli küme oranının "çok yüksek" olmaması şartıyla 1'dir.

Daha uzun versiyon:

Genel olarak, küme sayısı küme başına gözlem sayısından daha önemlidir. 700 ile, orada hiçbir sorun yok açıkça.

Küçük küme boyutları, özellikle tabakalı örnekleme tasarımlarını takip eden sosyal bilim araştırmalarında oldukça yaygındır ve küme düzeyinde örneklem büyüklüğünü araştıran bir araştırma grubu vardır.

Küme boyutunu artırmak, rastgele etkileri tahmin etmek için istatistiksel gücü arttırırken (Austin ve Leckie, 2018), küçük küme boyutları ciddi yanlılığa neden olmaz (Bell ve ark., 2008; Clarke, 2008; Clarke ve Wheaton, 2007; Maas ve Hox , 2005). Bu nedenle, küme başına minimum örnek büyüklüğü 1'dir.

Özellikle, Bell ve arkadaşları (2008),% 0 ila% 70 arasında değişen tekli kümeler (yalnızca tek bir gözlem içeren kümeler) oranlarıyla bir Monte Carlo simülasyon çalışması gerçekleştirmiş ve küme sayısının büyük olması (~ 500) küçük küme boyutlarının sapma ve Tip 1 hata kontrolü üzerinde neredeyse hiçbir etkisi olmamıştır.

Ayrıca, modelleme senaryolarının herhangi birinde model yakınsama ile ilgili çok az sorun olduğunu bildirdiler.

OP'deki özel senaryo için, modeli ilk olarak 700 kümeyle çalıştırmanızı öneririm. Bununla ilgili açık bir sorun olmadıkça, kümeleri birleştirmekten çekinmezdim. Ben R basit bir simülasyon koştu:

Burada, 1'in kalıntı varyansı, 690 tekil ve 10'un sadece 2 gözlemi olan 1, 700 kümenin tek bir sabit etkisi ile kümelenmiş bir veri kümesi oluşturuyoruz. Simülasyonu 1000 kez çalıştırıyoruz ve tahmini sabit ve artık rastgele etkilerin histogramlarını gözlemliyoruz.

> set.seed(15)
> dtB <- expand.grid(Subject = 1:700, measure = c(1))
> dtB <- rbind(dtB, dtB[691:700, ])
> fixef.v <- numeric(1000)
> ranef.v <- numeric(1000)
> for (i in 1:1000) { 
   dtB$x <- rnorm(nrow(dtB), 0, 1)
   dtB$y <- dtB$Subject/100 + rnorm(nrow(dtB), 0, 1) + dtB$x * 1

   fm0B <- lmer(y ~ x + (1|Subject), data = dtB)
   fixef.v[i] <- fixef(fm0B)[[2]]
   ranef.v[i] <- attr(VarCorr(fm0B), "sc")
 }
> hist(fixef.v, breaks = 15)
> hist(ranef.v, breaks = 15)

resim açıklamasını buraya girin resim açıklamasını buraya girin

Gördüğünüz gibi, sabit etkiler çok iyi tahmin edilirken, kalan rastgele etkiler biraz aşağıya doğru eğilimli gibi görünüyor, ancak büyük ölçüde öyle değil:

> summary(fixef.v)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.6479  0.9439  0.9992  1.0005  1.0578  1.2544 
> summary(ranef.v)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.2796  0.7745  0.9004  0.8993  1.0212  1.4837 

OP spesifik olarak küme seviyesindeki rastgele etkilerin tahmininden bahsetmektedir. Yukarıdaki simülasyonda, rastgele etkiler basitçe her bir Subjectkimliğin değeri (100 faktörüne göre küçültülmüş) olarak yaratılmıştır . Açıkçası bunlar normal olarak dağıtılmaz, bu da doğrusal karışık efekt modellerinin varsayımıdır, ancak küme düzeyi efektlerini (koşullu modları) ayıklayabilir ve bunları gerçek Subjectkimliklere göre çizebiliriz:

> re <- ranef(fm0B)[[1]][, 1]
> dtB$re <- append(re, re[691:700])
> hist(dtB$re)
> plot(dtB$re, dtB$Subject)

resim açıklamasını buraya girin

resim açıklamasını buraya girin

Histogram bir şekilde normallikten ayrılır, ancak bunun nedeni verileri simüle etme şeklimizdir. Tahmini ve gerçek rastgele etkiler arasında hala makul bir ilişki vardır.

Referanslar:

Peter C. Austin ve George Leckie (2018) Çok seviyeli lineer ve lojistik regresyon modellerinde rasgele etkiler varyans bileşenlerini test ederken kümelerin ve küme büyüklüğünün istatistiksel güç ve Tip I hata oranları üzerindeki etkisi, İstatistiksel Hesaplama ve Simülasyon Dergisi, 88: 16, 3151-3163, DOI: 10.1080 / 00949655.2018.1504945

Bell, BA, Ferron, JM ve Kromrey, JD (2008). Çok seviyeli modellerde küme boyutu: seyrek veri yapılarının iki seviyeli modellerde nokta ve aralık tahminleri üzerindeki etkisi . JSM Bildirileri, Anket Araştırma Yöntemleri Bölümü, 1122-1129.

Clarke, P. (2008). Grup düzeyinde kümeleme ne zaman yok sayılabilir? Çok seviyeli modeller ile seyrek verilere sahip tek seviyeli modeller . Epidemiyoloji ve Toplum Sağlığı Dergisi, 62 (8), 752-758.

Clarke, P. ve Wheaton, B. (2007). Adresleme veriler sentetik mahalleleri oluşturmak için küme analizi kullanılarak içeriksel nüfus araştırmalarında Seyreklik . Sosyolojik Yöntemler ve Araştırma, 35 (3), 311-351.

Maas, CJ ve Hox, JJ (2005). Çok seviyeli modelleme için yeterli numune boyutları . Metodoloji, 1 (3), 86-92.


1
+1 harika cevap. İlgili: Kümelerin yaklaşık yarısının sadece 1 gözleminin olduğu lojistik çok düzeyli modellerle ilgili sorunlar yaşadım. Buraya bakın: stats.stackexchange.com/a/358460/130869
Mark White

4

Karışık modellerde rastgele etkiler çoğunlukla ampirik Bayes metodolojisi kullanılarak tahmin edilir. Bu metodolojinin bir özelliği büzülmedir. Yani, tahmini rasgele etkiler, sabit etkiler kısmı tarafından tarif edilen modelin genel ortalamasına doğru küçültülür. Büzülme derecesi iki bileşene bağlıdır:

  1. Rastgele etkilerin varyansının büyüklüğü, hata terimlerinin varyansının büyüklüğüne kıyasla. Hata terimlerinin varyansına göre rastgele etkilerin varyansı ne kadar büyük olursa, büzülme derecesi o kadar küçük olur.

  2. Kümelerde tekrarlanan ölçümlerin sayısı. Daha fazla tekrarlanan ölçümlere sahip kümelerin rastgele etki tahminleri, daha az ölçüm yapan kümelere kıyasla genel ortalamaya daha az küçülmüştür.

Sizin durumunuzda, ikinci nokta daha önemlidir. Bununla birlikte, önerilen birleştirme kümeleri çözümünüzün ilk noktayı da etkileyebileceğini unutmayın.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.