TL; DR : Karışık etki modelinde küme başına minimum örnek boyutu, küme sayısının yeterli olması ve tekli küme oranının "çok yüksek" olmaması şartıyla 1'dir.
Daha uzun versiyon:
Genel olarak, küme sayısı küme başına gözlem sayısından daha önemlidir. 700 ile, orada hiçbir sorun yok açıkça.
Küçük küme boyutları, özellikle tabakalı örnekleme tasarımlarını takip eden sosyal bilim araştırmalarında oldukça yaygındır ve küme düzeyinde örneklem büyüklüğünü araştıran bir araştırma grubu vardır.
Küme boyutunu artırmak, rastgele etkileri tahmin etmek için istatistiksel gücü arttırırken (Austin ve Leckie, 2018), küçük küme boyutları ciddi yanlılığa neden olmaz (Bell ve ark., 2008; Clarke, 2008; Clarke ve Wheaton, 2007; Maas ve Hox , 2005). Bu nedenle, küme başına minimum örnek büyüklüğü 1'dir.
Özellikle, Bell ve arkadaşları (2008),% 0 ila% 70 arasında değişen tekli kümeler (yalnızca tek bir gözlem içeren kümeler) oranlarıyla bir Monte Carlo simülasyon çalışması gerçekleştirmiş ve küme sayısının büyük olması (~ 500) küçük küme boyutlarının sapma ve Tip 1 hata kontrolü üzerinde neredeyse hiçbir etkisi olmamıştır.
Ayrıca, modelleme senaryolarının herhangi birinde model yakınsama ile ilgili çok az sorun olduğunu bildirdiler.
OP'deki özel senaryo için, modeli ilk olarak 700 kümeyle çalıştırmanızı öneririm. Bununla ilgili açık bir sorun olmadıkça, kümeleri birleştirmekten çekinmezdim. Ben R basit bir simülasyon koştu:
Burada, 1'in kalıntı varyansı, 690 tekil ve 10'un sadece 2 gözlemi olan 1, 700 kümenin tek bir sabit etkisi ile kümelenmiş bir veri kümesi oluşturuyoruz. Simülasyonu 1000 kez çalıştırıyoruz ve tahmini sabit ve artık rastgele etkilerin histogramlarını gözlemliyoruz.
> set.seed(15)
> dtB <- expand.grid(Subject = 1:700, measure = c(1))
> dtB <- rbind(dtB, dtB[691:700, ])
> fixef.v <- numeric(1000)
> ranef.v <- numeric(1000)
> for (i in 1:1000) {
dtB$x <- rnorm(nrow(dtB), 0, 1)
dtB$y <- dtB$Subject/100 + rnorm(nrow(dtB), 0, 1) + dtB$x * 1
fm0B <- lmer(y ~ x + (1|Subject), data = dtB)
fixef.v[i] <- fixef(fm0B)[[2]]
ranef.v[i] <- attr(VarCorr(fm0B), "sc")
}
> hist(fixef.v, breaks = 15)
> hist(ranef.v, breaks = 15)
Gördüğünüz gibi, sabit etkiler çok iyi tahmin edilirken, kalan rastgele etkiler biraz aşağıya doğru eğilimli gibi görünüyor, ancak büyük ölçüde öyle değil:
> summary(fixef.v)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.6479 0.9439 0.9992 1.0005 1.0578 1.2544
> summary(ranef.v)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.2796 0.7745 0.9004 0.8993 1.0212 1.4837
OP spesifik olarak küme seviyesindeki rastgele etkilerin tahmininden bahsetmektedir. Yukarıdaki simülasyonda, rastgele etkiler basitçe her bir Subject
kimliğin değeri (100 faktörüne göre küçültülmüş) olarak yaratılmıştır . Açıkçası bunlar normal olarak dağıtılmaz, bu da doğrusal karışık efekt modellerinin varsayımıdır, ancak küme düzeyi efektlerini (koşullu modları) ayıklayabilir ve bunları gerçek Subject
kimliklere göre çizebiliriz:
> re <- ranef(fm0B)[[1]][, 1]
> dtB$re <- append(re, re[691:700])
> hist(dtB$re)
> plot(dtB$re, dtB$Subject)
Histogram bir şekilde normallikten ayrılır, ancak bunun nedeni verileri simüle etme şeklimizdir. Tahmini ve gerçek rastgele etkiler arasında hala makul bir ilişki vardır.
Referanslar:
Peter C. Austin ve George Leckie (2018) Çok seviyeli lineer ve lojistik regresyon modellerinde rasgele etkiler varyans bileşenlerini test ederken kümelerin ve küme büyüklüğünün istatistiksel güç ve Tip I hata oranları üzerindeki etkisi, İstatistiksel Hesaplama ve Simülasyon Dergisi, 88: 16, 3151-3163, DOI: 10.1080 / 00949655.2018.1504945
Bell, BA, Ferron, JM ve Kromrey, JD (2008). Çok seviyeli modellerde küme boyutu: seyrek veri yapılarının iki seviyeli modellerde nokta ve aralık tahminleri üzerindeki etkisi . JSM Bildirileri, Anket Araştırma Yöntemleri Bölümü, 1122-1129.
Clarke, P. (2008). Grup düzeyinde kümeleme ne zaman yok sayılabilir? Çok seviyeli modeller ile seyrek verilere sahip tek seviyeli modeller . Epidemiyoloji ve Toplum Sağlığı Dergisi, 62 (8), 752-758.
Clarke, P. ve Wheaton, B. (2007). Adresleme veriler sentetik mahalleleri oluşturmak için küme analizi kullanılarak içeriksel nüfus araştırmalarında Seyreklik . Sosyolojik Yöntemler ve Araştırma, 35 (3), 311-351.
Maas, CJ ve Hox, JJ (2005). Çok seviyeli modelleme için yeterli numune boyutları . Metodoloji, 1 (3), 86-92.