Karma Site ve Çoklu Saha Çalışmaları için Standart Hataların Birleştirilmesi - Karma Model Neden Bu Kadar Daha Verimlidir?


16

Bir avuç sitelerden "kırık sopa" aylık vaka sayıları oluşan bir veri kümesi var. İki farklı teknikten tek bir özet tahmin almaya çalışıyorum:

Teknik 1: 0/1 gösterge değişkenli bir Poisson GLM ile ve zamandaki eğilimleri kontrol etmek için bir zaman ve zaman ^ 2 değişkeni kullanarak bir "kırık çubuk" takın. Bu 0/1 gösterge değişkeninin tahmini ve SE, anlar tekniğinin oldukça düz bir yukarı ve aşağı yöntemi kullanılarak veya bir "Bayesian" tahmini elde etmek için R'deki tlnise paketi kullanılarak toplanır. Bu, Peng ve Dominici'nin hava kirliliği verileriyle yaptıklarına benzer, ancak daha az sayıda alanla (~ bir düzine).

Teknik 2: Zaman içindeki eğilimler için sahaya özgü kontrollerden bazılarını terk edin ve doğrusal karışık bir model kullanın. Özellikle:

lmer(cases ~ indicator + (1+month+I(month^2) + offset(log(p)), family="poisson", data=data)

Sorum bu tahminlerden çıkan standart hataları içeriyor. Teknik 1'in aslında aylık zaman yerine haftalık bir zaman kullanan ve bu nedenle daha hassas olması gereken standart hatası, Momentler Yöntemi yaklaşımı için ~ 0.206 ve ay için ~ 0.306 tahmininde standart bir hataya sahiptir.

Lmer yöntemi, ~ 0.09'luk standart bir hata verir. Etki tahminleri makul derecede yakındır, bu nedenle karışık model çok daha verimli olduğu sürece farklı özet tahminlerinde sadece sıfırlanıyor gibi görünmemektedir.

Bu beklenen bir şey mi? Öyleyse, karışık modeller neden bu kadar çok daha verimli? Bu genel bir fenomen mi, yoksa bu modelin spesifik bir sonucu mu?


Tekniğinize tam olarak hangi modeli uyduğunuzu bilmeden bu soruya cevap vermek zordur. 3 olasılıktan bahsediyorsunuz, ancak söyleyebildiğim kadarıyla asla bir tanesine yerleşmeyin. Sonra "Teknik 1'in standart hatası [...] ~ 0.206" diyorsunuz. Tam olarak hangi model bu standart hatadır? Bu modele uydurmak için kullandığınız sözdizimini, Technique 2 için yaptığınız gibi yayınlayacak mısınız? Daha da iyisi, her iki modele de uyabileceğimiz tekrarlanabilir bir örnek (mutlaka orijinal veri kümeniz değil) sağlamak olacaktır.
Jake Westfall

@JakeWestfall Haklısın, bunu ilk yazdığımda sorun geliştikçe bir tür bilinç akışı sorusuydu. Biraz düzenleme yapacağım ve daha yararlı olup olmadığını göreceğim. Ne yazık ki, kod bir yerde dolaştı ...
Fomite

Biraz temizleme yapıldı - modellerin tasarımı aynı değişkenleri kullanıyor. Ne yazık ki, kod, veri vb. Başka bir makinede ve ben bir konferanstayım. Temel soru, bence, "Çok bölgeli tahminler: Karışık modeller her zaman / genellikle havuzdan daha verimli midir?"
Fomite

Yanıtlar:


5

Bunun eski bir soru olduğunu biliyorum, ancak nispeten popüler ve basit bir cevabı var, umarım gelecekte başkalarına yardımcı olacaktır. Daha derinlemesine bir inceleme için, Christoph Lippert'in Doğrusal Karışık Modeller konusundaki derslerini burada genom çapında ilişki çalışmaları bağlamında inceleyebilirsiniz . Özellikle bkz. Ders 5 .

Karışık modelin çok daha iyi çalışmasının nedeni, tam olarak neyi kontrol etmeye çalıştığınızı hesaba katmak için tasarlanmasıdır: nüfus yapısı. Çalışmanızdaki "popülasyonlar", örneğin, aynı protokolün biraz farklı ama tutarlı uygulamalarını kullanan farklı sitelerdir. Ayrıca, çalışmanızın konuları insanlarsa, farklı sitelerden havuzlanan kişilerin aynı sitedeki kişilerden daha az ilişkili olma olasılığı yüksektir, bu nedenle kanla ilgili olma da rol oynayabilir.

N-(Y|Xβ,σ2)KN-(Y|Xβ+Zu,σ2ben+σg2K)

Nüfus yapısını açıkça kontrol etmeye çalıştığınız için, doğrusal karma modelin diğer regresyon tekniklerinden daha iyi performans göstermesi şaşırtıcı değildir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.