Birden çok imputation kullanılırken karma efekt modelinin bir varyans bileşeni için güven aralıkları nasıl birleştirilir


20

Çoklu impütasyonun (MI) mantığı, eksik değerleri bir kez değil birkaç kez (tipik olarak M = 5) katlanarak M tamamlanmış veri kümelerine neden olur. Daha sonra M tamamlanmış veri kümeleri, M tahminlerinin ve standart hatalarının, "genel" tahmin ve standart hatasını elde etmek için Rubin formülleri kullanılarak birleştirildiği tam veri yöntemleriyle analiz edilir.

Şimdiye kadar harika, ama karışık efektler modelinin varyans bileşenleri söz konusu olduğunda bu tarifi nasıl uygulayacağımdan emin değilim. Bir varyans bileşeninin örnekleme dağılımı asimetriktir - bu nedenle karşılık gelen güven aralığı tipik "tahmin ± 1,96 * se (tahmin)" biçiminde verilemez. Bu nedenle R paketleri lme4 ve nlme, varyans bileşenlerinin standart hatalarını bile sağlamaz, sadece güven aralıkları sağlar.

Bu nedenle, bir veri kümesinde MI gerçekleştirebilir ve daha sonra M tamamlanmış veri kümelerine aynı karışık efekt modelini taktıktan sonra varyans bileşeni başına M güven aralığı alabiliriz. Soru, bu M aralıklarının bir "genel" güven aralığı içinde nasıl birleştirileceğidir.

Sanırım bu mümkün olmalı - bir makalenin yazarları (yucel & demirtas (2010) Normal olmayan rastgele etkilerin MI tarafından çıkarım üzerindeki etkisi) bunu yapmış gibi görünüyor, ama tam olarak nasıl olduğunu açıklamıyorlar.

Herhangi bir ipucu çok mecbur olurdu!

Şerefe, Rok


Çok ilginç bir soru. Sonuçlarınızı paylaşmak için sabırsızlanıyorum, eğer paylaşmak istiyorsanız ...
chl

@chl: Bitirdiğimde size sonuçları içeren tabloları gönderebilirim, ama gerçekten yeni bir şey icat etmeyeceğim. Şimdiye kadar sadece iki seviyeli bir impütasyon modeli (R paket tavası) altındaki MI'yı basit bir normal model (iki seviyeli yapı, R paket normu göz ardı edilerek) ve listelemeli silme altında MI ile karşılaştırmayı planlıyorum. Farklı örnek büyüklükleri altında, varyans bileşeninin vb. Değerleri. Simülasyon çalışmasını nasıl "canlandıracağınız" konusunda herhangi bir fikriniz varsa, duymak isterim.
Rok

1
Başka bir şey: bu soruna uygun bir analitik çözümün bile olduğundan emin değilim. Bazı ek literatüre baktım, ama bu sorun her yere zarif bir şekilde bakıyor. Yucel & demirtas'ın (bahsettiğim makalede, sayfa 798) şunu da fark ettim: “Bu çarpılmış veri kümeleri, 10 seti (beta, se (beta) olan R paketi lme4'ü kullanarak modeli tahmin etmek için kullanıldı […] ), (sigma_b, se (sigma_b)) daha sonra Rubin tarafından tanımlanan MI birleştirme kuralları kullanılarak birleştirildi. ”
Rok

Varyans bileşeninin SE'sini tahmin etmek için bir çeşit kısayol kullandıkları anlaşılmaktadır (elbette, CI asimetrik olduğu için uygun değildir) ve daha sonra klasik formülü uyguladılar.
Rok

Tamam, bunun için teşekkürler. Oy verebilmek için yorumlarınızı bir cevaba koyabilir misiniz?
chl

Yanıtlar:


8

Bu harika bir soru! Bunun tam bir cevap olduğundan emin değilim, ancak yardımcı olması durumunda bu birkaç satırı bırakıyorum.

Yücel ve Demirtaş'ın (2010) JCGS'de yayınlanan daha eski bir makaleye, eksik değerlere sahip çok değişkenli doğrusal karışık efekt modelleri için hesaplama stratejileri , VC'lerin olasılık tabanlı tahminler üretmek için hibrit bir EM / Fisher puanlama yaklaşımı kullandıkları anlaşılıyor . R paket mlmmm'de uygulanmıştır . Ancak, CI üretip üretmediğini bilmiyorum.

Aksi takdirde, veri kaybı olanlar da dahil olmak üzere büyük ölçüde çok düzeyli modeller için kullanılan WinBUGS programını kesinlikle kontrol ederim . Genelde tam koşullu dağılımları belirtmek zorunda olduğumuz için (eğer MV bağımsız değişkenlerde mevcutsa, bir önceki eksik X'ler ve bu WinBUGS tarafından tahmin edilecek bir parametre olarak kabul edilecektir ...). Eğer lme, lmer, PROC MIXED'de r-sig-mixed, eksik verilerde aşağıdaki konuya başvurursam R için de geçerli gibi görünüyor . Ayrıca, MLwiN yazılımına bakmaya değer olabilir .


Cevabınız için çok teşekkürler! Prensip olarak ben de tarif ettiğim gibi somut bir sorunun nasıl çözüleceğiyle ilgileniyorum (böylece WinBUGS ipucu için teşekkürler). Ama şu anda, MI'nın performansını (kapsama oranları vb.) Model yanlış tanımlaması altında inceleyeceğim bir seminer makalesi için bir simülasyon çalışması yapmaya çalışıyorum. Bir çözüm bulamaz ve sabit etkilere odaklanamazsam, varyans bileşenlerini unutacağımı düşünüyorum, ancak vazgeçmek sinir bozucu.
Rok

@ Rock Simülasyon için harika bir fikir! Bu özel konuyu dört gözle bekleyeceğim. Zaten r-sig-karışık posta ve Gelman'ın çok düzeyli regresyon kitabında arama yaptığınızı varsayalım ...
chl

Şimdi baktım, referanslar için tanklar! Ne yazık ki, r-sig-karma arşivlerinde MI üzerinde hiçbir şey yok; ve Gelman sadece verilen impütasyonların içinde ve arasında varyasyon olduğunda MI'dan çıkarımların nasıl birleştirileceği ile ilgili temel formülü verir (§25.7).
Rok

6

Yukarıdan tekrarlanan yorum:

bu soruna uygun bir analitik çözümün bile olduğundan emin değilim. Bazı ek literatüre baktım, ancak bu sorun her yerde zarif bir şekilde göz ardı ediliyor. Yücel ve Demirtaş'ın (bahsettiğim makalede, sayfa 798) şunları yazdığını da fark ettim:

Bu çarpılan veri kümeleri, lme410 set (beta, se (beta)), (sigma_b, se (sigma_b)) yol açan R paketi kullanılarak modeli tahmin etmek için kullanıldı; Yedirmek.

Varyans bileşeninin SE'sini tahmin etmek için bir çeşit kısayol kullandıkları anlaşılmaktadır (elbette, CI asimetrik olduğu için uygun değildir) ve daha sonra klasik formülü uyguladılar.


Deneyiminizi bu sorunla paylaşmak için geri geldiğiniz için teşekkür ederiz. Ne yazık ki, gerçek bir çözümüm yok ama belki başka öneriler de gelecek.
chl

"Zarif bir şekilde gözden kaçan" ... duyduğumda literatürü gözden geçirmek için yararlı bir cümle.
Matt Parker

3

Feragatname: Bu fikir aptalca olabilir ve teklif ettiğim şeyin teorik sonuçlarını anlamıyormuş gibi davranmayacağım.

" Öneri " : Neden sadece 100 (normalde 5 yaptığınızı biliyorum) veri kümeleri, neden lme4 veya nmle çalıştırmak, güven aralıklarını almak (100 var) ve sonra:

Küçük bir aralık genişliği (örneğin aralık / 1000 veya benzeri) kullanarak, her parametrenin olası değerleri aralığını test edin ve yalnızca 100 CI'den en az 95'inde görünen küçük aralıkları dahil edin. Daha sonra güven aralıklarınızın Monte Carlo "ortalaması" olur.

Bu yaklaşımla ilgili sorunlar (veya belki de teorik sorunlar) olduğundan eminim. Örneğin, olabilir bir dizi ile bitirmek ayrık aralıklarla. Bu, alanınıza bağlı olarak kötü bir şey olabilir veya olmayabilir. Bunun yalnızca, % 95'ten daha az kapsama alanına sahip bir bölgeyle ayrılmış en az iki tamamen çakışmayan güven aralığınız varsa mümkün olduğunu unutmayın .

Kesinlikle daha iyi bir şekilde oluşturulacak ve teorik olarak geçici önerimden daha iyi bir şekilde desteklenecek posterior güvenilir bir bölge elde etmek için eksik verilerin Bayes tedavisine daha yakın bir şey düşünebilirsiniz .

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.