Sonuç değişkenleri için çoklu gösterim


19

Tarımsal denemeler hakkında bir veri setim var. Yanıt değişkenim bir yanıt oranıdır: log (tedavi / kontrol). Ben fark arabuluculuk ile ilgileniyorum, bu yüzden RE meta-regresyonlar (ağırlıksız, çünkü etkisi boyutu tahminlerin varyans ile ilgisiz olduğu açık görünüyor) çalıştırıyorum.

Her çalışma tahıl verimi, biyokütle verimi veya her ikisini rapor eder. Sadece biyokütle verimini rapor eden çalışmalardan tahıl verimini engelleyemiyorum, çünkü çalışılan bitkilerin hepsi tahıl için yararlı değildi (örneğin şeker kamışı dahil). Ancak tahıl üreten her bitkide biyokütle vardı.

Kayıp ortak değişkenler için, yinelemeli regresyon impütasyonunu kullanıyorum (Andrew Gelman'ın ders kitabı bölümünü izleyerek). Makul sonuçlar veriyor gibi görünüyor ve tüm süreç genellikle sezgisel. Temel olarak eksik değerleri tahmin ediyorum ve eksik değerleri tahmin etmek için bu tahmin edilen değerleri kullanıyorum ve her değişken yaklaşık olarak yakınsamaya (dağıtımda) kadar her bir değişken arasında döngü yapıyorum.

Aynı süreci eksik sonuç verisini engellemek için kullanmamamın bir nedeni var mı? Muhtemelen tahıl yanıt oranı, ürün tipi ve sahip olduğum diğer değişkenler göz önüne alındığında biyokütle yanıt oranı için nispeten bilgilendirici bir çarpışma modeli oluşturabilirim. Daha sonra katsayıları ve VCV'leri ortalamalandırırım ve standart düzeltmeye göre MI düzeltmesini eklerdim.

Fakat bu katsayılar, sonuçların tahakkuk ettirilmesinde neyi ölçer? Katsayıların yorumlanması ortak değişkenler için standart MI'dan farklı mıdır? Bunu düşünerek, kendimi bunun işe yaramadığına ikna edemiyorum, ama gerçekten emin değilim. Materyal okumak için düşünce ve önerilerinizi bekliyoruz.


Cevabım yok, ama bir soru ve iki not: 1) oranın günlüğü, elbette, günlüklerin farkıdır. Yani DV'niz log (tedavi) - log (kontrol) ile eşdeğerdir. 2) Gelman'ın hangi ders kitabına bakıyordunuz?
Peter Flom - Monica'yı eski durumuna döndürün

Evet, DV log (tedavi) -log (kontrol) öğesine eşdeğerdir. Gelman'ın
dayanıyorum

Bana sonucu sonuçlandırmanın Monte Carlo hatasına yol açtığı söylendi. Daha sonra bir bağlantı bulmaya çalışacağım. Sonuçları, değişkenlerin impütasyon modellerine dahil ettiğinizden emin olmanız gerektiğini unutmayın.
DL Dahly

Yanıtlar:


20

Şüphelendiğiniz gibi, sonuç ölçüsü için birden fazla itme kullanmak geçerlidir. Bunun yararlı olduğu durumlar vardır, ancak riskli de olabilir. Tüm ortak değişkenlerin eksiksiz olduğu ve sonucun eksik olduğu durumu düşünüyorum.

Örtülme modeli doğruysa, yüklenen verilerden parametre tahminleri üzerinde geçerli çıkarımlar elde edeceğiz. Eksikliğin tamamının tahmin ediciyi koşullandırdıktan sonraki sonuçla, yani MNAR altında olmasıyla, sadece tam vakalardan elde edilen çıkarımlar aslında yanlış olabilir. Verilerin MNAR olduğunu bildiğimizde (veya şüphelendiğimizde) çarpma yararlıdır.

MAR'da genellikle sonucu etkilemek için hiçbir fayda yoktur ve düşük sayıda impütasyon için sonuçlar simülasyon hatası nedeniyle biraz daha değişken olabilir. Bunun önemli bir istisnası var. Modelin bir parçası olmayan ve sonuçla yüksek oranda korelasyona sahip olan bir yardımcı tam değişkene erişimimiz varsa, tamsayı, tam vaka analizinden önemli ölçüde daha verimli olabilir, bu da daha kesin tahminler ve daha kısa güven aralıkları ile sonuçlanabilir. Bunun gerçekleştiği yaygın bir senaryo, herkes için ucuz bir sonuç ölçütümüz ve bir alt küme için pahalı bir ölçütümüzdür.

Birçok veri kümesinde, bağımsız değişkenlerde eksik veriler de meydana gelir. Bu durumlarda, bağımsız değişkeni tanımlamak için sonuç değişkenini tanımlamamız gerekir.


Teşekkürler, bu benim sezgilerimle tutarlı, ama belki de bağımlı değişkenleri ima eden iyi yayınlanmış bir çalışmanın bağlantısını paylaşabilir misiniz? Sonuç önlemlerini etkilemek istediğim temel nedenlerden biri, GAM'lerde çok yüksek df gereksinimlerine sahip yarı parametrik tensör ürün etkileşimi terimlerini kolaylaştırmak için (almadan önce) örnek boyutunu (yaklaşık 250'den yaklaşık 450'ye) artırmaktır. cezalandırılmış, edf düşürücü). MAR benim durumumda makul.
generic_user

1
ANOVA'nın dengeli tasarımlar elde etmesi yaygın olarak uygulanmaktadır. RJA Little, eksik X'lu Regresyon'un tanıtımına bakın, JASA 1992. Örnekleme boyutunu bu şekilde artırmanın daha kesin tahminler elde etmenize yardımcı olmadığını biliyorsunuz. Yardımcı değişkenler söz konusu olduğunda, DB Rubin'de süper verimlilik, 18+ Yıldan Sonra Çoklu İtme, JASA 1996 bölümünü okuyun.
Stef van Buuren

1
"MAR altında, genellikle sonucu etkilemek için hiçbir faydası yoktur" - Bunu daha önce bahsetmiştim, ama referansım yok - lütfen bir tane verebilir misiniz?
Robert Long

Bunun için Little 1992 tandfonline.com/doi/abs/10.1080/01621459.1992.10476282 alıntı yapabileceğinizi düşünüyorum , ancak lütfen istisnalara dikkat edin.
Stef van Buuren

1
@StefvanBuuren - çoğunlukla yararlı cevap, ama benim anlayış "veri MNAR olduğunu biliyoruz (veya şüpheliysek)" o zaman imputation sorunları tam vaka analizi olabilir daha fazla çözemez. Bu "ücretsiz öğle yemeği yok" kategorisinde düşüyor gibi görünüyor.
rolando2

2

Sonuç verilerini etkilemek çok yaygındır ve rastgele hatayı hesaplarken doğru çıkarımlara yol açar.

Eksik bir vaka analizi altında, eksik değerleri koşullu bir ortalama ile çarpıtarak yaptığınız şey, tek bir çarpışma gibi görünmektedir. Yapmanız gereken, sürekli ortak değişkenler için, bu eksik değerleri geriye dönük olarak ölçtüğünüzde gözlemlediğiniz rastgele hatayı açıklayan çoklu çarpışmadır. EM algoritması, gözlemlenen bir dizi olası sonucun ortalamasını alarak benzer şekilde çalışır.

Tek imputasyon, ortalama-varyans ilişkisi olmadığında model parametrelerinin doğru tahminini verir, ancak tip I hata oranlarını şişirerek sıfıra eğimli standart hata tahminleri verir. Bunun nedeni, bu faktörleri ölçtüğünüzde gözlemlediğiniz hatanın boyutu hakkında "iyimser" olmanızdır.

Birden fazla itme, koşullu ortalama ithalatı için yinelemeli olarak ek hata üretme işlemidir, böylece 7 veya 8 simüle edilmiş emülasyon yoluyla, model parametreleri ve standart hatalarının doğru tahminlerini almak için modelleri ve hatalarını birleştirebilirsiniz. Ortak olarak eksik ortak değişkenler ve sonuçlar varsa, SAS, STATA ve R'de, "tamamlanmış" veri kümelerinin (sabit ve rastgele olmayan işlem görmüş, empoze edilmiş değerlere sahip veri kümeleri) oluşturulduğu zincirleme denklemler aracılığıyla birden çok gösterim olarak adlandırılan bir yazılım vardır, model her bir tam veri kümesinden tahmin edilen parametreler ve parametre tahminleri ve standart hatalar doğru bir matematiksel oluşum kullanılarak birleştirilmiştir (Van Buuren belgesindeki ayrıntılar).

MI'daki süreç ile tanımladığınız süreç arasındaki küçük fark, sonucun çarpık veriler kullanılarak koşullu dağılımını tahmin etmenin, belirli faktörleri hangi sırayla emrettiğinize bağlı olacağı gerçeğini açıklamamanızdır. MI'da sonuç üzerinde eksik olan değişken değişkenlerin koşullu dağılımını tahmin etmiş olmalısınız , aksi takdirde önyargılı parametre tahminleri alırsınız.


Teşekkürler. Öncelikle, MICE veya MI kullanmadan, her şeyi R'de sıfırdan programlıyorum. İkincisi, sadece koşullu beklentileri değil, (modellenmiş) bir tahmin dağılımının çizimleriyle de ima ediyorum. İkinci paragrafta bahsettiğiniz şey bu mu? Değilse, açıklamayı takdir ediyorum. Ayrıca, hangi Royston kağıtlarından bahsediyorsunuz? Son noktanız için - "bağımlı değişkeninizi çarpışma modeline koymalısınız" ifadesinden daha karmaşık bir şey mi söylüyorsunuz? Eğer öyleyse, açıklamayı çok takdir ediyorum.
generic_user

Son olarak - tek bir imada bulunmuyorum. 30 model veri dolu ve Rubin'den V_b = W + (1 + 1 / m) B formülünü kullanıyorum.
generic_user

Royston kağıdı köprüye bağlandı. Aslında R'de programı uygulayan ve hesaplama detaylarını içeren Van Buuren'i bağlamak istedim : doc.utwente.nl/78938 MICE / MI bir süreçtir. Evde yetiştirilen koda dayalı olarak ima ediyorsanız, ayrıntılar üzerinde daha ayrıntılı bir şekilde çalışmalısınız. Koşullu araçlar = model doğruysa tahmini değerler (veya yaklaşık olarak gerekli bir varsayım). "Sonucu ekle" den daha karmaşıktır, birkaç eksik patern üzerinde (en az 3, eksik ortak değişken / sonuç / ortaklaşa kayıp) ima ettiğinizdir.
AdamO

Beklenen değeri 30 kez tek başına ima ediyorsanız, aynı sonuçları 30 kez almanız gerekir. Hatayı nasıl tahmin ediyorsunuz?
AdamO

Oldukça basit bir algoritma - a, b, c ve d'yi bazı eksikliklerle gözlemlediğimi söylüyorum. Dördü de gözlemlenen değerlerden rastgele çekilişlerle (yedekli) dolduruyorum. Daha sonra imp * lm (a ~ b * + c * + d *) 'yi * doldurduğumu gösterir ve sonra x = tahmin (imp, se.fit = TRUE), y = rnorm (N, impfbent,benmpse.fit). Daha sonra bir * = y yapıyorum ve sonra imp = lm (b ~ a * + c * + d *) yapıyorum, aynı şekilde tahmin ediyorum vb. Bütün değişkenler arasında 50 kez döngü yapıyorum. Hepsi yukarıda bahsettiğim Andrew Gelman ders kitabı bölümünden ve her seferinde aynı sonucu almıyorum.
generic_user
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.