Boylamsal bir çalışmada, takipte kaybedilen bireyler için Y zamanında ölçülen Y sonucunu ima etmeli miyim?


10

Bir örneklemde 2 kez tekrarlanan önlemlerim var. 1. sırada 18k, 2. sırada 13k (5000 kişi kaybetti) vardır.

Zaman 1'de ölçülen bir X tahmincisi kümesinde (2. zamanda ölçülen (ve sonuç 1'de ölçülemez)) bir gerileme elde etmek istiyorum. Tüm değişkenlerin bazı eksik verileri vardır. Çoğu nispeten rastgele görünüyor veya eksiklik gözlemlenen verilerle iyi tanımlanmış gibi görünüyor. Bununla birlikte, Y sonucundaki eksikliğin büyük çoğunluğu takip edilen kayıptan kaynaklanmaktadır. Birden çok imputation (R :: fare) kullanacağım ve X için değerleri impute etmek için tam veri kümesini kullanacağım, ancak Y'nin imputasyonu ile ilgili 2 adet çelişkili tavsiye aldım:

1) 18k'nin tam örneğinde X ve V'den (Y = faydalı yardımcı değişkenler) gelen Y YA.

2) Y takibi kaybedilen bireylerde Y'yi ima etmeyin (ve daha sonra herhangi bir sonraki regresyon modelinden düşürün).

Birincisi mantıklı çünkü bilgi bilgidir, neden hepsini kullanmıyorsunuz; Ancak, ikincisi de daha sezgisel bir şekilde mantıklıdır - Y ~ X + V'ye dayanan 5000 kişinin sonucunu, daha sonra dönüp Y ~ X'i tahmin etmek yanlış görünüyor.

Hangisi (daha) doğru?

Bu önceki soru faydalıdır, ancak takip kaybı nedeniyle doğrudan eksikliğe değinmemektedir (belki de cevap aynıdır; bilmiyorum).

Sonuç değişkenleri için çoklu gösterim


Bu benim için çelişkili görünüyor - açıklayabilir misiniz ?: "Çoğunluğu nispeten rastgele görünüyor ya da eksiklik gözlemlenen veriler tarafından iyi tanımlanmış görünüyor."
rolando2

1
Birden çok gösterim ve diğer gösterim yöntemlerinin çoğu, verilerinizin rastgele (MAR) eksik olmasını gerektirir. Çalışmanızdaki yıpratma mekanizmasını anlamak gerekir. Ancak, takip çalışmalarınızda eksik değerlerinizin MAR veya MCAR olmadığından şüphelenirim.
StatsStudent

Yanıtlar:


2

Bence bu bir enstrümantasyon vakası. Eksik bir X istiyorsunuz, eksik bir Y değil.

Y~X

Ancak X sıklıkla eksik veya yanlış ölçülmüştür.

X~Z and Z does not impact Y- except through X.

Sonra çalıştırabilirsiniz:

 X~Z
 Y~Predicted(X)

Ve standart hatalar için bazı ayarlamalar gerektirir.

Çok fazla örnek yıpranmanız varsa Heckmann 2 adım prosedürüne de bakmak isteyebilirsiniz. http://en.wikipedia.org/wiki/Heckman_correction


2

İkisinin de en uygun olmadığını iddia ediyorum.

Veriler MAR veya MCAR olmadığında ve veriler nadiren bu şekilde ortaya çıktığında, dürtü genellikle uygun değildir. değerlerinizi ima ederken , bu makul bir varsayım olabilir, ancak verileriniz için kesinlikle olmayabilir .YXY

Verilerinizdeki tüm eksik verilerin silinmesi parametrelerinizin taraflı olmasına neden olur (veriler MCAR değilse, yukarıya bakın) ve tahminlerinizin hassasiyetini önemli ölçüde azaltır. Bu bir "tam vaka" analizidir ve tavsiye edilemez.

Orada hayatta kalma analizi yöntemlerini gözden geçirmenizi öneririm. Bunlar, sonuçlarınızın bazılarının sansür nedeniyle gözlemlenmediği göz önüne alındığında verilerinizi analiz etmek için tasarlanmış yöntemlerdir . Hangi gözlemlerin sansürlendiğini belirleyebiliyorsanız bunu dikkate alacak modeller vardır.Y

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.