Bir örneklemde 2 kez tekrarlanan önlemlerim var. 1. sırada 18k, 2. sırada 13k (5000 kişi kaybetti) vardır.
Zaman 1'de ölçülen bir X tahmincisi kümesinde (2. zamanda ölçülen (ve sonuç 1'de ölçülemez)) bir gerileme elde etmek istiyorum. Tüm değişkenlerin bazı eksik verileri vardır. Çoğu nispeten rastgele görünüyor veya eksiklik gözlemlenen verilerle iyi tanımlanmış gibi görünüyor. Bununla birlikte, Y sonucundaki eksikliğin büyük çoğunluğu takip edilen kayıptan kaynaklanmaktadır. Birden çok imputation (R :: fare) kullanacağım ve X için değerleri impute etmek için tam veri kümesini kullanacağım, ancak Y'nin imputasyonu ile ilgili 2 adet çelişkili tavsiye aldım:
1) 18k'nin tam örneğinde X ve V'den (Y = faydalı yardımcı değişkenler) gelen Y YA.
2) Y takibi kaybedilen bireylerde Y'yi ima etmeyin (ve daha sonra herhangi bir sonraki regresyon modelinden düşürün).
Birincisi mantıklı çünkü bilgi bilgidir, neden hepsini kullanmıyorsunuz; Ancak, ikincisi de daha sezgisel bir şekilde mantıklıdır - Y ~ X + V'ye dayanan 5000 kişinin sonucunu, daha sonra dönüp Y ~ X'i tahmin etmek yanlış görünüyor.
Hangisi (daha) doğru?
Bu önceki soru faydalıdır, ancak takip kaybı nedeniyle doğrudan eksikliğe değinmemektedir (belki de cevap aynıdır; bilmiyorum).