Bir panel veri etüdünden eksik verilerin ithalatı ile ilgili bir sorunu ele almaya çalışıyorum ('panel veri etüdünü' doğru bir şekilde kullanıp kullanmadığımı bilmiyorum - bugün öğrendiğim gibi.) 2003 yılı için toplam ölüm sayısı verilerim var 2009 yılına kadar tüm aylar, kadın ve erkek, 8 farklı bölge ve 4 yaş grubu için.
Veri çerçevesi şuna benzer:
District Gender Year Month AgeGroup TotalDeaths
Northern Male 2006 11 01-4 0
Northern Male 2006 11 05-14 1
Northern Male 2006 11 15+ 83
Northern Male 2006 12 0 3
Northern Male 2006 12 01-4 0
Northern Male 2006 12 05-14 0
Northern Male 2006 12 15+ 106
Southern Female 2003 1 0 6
Southern Female 2003 1 01-4 0
Southern Female 2003 1 05-14 3
Southern Female 2003 1 15+ 136
Southern Female 2003 2 0 6
Southern Female 2003 2 01-4 0
Southern Female 2003 2 05-14 1
Southern Female 2003 2 15+ 111
Southern Female 2003 3 0 2
Southern Female 2003 3 01-4 0
Southern Female 2003 3 05-14 1
Southern Female 2003 3 15+ 141
Southern Female 2003 4 0 4
2007 ve 2008 yıllarına yayılan 10 ay boyunca, tüm ilçelerden toplam ölümlerin bir kısmı kaydedilmedi. Birden fazla imputation yöntemi ile bu eksik değeri tahmin etmeye çalışıyorum. Genelleştirilmiş Doğrusal Modeller veya SARIMA modelleri kullanılır.
En büyük sorunum yazılım kullanımı ve kodlama. Bu gibi küçük gruplara veri ayıklamak istiyorum Stackoverflow, bir soru sordum:
District Gender Year Month AgeGroup TotalDeaths
Northern Male 2003 1 01-4 0
Northern Male 2003 2 01-4 1
Northern Male 2003 3 01-4 0
Northern Male 2003 4 01-4 3
Northern Male 2003 5 01-4 4
Northern Male 2003 6 01-4 6
Northern Male 2003 7 01-4 5
Northern Male 2003 8 01-4 0
Northern Male 2003 9 01-4 1
Northern Male 2003 10 01-4 2
Northern Male 2003 11 01-4 0
Northern Male 2003 12 01-4 1
Northern Male 2004 1 01-4 1
Northern Male 2004 2 01-4 0
Gidiyor
Northern Male 2006 11 01-4 0
Northern Male 2006 12 01-4 0
Ama birisi sorumu buraya getirmeyi tercih etmemi önerdi - belki de bir yönlendirme isteyin? Şu anda bu verileri R'ye uygun bir zaman serisi / panel çalışması amelia2
olarak giremiyorum. Nihai amacım , bu verileri ve paketi işlevleriyle birlikte TotalDeaths
, verilerin olduğu 2007 ve 2008'de belirli aylar boyunca eksiklik anlamına gelmesi. eksik.
Herhangi bir yardım, bunun nasıl yapılacağı ve belki de bu sorunun nasıl çözüleceğine dair öneriler minnetle takdir edilecektir.
Bu yardımcı olur, ben Clint Roberts doktora yaptıklarını benzer bir yaklaşım takip etmeye çalışıyorum Tez .
DÜZENLE:
@Matt tarafından önerilen şekilde 'zaman' ve 'grup' değişkenini oluşturduktan sonra:
> head(dat)
District Gender Year Month AgeGroup Unnatural Natural Total time group
1 Khayelitsha Female 2001 1 0 0 6 6 1 Khayelitsha.Female.0
2 Khayelitsha Female 2001 1 01-4 1 3 4 1 Khayelitsha.Female.01-4
3 Khayelitsha Female 2001 1 05-14 0 0 0 1 Khayelitsha.Female.05-14
4 Khayelitsha Female 2001 1 15up 8 73 81 1 Khayelitsha.Female.15up
5 Khayelitsha Female 2001 2 0 2 9 11 2 Khayelitsha.Female.0
6 Khayelitsha Female 2001 2 01-4 0 2 2 2 Khayelitsha.Female.01-4
Fark ettiğiniz gibi, aslında 'Doğal' ve 'Doğal olmayan' daha fazla ayrıntı var.
Amelia
ama bundan vazgeçtim (bundan önce). Daha önce skeç gördüm (ama bir şekilde kaybettim!) Sadece hızlı bir göz attı ve içinden geçecek. Şimdi sahip olduğum bir sorun,group
vetime
değişkenlerinin nasıl oluşturulacağından emin olmam . (Onları zaman serisi analizi / tahmini için oluşturmaya çalıştım, ama etrafında bir döngü var.) Eminim ki bu vigette - bu yüzden mücadele edersem size geri döneceğim. Tekrar teşekkürler :)