Birisinin, eksik veri için neden gösterilmesinin, eksik veri içeren vakalar için farklı modeller oluşturmaktan daha iyi olup olmadığına dair bir fikir verebilir mi acaba? Özellikle [genelleştirilmiş] doğrusal modeller söz konusu olduğunda (belki doğrusal olmayan durumlarda bazı şeylerin farklı olduğunu görebilirim)
Temel doğrusal modele sahip olduğumuzu varsayalım:
Ancak veri eksik olan bazı kayıtlar var . Modelin kullanılacağı tahmin veri kümesinde eksik vakaları da olacaktır . İlerlemenin iki yolu var gibi görünüyor:X 3
Birden çok model
Verileri ve olmayan ve her biri için ayrı bir model oluşturabiliriz. Biz kabul edersek yakından ilişkilidir sonra eksik veri modeli kilolu olabilir iyi iki belirleyicisi tahminini elde etmek. Ayrıca eksik veri durumları (eksik veri mekanizması nedeniyle) biraz farklıysa, bu farkı içerebilir. Aşağı tarafta, iki model her bir verinin sadece bir kısmına uyuyor ve birbirlerine "yardım etmiyor", bu nedenle sınırlı veri kümelerinde uyum zayıf olabilir.X 3 X 3 X 2 X 2
Atama
Regresyon Çoklu ikame ilk doldurmak göre bir model oluşturarak ve ve sonra rasgele emsal veri gürültü korumak için örnekleme. Bu yine iki model olduğundan, bu sadece yukarıdaki çoklu model yöntemiyle aynı olmayacak mı? Daha iyi performans gösterebilirse - kazanç nereden geliyor? Sadece için uygun setin tamamında mı yapılıyor?X 1 X 2 X 1
DÜZENLE:
Steffan'ın cevabı bugüne kadar, tam vaka modelinin, etkilenen verilere sığdırılmasının, tam verilere uymaktan daha iyi performans gösterdiğini ve bunun tersinin doğru olduğu açık gibi görünse de, eksik veri tahmini konusunda hala bazı yanlış anlaşılmalar var.
Yukarıdaki modele sahip olsaydım, mükemmel bir şekilde takılmış olsa bile, tahmin ederken sadece sıfır koyarsam genel olarak korkunç bir tahmin modeli olacaktır. Bu, örneğin, hayal sonra (tamamen yararsız ) olduğunda mevcut olduğu, ancak yine de yokluğunda yararlı olacaktır .X 2 β 2 = 0 X 3 X 3
Anlamadığım temel soru şudur: biri ve diğeri kullanarak iki model oluşturmak daha iyi mi yoksa tek (tam) bir model oluşturmak ve kullanmak daha mı iyi? tahmin veri kümeleri üzerindeki tahmin - ya da bunlar aynı şey mi?
Steffan'ın cevabını getirerek, tüm vaka modelini örtülü bir eğitim setinde oluşturmanın daha iyi olduğu görülüyor ve tersine, eksik veri modelini atılmış tam veri setine kurmak en . Bu ikinci adım, öngörme verilerinde bir gösterim yöntemi kullanmaktan farklı mıdır?