Regülasyonda birden fazla model oluşturmaya karşı ithamın avantajı nedir?

Birisinin, eksik veri için neden gösterilmesinin, eksik veri içeren vakalar için farklı modeller oluşturmaktan daha iyi olup olmadığına dair bir fikir verebilir mi acaba? Özellikle [genelleştirilmiş] doğrusal modeller söz konusu olduğunda (belki doğrusal olmayan durumlarda bazı şeylerin farklı olduğunu görebilirim)

Temel doğrusal modele sahip olduğumuzu varsayalım:

$Y = \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_3 + \epsilon$

Ancak veri eksik olan bazı kayıtlar var . Modelin kullanılacağı tahmin veri kümesinde eksik vakaları da olacaktır . İlerlemenin iki yolu var gibi görünüyor: $X_3$ $X_3$

Birden çok model

Verileri ve olmayan ve her biri için ayrı bir model oluşturabiliriz. Biz kabul edersek yakından ilişkilidir sonra eksik veri modeli kilolu olabilir iyi iki belirleyicisi tahminini elde etmek. Ayrıca eksik veri durumları (eksik veri mekanizması nedeniyle) biraz farklıysa, bu farkı içerebilir. Aşağı tarafta, iki model her bir verinin sadece bir kısmına uyuyor ve birbirlerine "yardım etmiyor", bu nedenle sınırlı veri kümelerinde uyum zayıf olabilir. $X_3$ $X_3$ $X_3$ $X_2$ $X_2$

Atama

Regresyon Çoklu ikame ilk doldurmak göre bir model oluşturarak ve ve sonra rasgele emsal veri gürültü korumak için örnekleme. Bu yine iki model olduğundan, bu sadece yukarıdaki çoklu model yöntemiyle aynı olmayacak mı? Daha iyi performans gösterebilirse - kazanç nereden geliyor? Sadece için uygun setin tamamında mı yapılıyor? $X_3$ $X_1$ $X_2$ $X_1$

DÜZENLE:

Steffan'ın cevabı bugüne kadar, tam vaka modelinin, etkilenen verilere sığdırılmasının, tam verilere uymaktan daha iyi performans gösterdiğini ve bunun tersinin doğru olduğu açık gibi görünse de, eksik veri tahmini konusunda hala bazı yanlış anlaşılmalar var.

Yukarıdaki modele sahip olsaydım, mükemmel bir şekilde takılmış olsa bile, tahmin ederken sadece sıfır koyarsam genel olarak korkunç bir tahmin modeli olacaktır. Bu, örneğin, hayal sonra (tamamen yararsız ) olduğunda mevcut olduğu, ancak yine de yokluğunda yararlı olacaktır . $X_2 = X_3+\eta$ $X_2$ $\beta_2 = 0$ $X_3$ $X_3$

Anlamadığım temel soru şudur: biri ve diğeri kullanarak iki model oluşturmak daha iyi mi yoksa tek (tam) bir model oluşturmak ve kullanmak daha mı iyi? tahmin veri kümeleri üzerindeki tahmin - ya da bunlar aynı şey mi? $(X_1, X_2)$ $(X_1, X_2, X_3)$

Steffan'ın cevabını getirerek, tüm vaka modelini örtülü bir eğitim setinde oluşturmanın daha iyi olduğu görülüyor ve tersine, eksik veri modelini atılmış tam veri setine kurmak en . Bu ikinci adım, öngörme verilerinde bir gösterim yöntemi kullanmaktan farklı mıdır? $X_3$

regression missing-data data-imputation

— Korone
kaynak

Yanıtlar:

Bence buradaki anahtar eksik veri mekanizmasını anlamak; ya da en azından bir kısmını dışarı atmak. Ayrı modeller oluşturmak, eksik ve eksik grupları rastgele örnekler olarak ele almaya benzer. X3'teki eksiklik X1 veya X2 veya gözlemlenmeyen başka bir değişkenle ilgiliyse, tahminleriniz muhtemelen her modelde taraflı olacaktır. Neden geliştirme veri kümesinde birden çok itme kullanmıyorsunuz ve çarpılmış bir tahmin kümesinde birleştirilmiş katsayıları kullanmıyorsunuz? Tahminler arasında ortalama ve iyi olmalısın.

— ReliableResearch
kaynak

Ancak eksiklik X1 veya X2 ile ilgiliyse, o zaman iki ayrı modele sahip olmak iyidir - çünkü bu bilgileri içereceklerdir. Yani, gelecekte eksik bir X3 aldığımda doğru yönde önyargılı olduğumu bileceğim.

— Ocak 13'te Korone

Regresyon katsayılarının tarafsız tahminlerini elde etmekle ilgilendiğinizi varsayıyorum. Tüm vakaların analizi, X3'ün eksik olma olasılığının Y'ye bağlı olmaması koşuluyla , regresyon katsayılarınız hakkında tarafsız tahminler verir. Bu, eksiklik olasılığı X1 veya X2'ye ve herhangi bir regresyon analizi türüne bağlı olsa bile geçerlidir.

Tabii ki, tam vakaların oranı küçükse tahminler verimsiz olabilir. Bu durumda, hassasiyeti artırmak için X2, X1 ve Y verilen X3'ün birden çok impütasyonunu kullanabilirsiniz . Ayrıntılar için White and Carlin (2010) Stat Med'e bakınız.

— Stef van Buuren
kaynak

Ah, çarpma tamamen katsayıları doğru yapmakla mı ilgili? Katsayıların kendileri ilgimi çekmiyor - sadece yeni veriler üzerindeki tahmin gücümü en üst düzeye çıkarmak istiyorum (ki bu da eksiklik de olabilir)

— Korone

Bu iyi. Maksimum tahmin gücü elde etmek için model katsayılarının kesin ve tarafsız tahminlerini de istersiniz.

— Stef van Buuren

Yalnızca tam durumları kullanırsam, veri eksikken tahmin için bu modeli kullanamam, çünkü katsayılar genellikle yanlış olacaktır (örneğin X2 ve X3 arasında korelasyon varsa). Bu nedenle, tahmin yaparken X3'ü ya da sadece X1 ve X2'de ikinci bir model oluşturmalıyım. Soru, bunun farklı tahminlerle sonuçlanıp sonuçlanmadığıdır ve hangisi daha iyidir?

— Korone

Ah, sanırım yaptığınız bir noktayı anlıyorum: modifikasyonu kullanarak tam vaka tahmini için modele uyursam, o zaman tam vaka tahminini iyileştirir, vs sadece rekabet vakalarına uydurur. Geriye kalan soru, eksik vakalar için en iyi olan şeydir?

— 13'te Korone

Beta_1 = beta_2 = 0 ve beta_3 = 1 olduğunu varsayalım. Sadece X1 ve X2 kullanmak bir sabiti öngörürken, X3 kullanan tahmin Y'nin bazı varyanslarını açıklayacaktır ve bu nedenle artık hatanın düşmesine neden olacaktır. Böylece, çarpıtılmış versiyon daha iyi tahminler üretir.

— Stef van Buuren

Harvard dışında yapılan bir çalışmada, eksik verilerin beş tahminiyle birden fazla gösterim önerilmektedir (işte referans, http://m.circoutcomes.ahajournals.org/content/3/1/98.full ). O zaman bile, impütasyon modellerinin hala altta yatan gerçek değerleri içermeyen model parametreleri için kapak aralıkları üretmeyebileceğini hatırlıyorum!

Bunu göz önünde bulundurarak, değerlerin iyi bir şekilde yayılmasını sağlayan eksik değer (mevcut tartışmada rastgele eksik olmadığı varsayılarak) için beş basit naif model kullanmak en iyisidir, böylece kapak aralıkları en azından gerçek parametreleri içerebilir .

Örnekleme teorisindeki deneyimim, yanıt vermeyen popülasyonun alt örneklemesinde sıklıkla çok fazla kaynak harcanmasıdır, ki bu bazen yanıt popülasyonundan çok farklı görünmektedir. Bu nedenle, belirli uygulama alanında en az bir kez eksik değer regresyonunda benzer bir alıştırma öneririm. Kayıp verilerin bu şekilde keşfedilmesinde ortaya çıkarılan ilişkiler, gelecek için daha iyi eksik veri tahmin modellerinin oluşturulmasında tarihsel değere sahip olabilir.

— AJKOER
kaynak