En son Ulusal Hastane Taburculuk Anketi verilerini analiz ederken tam olarak aynı soruyu merak ediyordum . Bazı değişkenler medeni durum ve prosedür türü gibi önemli eksik değerlere sahiptir. Bu konu dikkatimi çekti çünkü bu kategoriler, yürütmekte olduğum çoğu lojistik regresyon analizinde güçlü (ve önemli) etkiler gösterdi.
Biri neden merak etmeye eğilimlidireksik bir kod verilir. Medeni durum söz konusu olduğunda, bu bilgilerin sağlanamamasının sosyoekonomik durum veya hastalık türü gibi önemli faktörlerle ilişkilendirilebileceği akla yatkındır. Yüksek tansiyon durumunda, değerin neden bilinmeyeceğini veya reddedilmeyeceğini sormalıyız? Bu, kurumdaki uygulamalarla (belki de gevşek prosedürleri yansıtan) veya hatta bireylerle (dini inançlar gibi) ilişkili olabilir. Bu özellikler sırayla diyabet ile ilişkili olabilir. Bu nedenle, bu değerleri eksik olarak kodlamak (böylece analizden tamamen hariç tutmak) veya değerleri (sağladıkları bilgileri etkili bir şekilde maskeleyen ve sonuçları önyargılı tutabilecek) olarak kodlamak yerine, sahip olduğunuz gibi devam etmek ihtiyatlı görünmektedir. Bunu yapmak artık daha zor değil: sadece bu değişkenin kategorik olarak ele alındığından emin olmanız gerekir ve regresyon çıktısında bir kat daha elde edersiniz. Ayrıca, BRFSS veri kümelerinin güç konusunda endişelenmenize gerek kalmayacak kadar büyük olduğundan şüpheleniyorum.