Kategorik değişkenlerin 'Bilmiyorum / Reddedildi' seviyelerini tedavi etmek


9

Lojistik Regresyon kullanarak Diyabet Tahminini modelleniyorum. Kullanılan veri kümesi Hastalık Kontrol Merkezi'nin (CDC) Davranışsal Risk Faktörü Gözetim Sistemi'dir (BRFSS ). Bağımsız değişkenlerden biri de Yüksek Tansiyon. Aşağıdaki seviyelerde kategoriktir: 'Evet', 'Hayır', 'Bilmiyorum / Reddedildi'. Modeli oluştururken 'Bilmiyorum / Reddedildi' satırlarını kaldırmalı mıyım? Bu satırları modelden korumak veya kaldırmak için ne fark eder?

Yanıtlar:


6

En son Ulusal Hastane Taburculuk Anketi verilerini analiz ederken tam olarak aynı soruyu merak ediyordum . Bazı değişkenler medeni durum ve prosedür türü gibi önemli eksik değerlere sahiptir. Bu konu dikkatimi çekti çünkü bu kategoriler, yürütmekte olduğum çoğu lojistik regresyon analizinde güçlü (ve önemli) etkiler gösterdi.

Biri neden merak etmeye eğilimlidireksik bir kod verilir. Medeni durum söz konusu olduğunda, bu bilgilerin sağlanamamasının sosyoekonomik durum veya hastalık türü gibi önemli faktörlerle ilişkilendirilebileceği akla yatkındır. Yüksek tansiyon durumunda, değerin neden bilinmeyeceğini veya reddedilmeyeceğini sormalıyız? Bu, kurumdaki uygulamalarla (belki de gevşek prosedürleri yansıtan) veya hatta bireylerle (dini inançlar gibi) ilişkili olabilir. Bu özellikler sırayla diyabet ile ilişkili olabilir. Bu nedenle, bu değerleri eksik olarak kodlamak (böylece analizden tamamen hariç tutmak) veya değerleri (sağladıkları bilgileri etkili bir şekilde maskeleyen ve sonuçları önyargılı tutabilecek) olarak kodlamak yerine, sahip olduğunuz gibi devam etmek ihtiyatlı görünmektedir. Bunu yapmak artık daha zor değil: sadece bu değişkenin kategorik olarak ele alındığından emin olmanız gerekir ve regresyon çıktısında bir kat daha elde edersiniz. Ayrıca, BRFSS veri kümelerinin güç konusunda endişelenmenize gerek kalmayacak kadar büyük olduğundan şüpheleniyorum.


2
Ayrıca DK'nin gerçek anlamı olabilir, yani bu bireyler sağlık bilincine sahip değildir ve risk altında olabilirler.
Brandon Bertelsen

2

Öncelikle, eksik verilerin rastgele (MCAR) eksik mi, rastgele (MAR) eksik mi yoksa rastgele (MNAR) eksik mi yoksa silme (başka bir deyişle tam vaka analizi) önyargılı sonuçlara yol açabileceğini düşünmelisiniz. Alternatifler ters olasılık ağırlığı, çoklu impütasyon, tam olasılıklı yöntem ve iki kat güçlü yöntemlerdir. Zincirleme denklemler (MICE) ile genellikle birden çok çarpma yöntemi en kolay yol.


Teşekkür ederim. Bu bir Anket Verisidir ve MAR ya da MNAR olup olmadığından emin değilim. Örneğin, 1) "bir kişinin Diyabet olup olmadığı" diyen bir değişken vardır. ve başka bir değişken (2) İnsülin alıp almadığını? Değişken (2) 'nin yalnızca değişken (1)' Evet 'olduğunda (yani bir kişi diyabetik olduğunda) girdi olduğunu görüyorum. Aksi takdirde (2) boştur. Ek olarak (2), Diyabetik vakanın yanıtları olarak 'evet', 'Hayır', 'Bilmiyorum / Reddedildi' ifadesine sahiptir. Peki boş hücreleri ve 'Bilmiyorum / Reddedildi' anket yanıtlarını nasıl tedavi edebilirim?
user3897

Birden fazla dürtü hakkında bilgi edinmek istiyorum ve çevrimiçi bir öğrenme materyali arıyordum. MI için bir öğrenme materyali önerebilir misiniz?
user3897

0

Diyabetli çalışma deneklerinin DK / R yanıtı ile sonuçlanma olasılığının daha yüksek veya daha düşük olduğunu düşünmek için herhangi bir nedeniniz var mı? Değilse (ve bunu öğrendiğiniz için oldukça şaşırırdım), bu durumları hariç tutarak modelde bu öngörücüyü dahil etmek gürültüye neden olacaktır. Yani, "evet" ve "hayır" ifadelerinin tahmini diyabet olasılığını nasıl etkilediğine ilişkin değerlendirmenizde daha az kesinlik elde edersiniz (çünkü "evet" veya "hayır" ın etkisini modellemeye çalışacaksınız. sadece "evet" ve "hayır" yerine rastgele DK / R yanıtları). En basit seçenek DK / R yanıtları olan vakaları dışlamaktır. Onların "evet / hayır" yanıtlarının gerçekten rastgele eksik olduğu varsayılarak, hariç tutulması "evet" ve "Hayır." Ancak bu yaklaşım, örneklem büyüklüğünüzü azaltacak ve böylece geri kalan öngörücülerle ilgili istatistiksel gücü azaltacaktır. Bu değişken üzerinde çok fazla DK / R varsa, "evet" / "hayır" yanıtlarını birden fazla gösterim yoluyla (muhtemelen en savunmasız, en çok savunulabilir kayıp-değer çarpma stratejisi) ima etmek isteyebilirsiniz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.