Tek bir değişkende eksik verilerin% 80'i


12

Verilerimde% 80 eksik verinin bulunduğu bir değişken var. Veriler, var olmama durumu nedeniyle eksiktir (örneğin, şirketin ne kadar banka borcuna sahip olduğu). Bu soruna çözüm olarak kukla değişken ayarlama yönteminin olduğunu söyleyen bir makaleye rastladım. Bu sürekli değişkeni kategorik biçime dönüştürmem gerektiği anlamına mı geliyor?

Tek çözüm bu mu? Teorik olarak düşündüğüm için bu değişkeni bırakmak istemiyorum, araştırma sorum için önemlidir.

Yanıtlar:


21

Veriler bilinmeme anlamında "eksik" mi yoksa sadece kredi olmadığı anlamına mı geliyor (kredi tutarı sıfır) mı? İkincisi gibi görünüyor, bu durumda bir kredi olup olmadığını belirtmek için ek bir ikili kuklaya ihtiyacınız var. Kredi tutarında herhangi bir değişikliğe gerek yoktur (belki de kök ya da başlangıç ​​günlüğü gibi diğer hususlar nedeniyle gösterilebilecek sürekli bir yeniden ifade dışında).

Bu bir gerilemede işe yarar. Basit bir örnek, formun kavramsal bir modelidir

bağımlı değişken (Y) = kredi miktarı (X) + sabit.

Kredi göstergesi ( ) eklenmesiyle regresyon modeliben

Y=βbenben+βXX+β0+ε

ile sıfır beklentileri ile rastgele hataları temsil etmektedir. Katsayılar şu şekilde yorumlanır:ε

β0 , durumlar için beklentisidir , çünkü bunlar ve ile karakterizedir .YX=0ben=0

βX marjinal değişiklik ödünç (miktarına göre olan ).YX

βben+β0 davaların kesişmesidir.


2
Kayıp olarak muamele görmeyecek, kredi için değeri tahmin etmeye başlayacaklar. Belki 'NA' ödünç vermediniz, bu durumda bunları 0 olarak yeniden kodlamanız gerekir.
John

2
@ John Teşekkür ederim, tam olarak tavsiye ediyorum. Buradaki nokta, kredi değerlerini ( ) uygun bir şekilde (log (miktar + 1 gibi)) ifade etmek ve kredisiz herhangi bir durum için X = 0 ve I = 1'i ayarlamaktır . Bu, lojistik regresyon dahil olmak üzere regresyonda standart bir tekniktir. XX=0ben=1
whuber

3
@ lcl23 Durumu doğru anladıysam, dürüstlük mantıklı değil: "eksik" verileriniz eksik değil; kredi alınmadığını gösterir.
whuber

1
ben(X=1)ben(X=0)

1
1βben0

1

Sanırım makalenin önerisini yanlış anladınız: çünkü öneri hiçbir anlam ifade etmiyor. Daha sonra iki sorun yaşarsınız: bir değişkeni nasıl yeniden kodlayabilirim ve değerleri hala eksik. Muhtemelen önerilen bir eksiklik göstergesi oluşturmaktı .

Bu açıklama ile gevşek bir şekilde eşleşen eksik verilerin işlenmesiyle ilgili bir yaklaşım, bir eksiklik göstergesine uyum sağlamaktır . Bu kesinlikle basit ve kolay bir yaklaşımdır, ancak genel olarak önyargılıdır. Önyargı kötülüğü ile sınırsız olabilir. Bunun etkili bir şekilde yaptığı iki modele uyum sağlamak ve etkilerini birlikte ortalamak: ilk model tamamen koşullu model , ikincisi tam faktör modelidir. Tam koşullu model, eksik değerlere sahip her bir gözlemin silindiği tam vaka modelidir. Böylece verilerin% 20 alt kümesine sığar. İkincisi, kalan% 80'i eksik değer için ayarlamamaktır. Bu marjinal model, ölçülmemiş etkileşim olmadığında, bağlantı işlevi daraltılabilir olduğunda ve veriler Rastgele (MAR) Eksik olduğunda tam modelle aynı etkileri tahmin eder. Bu etkiler daha sonra ağırlıklı bir ortalama ile birleştirilir. İdeal koşullar altında, ölçülmemiş etkileşim yok ve rastgele (MCAR) verilerde tamamen eksik olsa bile, eksik gösterge yaklaşımı, marjinal model ve koşullu model farklı etkileri tahmin ettiğinden taraflı etkilere yol açar. Bu durumda tahminler bile önyargılıdır.

Çok daha iyi bir alternatif, sadece çoklu impütasyon kullanmaktır. Çoğunlukla eksik olan faktör çok düşük bir prevalansta ölçüldüğünde bile, MI olası değerlerin olabileceği konusunda sofistike gerçekleşmeler üretmek konusunda nispeten iyi bir iş çıkarır. Burada gerekli olan tek varsayım MAR.


"Link işlevi daraltılabilir" ne anlama geliyor?
Matthew Drury

1
@MatthewDrury temel olarak, "çökebilirlik" sonucu tahmin eden ancak ana etki (ler) değil değişkenler için ayarlamanın hassasiyeti artıracağı ancak tahmini etkiyi değiştirmeyeceği anlamına gelir.
AdamO

Harika, teşekkürler Adam. Bu terminolojiyi daha önce duymamıştı.
Matthew Drury
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.