Sonlu bir popülasyondaki nadir olayları incelemek istiyorum. Hangi stratejinin en uygun olduğu konusunda emin olamadığım için, bu konuyla ilgili ipuçlarını ve referansları takdir ediyorum, ancak bunun büyük ölçüde kapsandığının farkındayım. Sadece nereden başlayacağımı bilemiyorum.
Benim sorunum siyasal bilimlerden biri ve ben 515,843 kayıttan oluşan sınırlı bir nüfusa sahibim. Bunlar 513,334 "0" s ve 2,509 "1" s ile ikili bağımlı bir değişkenle ilişkilidir. Nüfusun sadece% 0,49'unu oluşturduğu için "1" lerimi nadir görülen olaylar olarak atabilirim.
"1" lerin varlığını açıklamak için bir model oluşturmak istediğim yaklaşık 10 bağımsız değişken setim var. Birçoğumuz gibi, King & Zeng'in 2001'deki ender olayların düzeltilmesiyle ilgili makalesini okudum . Yaklaşımları "0" s sayısını azaltmak için bir vaka kontrol tasarımı kullanmak ve ardından müdahaleye düzeltme uygulamaktı.
Ancak, bu yazı King & Zeng'in argümanının, verilerimi zaten popülasyonun tamamına topladığımda gerekli olmadığını söylüyor . Bu nedenle klasik logit modelini kullanmak zorundayım. Maalesef benim için, önemli katsayılar elde etmeme rağmen, modelim tahmin açısından tamamen işe yaramaz (benim "1" lerimin% 99.48'ini tahmin edemem).
King & Zeng'in makalesini okuduktan sonra, bir kasa kontrol tasarımını denemek istedim ve tüm "1" lerde "0" ın sadece% 10'unu seçtim. Neredeyse aynı katsayılarla, model tam popülasyona uygulandığında "1" lerin neredeyse üçte birini tahmin edebildi. Tabii ki, birçok yanlış pozitif var.
Size sormak istediğim üç sorum var:
1) Eğer King ve Zeng'in yaklaşımı, nüfus hakkında tam bir bilgiye sahip olduğunuzda önyargılıysa, neden konusunu ispatlamak için yazılarındaki popülasyonu bildikleri bir durumu kullanıyorlar?
2) Bir logit regresyonunda iyi ve belirgin katsayılara sahipsem, ancak çok zayıf prediktif gücüm varsa, bu değişken tarafından açıklanan varyasyonun anlamsız olduğu anlamına mı geliyor?
3) Nadir olaylarla başa çıkmak için en iyi yaklaşım nedir? King'in relogit modeli, Firth'ın yaklaşımı, tam logit vb. Hakkında okudum. Tüm bu çözümler arasında kaybolduğumu itiraf etmeliyim.