Düşük olay oranlı lojistik regresyon uygulamak

15

Olay oranının çok düşük olduğu bir veri ( üzerinden 40.000 ). Bunun üzerine lojistik regresyon uyguluyorum. Lojistik regresyonun bu kadar düşük olay oranı verileri üzerinde iyi karışıklık matrisi vermeyeceği biriyle tartıştım. Ancak iş sorunu ve tanımlanma şekli nedeniyle, olay sayısını 40.000'den daha büyük bir sayıya çıkaramıyorum, ancak bazı olmayan nüfusları silebileceğimi kabul ediyorum. $12\cdot10^5$

Lütfen bana bu konudaki görüşlerinizi söyleyin, özellikle:

Lojistik regresyonun doğruluğu olay oranına bağlı mı yoksa önerilen herhangi bir minimum olay oranı var mı?
Düşük olay hızı verileri için özel bir teknik var mı?
Rastgele olmayan popülasyonumu silmek modelimin doğruluğu için iyi olur mu?

İstatistiksel modelleme konusunda yeniyim, bu yüzden cehaletimi affedin ve lütfen aklınıza gelebilecek ilgili sorunları ele alın.

Teşekkürler,

logistic

— ayuş biyani
kaynak

3

40000 / 12e5 =% 3.3, bu benim için çok düşük bir oran gibi görünmüyor.

— GaBorgulya

1

İnsanların düşük ve yüksek etkinlik oranına karar vermek için daha fazla içeriğe ihtiyaç duymaları durumunda, bu veriler sigortacılık sektöründen alınmıştır.

— ayush biyani

3

Nadir Olay Verilerinde Lojistik Regresyon ile ilgilenebilirsiniz .

— Bernd Weiss

11

Sorularınızı sırayla cevaplayacağım:

3 Rastgele olmayan popülasyonumu silmek modelimin doğruluğu için iyi olur mu?

Her gözlem parametre hakkında bazı ek bilgiler sağlayacaktır (olabilirlik fonksiyonu aracılığıyla). Bu nedenle, veri silmenin bir anlamı yoktur, çünkü sadece bilgi kaybedersiniz.

1 Lojistik regresyonun doğruluğu olay oranına bağlı mı yoksa önerilen herhangi bir minimum olay oranı var mı?

Teknik olarak, evet: nadir bir gözlem çok daha bilgilendiricidir (yani, olasılık fonksiyonu daha dik olacaktır). Etkinlik oranınız 50:50 ise , aynı miktarda veri için çok daha sıkı güven bantları (veya Bayesian iseniz güvenilir aralıklar) elde edersiniz . Bununla birlikte, etkinlik oranınızı seçemezsiniz (bir vaka kontrolü çalışması yapmadıkça), bu nedenle sahip olduklarınızı yapmak zorunda kalacaksınız.

2 Düşük olay hızı verileri için özel bir teknik var mı?

Ortaya çıkabilecek en büyük sorun mükemmel bir ayrıştırmadır : bazı değişkenler kombinasyonu tüm olayları (veya tüm olayları) verdiğinde olur: bu durumda, maksimum olabilirlik parametresi tahminleri (ve standart hataları) sonsuzluğa yaklaşır (genellikle algoritma önceden duracaktır). İki olası çözüm vardır:

a) yordayıcıları modelden kaldırmak: bu algoritmanızın yakınlaşmasını sağlayacak olsa da, değişkeni en açıklayıcı güçle kaldıracaksınız, bu yüzden sadece modelinizin başlaması için fazla uyuyorsa mantıklıdır (çok fazla karmaşık etkileşime uymak gibi) .

b) tahminleri daha makul değerlere geri çekecek olan önceki dağıtım gibi bir tür ceza kullanmak.

— Simon Byrne
kaynak

+1 Ayrıca, insanların verilerini 50:50 değerine yeniden yükledikleri bağlamları gördüğümü de ekledim. Dengeleme, genel yaygınlık ve bazı katsayıları yorumlama konusunda bazı bilgi kayıplarına karşı modelin sınıflandırma yeteneğinde (iyi bir eşiğin seçildiği varsayılarak) bir gelişme gibi görünmektedir.

— David J. Harris

1

@David: İnsanların yeniden ağırlamayı ve yalnızca yüksek frekanslı sınıfı yeniden örnekledikleri karmaşık sahte önyükleme şemalarını kullandıklarını da duydum. Tüm bu teknikler için nihayetinde verileri atıyorsunuz (veya oluşturuyorsunuz). Bu, modelinizi geliştirirse, muhtemelen yanlış modele uyduğunuzu iddia ediyorum. Buradaki yorumlarıma da bakınız: stats.stackexchange.com/questions/10356/…

— Simon Byrne

1) Anlaşılmadıysa üzgünüm: R'nin glmişlevindeki "ağırlıklar" argümanında olduğu gibi, olayların ve olayların göreceli etkisini değiştirmek hakkında konuşuyordum . En kötüsü, bu, her bir ağırlıklı veri noktasının bir kısmını atmak gibi , sanırım, ama gerçekten aynı şey değil. 2) Dediğim gibi, bu kararla ilişkili ödünleşmeler var. Muhtemelen örneklenen popülasyonun iyi tanımlanmadığı ve gerçek olay oranının başlangıçta anlamlı olmadığı bağlamlarda en mantıklıdır. Kesinlikle tahta genelinde tavsiye etmem.

— David J. Harris

2

Geçici veya uzamsal veriler için olmayanları silmenin daha iyi bir alternatifi vardır: verilerinizi zaman / mekanda toplayabilir ve sayıları Poisson olarak modelleyebilirsiniz. Örneğin, etkinliğiniz "X. günde volkanik patlama meydana gelirse" ise, pek çok günde volkanik bir patlama olmaz. Ancak, günleri haftalar veya aylar halinde gruplandırırsanız, örneğin "X ayındaki volkanik patlama sayısı" olarak gruplandırırsanız, olay sayısını azaltmış olursunuz ve olayların çoğunun sıfır olmayan değerleri olur.

— charles.y.zheng
kaynak

6

Bu tavsiyenin soruya hiç cevap vermediğini söylemeliyim. 1) Bu soruda OP'nin mekansal veya zamansal verilerle uğraştığını gösteren hiçbir şey yoktur. 2) Verilerin toplanması anlamlı ilişkilerin belirlenmesine nasıl yardımcı olur (orijinal birimlerden daha az bilgi kullanır!)

— Andy W

2

Ayrıca bir not olarak, gözlemlenen herhangi bir ilişkinin birleştirilmiş düzeyde gerçekleşmesi için, orijinal birimler düzeyinde mevcut olması gerekir, ancak birleştirilmiş düzeyde bir ilişki mutlaka iki değişken arasındaki ilişkinin ayrıştırılmış durumda olduğunu yansıtmaz. seviyesi. Bkz. Qmrg.org.uk/files/2008/11/38-maup-openshaw.pdf

— Andy W

andy ile hemfikir.

— ayush biyani