Olay oranının çok düşük olduğu bir veri ( üzerinden 40.000 ). Bunun üzerine lojistik regresyon uyguluyorum. Lojistik regresyonun bu kadar düşük olay oranı verileri üzerinde iyi karışıklık matrisi vermeyeceği biriyle tartıştım. Ancak iş sorunu ve tanımlanma şekli nedeniyle, olay sayısını 40.000'den daha büyük bir sayıya çıkaramıyorum, ancak bazı olmayan nüfusları silebileceğimi kabul ediyorum.
Lütfen bana bu konudaki görüşlerinizi söyleyin, özellikle:
- Lojistik regresyonun doğruluğu olay oranına bağlı mı yoksa önerilen herhangi bir minimum olay oranı var mı?
- Düşük olay hızı verileri için özel bir teknik var mı?
- Rastgele olmayan popülasyonumu silmek modelimin doğruluğu için iyi olur mu?
İstatistiksel modelleme konusunda yeniyim, bu yüzden cehaletimi affedin ve lütfen aklınıza gelebilecek ilgili sorunları ele alın.
Teşekkürler,