ÖNSÖZ: Bir kesme kullanmanın ya da kullanmamanın yararları ya da nasıl bir kesme seçmesi gerektiği umurumda değil. Benim sorum tamamen matematiksel ve meraktan kaynaklanıyor.
Lojistik regresyon, A sınıfı ile B sınıfı arasındaki arka koşullu olasılığı modellemektedir ve posterior koşullu olasılıkların eşit olduğu bir hiper düzleme uymaktadır. Teorik olarak, 0.5 sınıflandırma noktasının ayarlanmış dengeden bağımsız olarak toplam hataları en aza indireceğini anladım, çünkü posterior olasılığı modelliyor (aynı sınıf oranıyla sürekli olarak karşılaştığınızı varsayarak).
Gerçek hayat örneğimde, sınıflandırma kesimim olarak P> 0.5 kullanarak çok düşük doğruluk elde ediyorum (yaklaşık% 51 doğruluk). Ancak, AUC'ye baktığımda 0.99'un üstünde. Bu yüzden bazı farklı kesme değerlerine baktım ve P> 0.6'nın bana% 98 doğruluk (daha küçük sınıf için% 90 ve daha büyük sınıf için% 99) verdiğini gördüm - vakaların sadece% 2'si yanlış sınıflandırıldı.
Sınıflar büyük ölçüde dengesizdir (1: 9) ve bu yüksek boyutlu bir sorundur. Bununla birlikte, sınıfların her bir çapraz doğrulama kümesine eşit olarak tahsis ettim, böylece model uyumu ve sonra tahmin arasındaki sınıfların dengesi arasında bir fark olmamalıdır. Ayrıca model uyum ve tahminlerde aynı verileri kullanmayı denedim ve aynı sorun oluştu.
0.5'in hataları en aza indirmemesinin nedeniyle ilgileniyorum, çapraz entropi kaybını en aza indirerek modelin uygun olması durumunda bunun tasarımla olacağını düşündüm.
Bunun neden olduğuna dair herhangi bir geri bildirim alan var mı? Ceza ekleme nedeniyle mi, birisi varsa ne olduğunu açıklayabilir mi?