P> 0.5 kesmesi neden lojistik regresyon için “optimal” değildir?


13

ÖNSÖZ: Bir kesme kullanmanın ya da kullanmamanın yararları ya da nasıl bir kesme seçmesi gerektiği umurumda değil. Benim sorum tamamen matematiksel ve meraktan kaynaklanıyor.

Lojistik regresyon, A sınıfı ile B sınıfı arasındaki arka koşullu olasılığı modellemektedir ve posterior koşullu olasılıkların eşit olduğu bir hiper düzleme uymaktadır. Teorik olarak, 0.5 sınıflandırma noktasının ayarlanmış dengeden bağımsız olarak toplam hataları en aza indireceğini anladım, çünkü posterior olasılığı modelliyor (aynı sınıf oranıyla sürekli olarak karşılaştığınızı varsayarak).

Gerçek hayat örneğimde, sınıflandırma kesimim olarak P> 0.5 kullanarak çok düşük doğruluk elde ediyorum (yaklaşık% 51 doğruluk). Ancak, AUC'ye baktığımda 0.99'un üstünde. Bu yüzden bazı farklı kesme değerlerine baktım ve P> 0.6'nın bana% 98 doğruluk (daha küçük sınıf için% 90 ve daha büyük sınıf için% 99) verdiğini gördüm - vakaların sadece% 2'si yanlış sınıflandırıldı.

Sınıflar büyük ölçüde dengesizdir (1: 9) ve bu yüksek boyutlu bir sorundur. Bununla birlikte, sınıfların her bir çapraz doğrulama kümesine eşit olarak tahsis ettim, böylece model uyumu ve sonra tahmin arasındaki sınıfların dengesi arasında bir fark olmamalıdır. Ayrıca model uyum ve tahminlerde aynı verileri kullanmayı denedim ve aynı sorun oluştu.

0.5'in hataları en aza indirmemesinin nedeniyle ilgileniyorum, çapraz entropi kaybını en aza indirerek modelin uygun olması durumunda bunun tasarımla olacağını düşündüm.

Bunun neden olduğuna dair herhangi bir geri bildirim alan var mı? Ceza ekleme nedeniyle mi, birisi varsa ne olduğunu açıklayabilir mi?



Scortchi, ilgili olduğunu düşündüğünüz kesintilerle ilgili hangi soruya biraz daha açık olabilir misiniz? Göndermeden önce ne şimdi ne de ilgili soruyu veya cevabı görmedim.
felix000

Maalesef, hepsinin q'nuzu yanıtladığını kastetmedim, ancak hepsinin herhangi bir kesimde bir performans metriği olarak kesilmemeyi veya en azından bir yardımcı programdan hesaplanmayan keyfi bir kesimi kullanmama önerisinde bulunduğunu düşündüm. işlevi.
Scortchi - Eski durumuna getir Monica

Yanıtlar:


16

Lojistik regresyon modelinden tahmini kategoriler almak zorunda değilsiniz. Tahmin edilen olasılıklarla iyi kalmak olabilir. Eğer tahmin kategorileri nasıl yaparsanız, gerektiği değil 'Bu gözlem en iyi bu kategoride sınıflandırılır' söz hakkından başka bir şey yapmak için bu bilgileri kullanabilirsiniz. Örneğin, bir model seçmek için 'doğruluk' / yüzde doğru kullanmamalısınız.

.50N-=1009949.50199%

.5050%.50


Merhaba, açıklamanız için teşekkür ederim, ancak yalnızca engelleme modeliyle örnek almıyorum. Sadece yakalama modeliyle, herhangi bir örnek için 0,99'a sahip olacaksınız ve bu nedenle herhangi bir eşik değeri alarak% 99 doğruluk elde edeceksiniz.
abcdaire

0

Bence, bunun birçok nedeni olabilir:

  1. Verilerinizde doğrusallık olmayabilir, bu nedenle ağırlıkların doğrusal olarak eklenmesi her zaman doğru olasılıklarla sonuçlanmayabilir
  2. Değişkenler, iyi öngörücülerin ve zayıf öngörücülerin bir karışımıdır, bu nedenle yaklaşık 5 olan puanlı nüfus zayıf öngörücülerden veya güçlü öngörücülerin daha az etkisinden kaynaklanmaktadır. Yukarı çıktıkça, öngörücülerin etkisi güçlü olan insanlar elde edersiniz

Bu nedenle, hassasiyet, doğruluk vb.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.