Test veri setine uyguladığım eğitimli bir lojistik regresyon modelim var. Bağımlı değişken ikilidir (boolean). Test veri setindeki her numune için, bağımlı değişkenlerin gerçek olacağı ihtimalini% oluşturmak için lojistik regresyon modelini uyguluyorum. Sonra acutal değerinin doğru veya yanlış olduğunu kaydederim. Doğrusal bir regresyon modelinde olduğu gibi bir veya Düzeltilmiş figürü hesaplamaya çalışıyorum .R 2
Bu bana test setindeki her numune için bir kayıt veriyor:
prob_value_is_true acutal_value
.34 0
.45 1
.11 0
.84 0
.... ....
Modelin doğruluğunu nasıl test edeceğimi merak ediyorum. İlk denemem bir beklenmedik durum tablosu kullanmak ve " prob_value_is_true
>> 0,80 ise, gerçek değerin doğru olduğunu tahmin et " diyip doğru sınıflandırma oranının doğru olduğunu ölçmekti. Fakat bundan hoşlanmıyorum, çünkü modelin bir bütün olarak ve her prob_value_is_true
değerdeki doğruluğunu değil, sadece 0.80'i bir sınır olarak değerlendiriyorum .
Sonra, her prob_value_is_true ayrık değerine sadece bir örnek olarak bakmaya çalıştım, örnek olarak tüm örneklere baktım ve prob_value_is_true
= 0.34 ve akutal değerin doğru olduğu bu örneklerin yüzdesini ölçtüm (bu durumda, mükemmel doğruluk örneklerin yüzdesiyse olacaktır) bu doğruydu =% 34). Her bir ayrık değerdeki farkı toplayarak bir model doğruluk puanı oluşturabilirim prob_value_is_true
. Ancak, örnek boyutları burada, özellikle aşırı uçlar için (% 0 veya% 100'e yakın), akutal değerlerin ortalamalarının doğru olmadığı ve bu nedenle model doğruluğunu ölçmek için bunları kullanmanın doğru olmadığı için büyük bir endişe kaynağıdır.
Yeterli örneklem büyüklükleri (0-.25, .25-.50, .50-.75, .75-1.0) sağlamak için büyük aralıklar oluşturmayı bile denedim, ancak gerçek değerin% 'sinin “iyiliğini” nasıl ölçeceğim . prob_value_is_true
0.25 ile 0.50 arasındaki tüm örneklerin ortalama acutal_value
0.45 olduğunu söyleyin . Menzilde olduğundan bu iyi mi? % 37.5'e yakın olmadığı için kötüdür (aralığın merkezi)?
Bu yüzden, kolay bir soru olması gereken gibi göründüğüme şaşırdım ve birisinin bir lojistik regresyon modeli için bir statiklik doğruluğu hesaplamak için beni bir kaynak veya yönteme yönlendirmesini umuyorum.