ROC eğrileri oluşturmak için (= Alıcı Çalışma Karakteristiği eğrileri):
Lojistik regresyon gibi olasılıksal, ikili bir sınıflandırıcı olduğunu varsayalım. ROC eğrisini sunmadan önce, karışıklık matrisi kavramı anlaşılmalıdır. İkili bir tahmin yaptığımızda, 4 tür hata olabilir:
- Sınıfın aslında 0 olması gerektiğinden 0 tahmin ediyoruz: buna True Negative denir , yani sınıfın negatif olduğunu doğru olarak tahmin ederiz (0). Örneğin, bir virüsten koruma yazılımı zararsız bir dosyayı virüs olarak algılayamadı.
- Sınıfın gerçekte 1 olması gerektiğinden 0 tahmin ediyoruz: buna Yanlış Negatif denir , yani yanlış olarak sınıfın negatif olduğunu tahmin ederiz (0). Örneğin, bir virüsten koruma yazılımı bir virüs tespit edemedi.
- Sınıfın aslında 0 olması gerektiğinden 1 değerini tahmin ediyoruz: buna Yanlış Pozitif denir , yani yanlış sınıfın pozitif olduğunu tahmin ederiz (1). Örneğin, bir virüsten koruma yazılımı zararsız bir dosyanın virüs olduğunu düşündü.
- Sınıfın gerçekte 1 olması gerektiği halde 1'i tahmin ediyoruz: buna Gerçek Pozitif denir , yani sınıfın pozitif olduğunu doğru tahmin ediyoruz (1). Örneğin, bir virüsten koruma yazılımı haklı olarak bir virüs algıladı.
Karışıklık matrisini elde etmek için, model tarafından yapılan tüm tahminleri gözden geçiriyoruz ve bu 4 hata türünün her birinin kaç kez gerçekleştiğini sayıyoruz:
Bu bir karmaşa matrisi örneğinde, sınıflandırılmış 50 veri noktası arasında, 45 doğru sınıflandırılmış ve 5 yanlış sınıflandırılmıştır.
İki farklı modeli karşılaştırdığımızda, birkaç taneden ziyade tek bir metriğe sahip olmak çoğu zaman daha uygun olduğundan, daha sonra bir tanede birleştireceğimiz karışıklık matrisinden iki ölçüm hesaplıyoruz:
- Gerçek pozitif oran ( TPR ), aka. olarak tanımlanan hassasiyet, isabet oranı ve geri çağırma . Sezgisel olarak bu metrik, tüm pozitif veri noktalarına göre pozitif olarak kabul edilen pozitif veri noktalarının oranına karşılık gelir. Başka bir deyişle, daha yüksek TPR, daha az pozitif veri noktası kaçıracağız.TPTP+ FN-
- Yanlış pozitif oran ( FPR ), aka. olarak tanımlanan düşüş . Sezgisel olarak bu metrik, tüm negatif veri noktalarına göre yanlışlıkla pozitif olarak kabul edilen negatif veri noktalarının oranına karşılık gelir. Başka bir deyişle, FPR ne kadar yüksekse, veri puanları o kadar fazla negatif olacaktır.FPFP+ TN-
FPR ve TPR'yi tek bir metrikte birleştirmek için, önce iki eski metriği birçok farklı eşikle (örneğin ) lojistik regresyon için hesapladık, sonra bunları tek bir grafiğe çizdik, abscissa üzerindeki FPR değerleri ve koordinattaki TPR değerleri ile. Ortaya çıkan eğri ROC eğrisi olarak adlandırılır:0,00 ; 0.01 , 0.02 , … , 1.00
Bu şekilde, mavi alan, Alıcının Çalışma Karakteristiği (AUROC) eğrisinin altındaki Alana karşılık gelir. Çaprazdaki kesikli çizgi, rastgele bir tahmincinin ROC eğrisini sunarız: AUROC değeri 0,5. Rastgele prediktör, modelin faydalı olup olmadığını görmek için genel olarak bir taban çizgisi olarak kullanılır.
Bazı ilk elden tecrübe edinmek istiyorsanız: