Bir sınıflandırıcı için optimum eşik belirlenir ve ROC eğrisi oluşturulur?


Yanıtlar:


14

Bir açıklamalı örnek kümesini sınıflandırmak için SVM sınıflandırıcısını kullanın ve örneklerin bir tahminini temel alan ROC alanında "bir nokta" tanımlanabilir. Örneklerin sayısının 200 olduğunu varsayalım, ilk önce dört vakanın örnek sayısını sayın.

labeledtruelabeledfalsepredictedtrue7128predictedfalse5744


Sonra TPR (Gerçek Pozitif Oran) ve FPR (Yanlış Pozitif Oran) hesaplayın. ve ROC alanında, x ekseni FPR ve y ekseni TPR'dir. Böylece nokta elde edilir. Bir ROC eğrisi çizmek için, sadece (1) Doğru veya yanlış olarak etiketlenmiş örnek sayısını kontrol eden bazı eşik değerlerini ayarlayınTPR=71/(71+57)=0.5547FPR=28/(28+44)=0.3889(0.3889,0.5547)



Örneğin,% α'nın üzerindeki belirli bir proteinin konsantrasyonu bir hastalığı belirtirse, farklı α değerleri farklı nihai TPR ve FPR değerleri verir. Eşik değerleri basitçe ızgara aramaya benzer şekilde belirlenebilir; Eğitim örneklerini farklı eşik değerlerine sahip etiketleyin, farklı etiketli örnek setlerine sahip tren sınıflandırıcılarını test edin, test verisinde sınıflandırıcıyı çalıştırın, FPR değerlerini hesaplayın ve düşük (0'a yakın) ve yüksek (1'e yakın) FPR'yi kapsayan eşik değerlerini seçin değerler, yani 0, 0,05, 0,1, ..., 0,95, 1

(2) 'e yakın, birçok açıklamalı örnek kümesi oluşturun
(3) Sınıflandırıcıyı örnek setleri üzerinde çalıştırın
(4) Bir (FPR, TPR) noktası hesaplayın her biri için
(5) Nihai ROC eğrisini çizin

Bazı detaylar http://en.wikipedia.org/wiki/Receiver_operating_characteristic adresinde kontrol edilebilir .

Ayrıca, bu iki bağlantı optimal eşiğin nasıl belirleneceği konusunda faydalıdır. Basit bir yöntem, gerçek toplam pozitif ve yanlış negatif oranları ile toplamı almaktır. Diğer hassas kriterler, finansal maliyetler, vb. Gibi farklı eşikleri içeren diğer değişkenleri içerebilir.
Http://www.medicalbiostatistics.com/roccurve.pdf
http://www.kovcomp.co.uk/support/XL-Tut/life-ROC -curves-alıcı-işletim characteristic.html


5
Açıklaman için teşekkürler, optimal eşik ne olacak?
RockTheStar

1
Üzgünüm, optimal eşiğin daha önce özel bir terim olduğunu öğrendim. Aradıktan sonra, Google Kitap’taki "3.5 ile SAS’ın Alıcı Karakteristik Eğrilerini Analiz Etme" kitabının "3.5. Üzerinde açıklandığı gibi yaygın olarak kullanılan iki yol, ortaya çıkan ikili tahminin (1) mümkün olduğu kadar kusursuz bir tahminde bulunabilmesini sağlayacak eşiği seçmektir. (2) olabildiğince bilgilendirici olmayan bir tahminciden çok uzakta
Tom

Cool, referansı nerede bulabilirim? Teşekkürler!
RockTheStar

2
Evet, "bilgilendirici olmayan bir tahminden çok uzak" ne anlama geliyor? Lütfen referansı ekleyin.
Simone

1
Ayrıca, en uygun eşiği belirlemek için birçok kriter olduğunu da okudum. Örneğin, basit bir kriter, tüm eşikler arasında, gerçek-pozitif ve yanlış-negatif değerlerin azami toplamına sahip olanı seçmektir. Daha sofistike kriterler de var.
Tom

3

Bir eşik seçmenin gerçekten kolay bir yolu, bir test seti için pozitif vakaların medyanca öngörülen değerlerini almaktır. Bu senin eşiğin olur.

Eşik, gerçek pozitif oranın (tpr) ve 1 - false pozitif oranın (fpr) çakıştığı roc eğrisini kullanarak alacağınız aynı eşiğe nispeten yakın gelir. Bu tpr (çapraz) 1-fpr çapraz, yanlış negatifleri en aza indirirken gerçek pozitifliği en üst düzeye çıkarır.


Anlıyorum. Medyan tahmini değer. Önerin için teşekkürler.
RockTheStar

2
Bu yöntem için bir kaynak var mı?
JEquihua

1
Bu, ROR eğrisinde TPR = 0,5 olan noktanın seçilmesine eşdeğerdir, ki bu gerçekten keyfidir.
Bananin

Ortanca öngörülen değer? Ve eğer 1000: 1 sınıf dengesizliği varsa ne olur?
03:26

3

ROC alanınızın sol üst köşesine en yakın olan noktayı seçin. Şimdi bu noktayı oluşturmak için kullanılan eşik değer optimum olmalıdır.


2
Bu otomatik olarak nasıl yapılır?
27'de

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.