ROC eğrilerinin avantajları


16

ROC eğrilerinin avantajları nelerdir?

Örneğin, bir ikili sınıflandırma sorunu olan bazı görüntüleri sınıflandırıyorum. Yaklaşık 500 özellik çıkardım ve bir dizi özellik seçmek için bir özellik seçim algoritması uyguladım ve sonra sınıflandırma için SVM uyguladım. Bu durumda bir ROC eğrisini nasıl alabilirim? Özellik seçim algoritmamın eşik değerlerini değiştirmeli ve bir ROC eğrisi çizmek için çıkışın hassasiyet ve özgüllüğünü almalı mıyım?

Benim durumumda bir ROC eğrisi oluşturmanın amacı nedir?


2
Tom Fawcett'in "ROC analizine giriş" , ROC eğrilerini daha iyi anlamama yardımcı oldu. Konuyla ilgili ek literatür arıyorsanız, bundan hoşlanabilirsiniz.
Alexander

Tamam ama iki sınıflandırıcıyı karşılaştırmak için ne yapardınız? Eğer daha spesifik özgüllük veya hassasiyet çok yakından eşleşecek şekilde eşikler kullanırlarsa, ROC üzerindeki daha fazla şiire bakmadan ccompare etmenin kolay olduğunu düşünmüyorum.
Michael R.Chernick

Sınıflandırıcıların geliştirilmesi nadiren uygundur ve sınıflandırma hatası uygun olmayan bir puanlama kuralıdır. Gerçek tahminlerin kalitesini karşılaştırmak için birçok yüksek güçlü yöntem vardır ve bunlar ROC eğrilerinden daha sezgiseldir. Örneğin buna bakınız .
Frank Harrell

Yanıtlar:


14

Birçok ikili sınıflandırma algoritması bir tür sınıflandırma puanı hesaplar (bazen her zaman olmasa da bu hedef durumda olma olasılığıdır) ve puanın belirli bir eşiğin üzerinde olup olmadığına göre sınıflandırırlar. ROC eğrisini görüntülemek, modelleme tekniği tarafından seçilenlerden ziyade olası tüm eşikler için hassasiyet ve özgüllük arasındaki dengeyi görmenizi sağlar. Farklı sınıflandırma hedefleri eğri üzerindeki bir noktayı bir görev için daha uygun, diğeri farklı bir görev için daha uygun hale getirebilir, bu nedenle ROC eğrisine bakmak modeli bir eşik seçiminden bağımsız olarak değerlendirmenin bir yoludur.


Cevabınız için teşekkür ederim. Gerçekten faydalı. ROC eğrisine dayanarak eşiği belirlemek için yine de var mı? Ve benim durumumda, ROC uzayında hassasiyet =% 100 veya özgüllük =% 100 için nasıl bir nokta elde edebilirim. çünkü özellik seçim algoritmasının eşiğini değiştiriyorum.
user570593

1
ROC eğrisi, olası tüm eşiklerde hassasiyet ve özgüllük gösterir, bu nedenle doğru dengesizliği temsil eden bir nokta bulursanız, eğri üzerindeki o nokta ile giden eşiği seçebilirsiniz.
Michael McGowan

Doğru dengeyi seçmenin otomatik bir yolu var mı veya dengeyi kendim mi seçmeliyim? Ve benim durumumda, ROC uzayında hassasiyet =% 100 veya özgüllük =% 100 için nasıl bir nokta elde edebilirim. çünkü özellik seçim algoritmasının eşiğini değiştiriyorum.
user570593

2
İyi tanımlanmış bir ölçütünüz varsa (örneğin hassasiyeti en üst düzeye çıkarmak), bu otomatikleştirilebilir. Ancak bir sorun için iyi bir ödünleşim diğeri için berbat olabilir.
Michael McGowan

2
Eşik değerinizi minimum veya maksimum değere ayarlayarak% 100 hassasiyet veya özgüllük elde edilebilir ... Gerçekten istediğiniz bu mu?
Michael McGowan

11

Son birkaç yıldır gördüğüm vakaların% 99'unda ROC eğrileri bilgilendirici değildir. Pek çok istatistikçi ve hatta daha fazla makine öğrenimi uygulayıcısı tarafından zorunlu olarak görülüyorlar. Sorununuzun gerçekten bir risk tahmini sorunu değil, bir sınıflandırma sorunu olduğundan emin olun. ROC eğrileri ile ilgili sorunların merkezinde, kullanıcıları sürekli değişkenler için kesme noktaları kullanmaya davet etmeleri ve geriye dönük olasılıklar, yani ters zaman sırasına sahip olayların olasılıkları (hassasiyet ve özgüllük) kullanmalarıdır. ROC eğrileri, bir karar kuralı kullanıcılarının analistlere olan kayıp (maliyet; fayda) işlevlerini iptal ettikleri çok özel durumlar dışında en iyi dengeyi bulmak için kullanılamaz.


Frank ile tamamen aynı fikirde değilim. Bence ROC'nin AUC'sini kullanmak genellikle bir problemdir. Ancak nitel olarak algoritmaları karşılaştırmanın faydalı olabileceğini düşünüyorum. Sadece özgüllük ve duyarlılığa tek bir noktadan bakmak neredeyse bilgilendirici değildir. Ayrıca, cevabının soruyu gerçekten ele aldığından emin değilim, çünkü OP gerçekten neden% 99 bilgilendirici olmayan vakalara veya infografik olan% 1'e düştüğünü bilmek istiyor.
Michael R.Chernick

R2

1
@FrankHarrell Peki iki algoritmayı özgüllük ve duyarlılıkla çok yakından eşleşmediklerinde nasıl karşılaştırıyorsunuz?
Michael R. Chernick

7
R2χ2R2

1
Teşekkürler @FrankHarrell. Hala ROC eğrisi ve sens spec kullanımına karşı argümanları tamamen takip ettiğimden emin değilim. Belki de kendime bir soru sorma zamanı.
Momo

1

Bir ROC eğrisi oluşturulduktan sonra, AUC (eğrinin altındaki alan) hesaplanabilir. AUC, birçok eşikte testin doğruluğudur. AUC = 1, testin mükemmel olduğu anlamına gelir. AUC = .5, ikili sınıflandırma şansını yerine getirir.

Birden fazla model varsa, AUC farklı modellerle karşılaştırmak için tek bir ölçüm sağlar. Her zaman tek bir önlemle değiş tokuşlar vardır, ancak AUC başlamak için iyi bir yerdir.


1
YcDxy

1

AUC, gerçek ve öngörülen sınıfları birbirleriyle karşılaştırmaz. Tahmin edilen sınıfa değil, tahmin skoruna veya olasılığa bakmaktadır. Bu skor için bir kesme uygulayarak sınıfın tahminini yapabilirsiniz, örneğin, 0.5'in altında bir puan alan her numune negatif olarak sınıflandırılır. Ancak ROC bundan önce gelir. Puanlar / sınıf olasılıkları ile çalışıyor.

Bu skorları alır ve tüm numuneleri bu puana göre sıralar. Şimdi, pozitif bir örnek bulduğunuzda ROC eğrisi bir adım yukarı çıkar (y ekseni boyunca). Negatif bir örnek bulduğunuzda sağa (x ekseni boyunca) hareket edersiniz. Eğer bu puan iki sınıf için farklı ise, pozitif örnekler önce gelir (genellikle). Bu, sağdan daha fazla adım attığınız anlamına gelir. Listenin aşağısında negatif örnekler gelecek, böylece sola hareket edeceksiniz. Örneklerin tam listesi boyunca, pozitif örneklerin% 100'üne ve negatif örneklerin% 100'üne karşılık gelen koordinatta (1,1) ulaşırsınız.

Skor pozitif olanı negatif örneklerden mükemmel bir şekilde ayırırsa (x = 0, y = 0) 'dan (1,0)' a ve oradan (1, 1) 'e kadar ilerlersiniz. Yani, eğrinin altındaki alan 1'dir.

Skorunuz pozitif ve negatif numuneler için aynı dağılıma sahipse, sıralanmış listede pozitif veya negatif bir numune bulma olasılıkları eşittir ve bu nedenle ROC eğrisinde yukarı veya sola hareket etme olasılıkları eşittir. Bu nedenle diyagonal boyunca hareket edersiniz, çünkü esasen yukarı ve sola, yukarı ve sola hareket edersiniz ve böylece ... yaklaşık 0.5 AROC değeri verir.

Dengesiz bir veri kümesi durumunda, adım boyutu farklıdır. Böylece, sola doğru daha küçük adımlar atarsınız (daha fazla negatif örneğiniz varsa). Bu yüzden puan az ya da çok dengesizlikten bağımsızdır.

Bu nedenle, ROC eğrisi ile örneklerinizin nasıl ayrıldığını ve eğrinin altındaki alanın, ikili bir sınıflandırma algoritmasının veya sınıfları ayırmak için kullanılabilecek herhangi bir değişkenin performansını ölçmek için çok iyi bir metrik olabileceğini görselleştirebilirsiniz.

resim açıklamasını buraya girin

Şekilde, farklı numune boyutları ile aynı dağılımlar gösterilmektedir. Siyah alan, pozitif ve negatif örneklerin rasgele karışımlarının ROC eğrilerinin nereden bekleneceğini göstermektedir.


Bu grafikler bir içgörü sağlamaz ve son derece yüksek bir mürekkep: bilgi oranına sahiptir IMHO. Doğru doğruluk puanlarına sadık kalın
Frank Harrell

Bu grafiklerde tek bir boyutsal doğruluk puanından daha fazla bilgi vardır. Aynı puan birçok farklı dağıtımdan gelebilir. Erken tanınma var mı? Farklı davranan birden fazla pozitif örnek sınıfınız var mı? Sonuç istatistiksel olarak anlamlı mı? Tüm bu soruları bu grafiklere bakarak cevaplamak açıktır ve tek bir doğruluk puanı ile ele alınması imkansızdır.
Sören

Tüketicilerin ve analistlerin, tahmin edilen değerleri gösteren yüksek çözünürlüklü bir histogramla kaplanmış bir kalibrasyon eğrisi göstermek kadar sezgisel olan bu eğrilerden bilgi alabileceklerini ciddi olarak sorgularım. Ve ROC eğrisindeki her nokta yanlış bir doğruluk puanıdır.
Frank Harrell

Yeni başlayanlar genellikle bu eğrileri anlamakta zorlanırlar. Bu nedenle, ürününüzü tanıtmak için tüketicilere göstermenizi tavsiye etmem. Sanırım, burada daha basit bir şey istiyorsunuz. Eğri, bireysel noktalardan daha fazladır.
Sören
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.