ROC eğrisinin altındaki alan veya dengesiz veriler için PR eğrisinin altındaki alan?


16

Hangi performans ölçüsünün kullanılacağı, ROC eğrisinin altındaki alan (FPR'ın bir fonksiyonu olarak TPR) veya hassas hatırlama eğrisinin altındaki alan (hatırlama fonksiyonu olarak hassasiyet) hakkında bazı şüphelerim var.

Verilerim dengesiz, yani negatif örneklerin sayısı pozitif örneklerden çok daha fazla.

Ben weka çıktı tahmini kullanıyorum, bir örnek:

inst#,actual,predicted,prediction
1,2:0,2:0,0.873
2,2:0,2:0,0.972
3,2:0,2:0,0.97
4,2:0,2:0,0.97
5,2:0,2:0,0.97
6,2:0,2:0,0.896
7,2:0,2:0,0.973

Ve ben pROC ve ROCR r kütüphanelerini kullanıyorum.


Bu eğrilerden herhangi biriyle ne elde etmek istediğinizi belirtmeyi unuttunuz.
Marc Claesen

1
Not: ROC eğrileri (tüm çalışma aralığında FPR'nin bir fonksiyonu olarak TPR) ve PR eğrileri (tüm çalışma aralığında hassaslığa karşı hatırlamaya karşı) seçim yapmak istediğiniz görülüyor. "Gibi terminoloji Hassasiyet ve hatırlama AUC-ROC çok yanıltıcıdır, bu yüzden bunu düzenledim. Yanlış anladıysam lütfen geri al.
Marc Claesen

Yanıtlar:


27

Soru oldukça belirsiz, bu yüzden farklı modelleri karşılaştırmak için uygun bir performans ölçüsü seçmek istediğinizi varsayacağım. ROC ve PR eğrileri arasındaki temel farklara iyi bir genel bakış için aşağıdaki makaleye başvurabilirsiniz: Davis ve Goadrich'in Hassas Geri Çağırma ve ROC Eğrileri Arasındaki İlişki .

Davis ve Goadrich'i alıntılamak için:

Bununla birlikte, çok eğri veri kümeleriyle uğraşırken, Hassas Geri Çağırma (PR) eğrileri bir algoritmanın performansı hakkında daha bilgilendirici bir resim verir.

FPR,=FPFP+TN-,TPR,=TPTP+FN-.
recbirll=TPTP+FN-=TPR,,precbensbenÖn=TPTP+FP

FP

Hassas geri çağırma eğrileri, yüksek dengesiz veri kümeleri için modeller arasındaki farkları vurgulamak için daha iyidir. Dengesiz ayarlarda farklı modelleri karşılaştırmak istiyorsanız, PR eğrisinin altındaki alan muhtemelen ROC eğrisinin altındaki alandan daha büyük farklılıklar gösterecektir.

Bununla birlikte, ROC eğrileri çok daha yaygındır (daha az uygun olsalar bile). Kitlenize bağlı olarak, ROC eğrileri lingua franca olabilir, bu yüzden bunları kullanmak muhtemelen daha güvenli bir seçimdir. Bir model PR alanında tamamen diğerine hükmediyorsa (örneğin tüm hatırlama aralığında her zaman daha yüksek hassasiyete sahipse), ROC alanında da baskın olacaktır. Eğriler herhangi bir boşlukta kesişirse, diğerinde de geçerler. Başka bir deyişle, hangi eğriyi kullanırsanız kullanın ana sonuçlar benzer olacaktır.


Utanmaz reklam . Ek bir örnek olarak, hem ROC hem de PR eğrilerini dengesiz bir ortamda raporladığım belgelerden birine bakabilirsiniz . Şekil 3, ikisi arasındaki farkı açıkça gösteren, özdeş modeller için ROC ve PR eğrilerini içerir. PR altındaki alanı ROC altındaki alanla karşılaştırmak için tablo 1-2 (AUPR) ve tablo 3-4'ü (AUROC) karşılaştırabilirsiniz; burada AUPR'nin AUROC'dan ayrı modeller arasında çok daha büyük farklılıklar gösterdiğini görebilirsiniz . Bu, PR eğrilerinin bir kez daha uygunluğunu vurgular.


Açıklama için teşekkürler. Şimdi soru, PR eğrileri dengesiz veriler için neden daha bilgilendirici? Benim için ROC daha bilgilendirici olmalı çünkü hem TPR hem de FPR'yi göz önünde bulunduruyor.
MM


1
@MA açıklığa kavuşturmak için cevabımı düzenledi.
Marc Claesen

1
TPR ve FPR arasındaki hatırlama denkleminde bir karışıklık olduğunu düşünüyorum, değil mi?
Simon Thordal

Haklısın, şöyle olmalı: hatırlama = ... = TPR, FPR değil. @Marc Claesen, bence bunu sadece siz değiştirebilirsiniz, çünkü yapmaya çalıştığımda, "Düzenlemelerin en az 6 karakter içermesi gerekir", bu nedenle bu gibi küçük yazım hatalarını düzeltmek imkansız.
ponadto

6

ROC eğrileri TPR'yi y ekseninde ve FPR'yi x ekseninde çizer, ancak neyi tasvir etmek istediğinize bağlıdır. Çalışma alanınıza farklı bir şekilde çizmenin bir nedeni olmadıkça, TPR / FPR ROC eğrileri, çalışma değişimlerini göstermek için standarttır ve en iyi şekilde alınacaklarına inanıyorum.

Kesinlik ve Geri Çağırma tek başına yanıltıcı olabilir çünkü gerçek olumsuzlukları açıklamaz.


0

ROC ve PR AUC'daki en büyük farkı, ROC'nin modelinizin pozitif sınıfı VE negatif sınıfı ne kadar iyi hesaplayabileceğini belirlediği gerçeği, PR AUC olarak gerçekten sadece pozitif sınıfınıza baktığı zaman. Dengeli bir sınıf durumunda ve hem negatif hem de pozitif sınıfları önemsediğiniz yerde, ROC AUC metriği harika çalışır. Dengesiz bir durumunuz olduğunda, PR AUC'yi kullanmak tercih edilir, ancak sadece modelinizin pozitif sınıfı ne kadar iyi "hesaplayabileceğini" belirlediğini unutmayın!

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.