AUC, her sınıftan rastgele seçilen bir örneği doğru bir şekilde sınıflandırma olasılığı mıdır?


11

Bu yazıyı bir makalede okudum ve AUC'nin başka hiçbir yerde bu şekilde tanımlandığını görmedim. Bu doğru mu? Bunu görmenin bir kanıtı veya basit bir yolu var mı?

Şekil 2, alıcı-çalışma karakteristik eğrisinin (AUC) altındaki alan olarak ifade edilen, her bir sınıftan (örneğin, erkek ve kadın) rastgele seçilen iki kullanıcının doğru bir şekilde sınıflandırılma olasılığına eşdeğer olan ikili değişkenlerin tahmin doğruluğunu göstermektedir. ).

Bana öyle geliyor ki, AUC = 0.5 için, yukarıdakilerden biri, arka arkaya iki kez bir bozuk para çevirmeyi doğru olarak tahmin etme olasılığının% 50 olduğunu önerecektir, ancak gerçekte, sadece% 25 şansınız var arka arkaya iki bozuk para döndürme doğru tahmin. En azından bu ifadeyi böyle düşünüyorum.


1
Başlıkta ifade edilen kavramın zaten doğru olmadığını takdir ediyorum, ancak alıntıya uymak için, sadece "sınıflandırma olasılığı" yerine "doğru sınıflandırma olasılığı ..." dememeli midir? İlk okuduğumda bu beni şaşırttı.
Silverfish

1
Zaten yeterince uzun bir başlıktı! Aslında "doğru" eklemeyi düşündüm ya da inanma. :)
thecity2

Yanıtlar:


14

Teklif biraz yanlış. Doğru ifade, ROC AUC'nin rastgele seçilen bir pozitif örneğin, rastgele seçilen bir negatif örnekten daha yüksek sıralanma olasılığı olduğudur. Bu, ROC AUC ve Wilcoxon sıralama testi arasındaki ilişkiden kaynaklanmaktadır.

Tartışmayı Tom Fawcett " ROC Analizine Giriş " bölümünde aydınlatıcı bulacaksınız .


8

Yazarın açıklaması tamamen doğru değil. ROC eğrisinin altındaki alan aslında rastgele seçilen bir pozitif örneğin rastgele seçilen bir negatif örnekten daha yüksek bir risk puanına sahip olma olasılığına eşittir. Bunun sınıflandırma ile bir ilgisi yoktur, sadece puan dağılımları arasındaki ayrımın bir ölçüsüdür.

Madeni para örneğiniz için, iki madeni paranızın olduğunu ve her birinin onunla ilişkili bir puanı olduğunu düşünün. Daha sonra biri kafaları ve diğer kuyrukları ortaya çıkana kadar her iki jetonu çevirirsiniz (çünkü farklı sonuçları koşullandırırız). Bu, rasgele puanlama yapan bir modele sahip olmakla eşdeğerdir ve kafalardan çıkan madalyonun daha yüksek (veya daha düşük) bir puana sahip olma olasılığı 1/2'dir.


2

İfadesini beğenmeme rağmen okuduğunuz açıklama doğru. ROC (AUC) eğrisinin altındaki alan, rastgele bir çift çifti sınıf 2'den sınıf 1'e doğru bir şekilde sınıflandırma olasılığıdır. Bu, sıra tabanlı bir istatistiktir, bu nedenle çiftteki bir bireyin diğeri, rastgele tahmin ederseniz bu sadece% 50 şanstır. AUC, Wilcoxon imzalı dereceli test istatistiğiyle aynıdır [1] ve bu, anlamını göstermek için kullanılabilir.

[1]: Mason ve Graham (2002). Bağıl çalışma karakteristiklerinin (ROC) ve bağıl çalışma seviyeleri (ROL) eğrilerinin altındaki alanlar: İstatistiksel anlamlılık ve yorumlama. Üç Aylık Kraliyet Meteoroloji Derneği Dergisi. 128: 2145-2166.


1

Diğerlerinin işaret ettiği gibi, AUC pozitif sınıftan rastgele seçilen bir örneğin sınıflandırıcıdan negatif sınıftan rastgele seçilen bir örnekten daha yüksek bir puan alma olasılığını ifade eder.

Bu özelliğin kanıtı için bakınız: AUC için matematiksel formül nasıl elde edilir?

Ya da bu cevap için kullanılan kaynak: D. Hand, 2009, Sınıflandırıcı performansının ölçülmesi: ROC eğrisinin altındaki alana tutarlı bir alternatif

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.