ROC eğrisi altındaki alan - genel doğruluk


29

ROC'nin Eğri Altındaki Alanı (AUC) ve genel doğruluğu hakkında biraz kafa karıştırıcıyım.

  1. AUC, genel doğrulukla orantılı olacak mı? Başka bir deyişle, genel olarak daha büyük bir doğruluk elde ettiğimizde, kesinlikle daha büyük bir AUC olacaktır? Yoksa tanım olarak pozitif korelasyon gösteriyorlar mı?

  2. Olumlu bir korelasyon varsa, neden ikisini de bazı yayınlarda bildirmekten rahatsız ediyoruz?

  3. Gerçek durumda, bazı sınıflandırma görevlerini yerine getirdim ve sonuçları şu şekilde aldım: A sınıfı% 85, A98 değeri 0.98 ve A sınıfı% 93 ve 0.92% AUC doğruluk aldı. Soru, hangi sınıflandırıcı daha iyi? Veya bunun gibi benzer sonuçlar elde etmek mümkün müdür (benim uygulamamda bir hata olabileceği anlamına gelir)?


1
Bir gazetenin bazılarınızın ilgisini çekebileceğini öğrendim. google.com.tr/…
Samo Jerom

AUC'nin doğruluğunda değilken AUC ölçümünde yanlış pozitif oranı hesaba kattığımız için genel doğruluktan daha az olması gerekmiyor mu ???
Ali Sultan

ROC AUC, sınıfların farklı büyüklükte olması durumunda faydalıdır. Nesnelerin% 99'u pozitifse, rasgele örneklemeyle% 99'luk bir doğruluk elde edilebilir. O zaman ROC AUC değeri çok daha anlamlı olacaktır.
Anony-Mousse

Yanıtlar:


26

AUC (ROC'ye dayanarak) ve genel doğruluk aynı kavram gibi görünmüyor.

Genel doğruluk, belirli bir kesme noktasına dayanırken, ROC tüm kesme noktalarını dener ve duyarlılığı ve özgüllüğü çizer. Bu yüzden, genel doğruluğu karşılaştırdığımızda, kesinti seviyesine göre doğruluğu karşılaştırıyoruz. Genel doğruluk, farklı kesim noktasından farklılık gösterir.


2
Yanıtın için çok tesekkürler! Genel doğruluğun belirli bir kesme noktasından (veya eşik değerinden) alındığını anlıyorum. Bununla birlikte, bir tane en iyi kesme noktası, yani sol üst köşeye en yakın olanı vardır. Örneğin, genel doğruluğum bu en iyi kesme noktası kullanılarak hesaplanır ve AUC tüm farklı kesme noktaları içindir. O zaman bu doğruluk ve AUC nasıl yorumlanır? Örneğin, yukarıda bahsettiğim iki sınıflandırıcının performansı.
Samo Jerom

3
Ah anlıyorum. En iyi genel doğruluğu ve AUC'yi karşılaştırıyorsunuz. Ama yine de farklı konseptler. AUC, P (tahmini DOĞRU | gerçek DOĞRU) vs P (YANLIŞ | YANLIŞ) iken, genel doğruluk P = P (DOĞRU | DOĞRU) * P (gerçek DOĞRU) + P (YANLIŞ | YANLIŞ) * P ( gerçek YANLIŞ). Yani bu, veri setinizdeki gerçek değerin oranına çok bağlıdır. Uygulamada, en iyi genel doğruluğun genellikle kesme noktası P'nin (gerçek DOĞRU) yakınında olduğu durumlarda elde edildiği görülmektedir.
Vincent,

Dolayısıyla, AUC ve en iyi genel doğruluk, veri kümenizin gerçek değerinin oranına bağlı olarak tutarlı olmayabilir. Sizin durumunuzda, sınıflandırıcılardan birinin duyarlılığa, diğeri ise spesifikliğe daha fazla odaklandığı görülüyor. Ve şu anki veri setinizde, P (TRUE)% 50 değil. Bu yüzden hassasiyet ve özgüllük, farklı ağırlıklara göre genel doğruluğa katkıda bulunur. Uygulamada, ROC bize daha fazla bilgi verebilir ve sınıflandırma durumunu duruma göre seçmek istiyoruz. Örneğin, spam sınıflandırıcısı, önemli e-postaları kaçırmamak için P (spam değil | spam değil) üzerinde daha fazla odaklanabilir.
Vincent

Cevabınız için teşekkürler. Şimdi çok daha açık. Fakat eğer birisi daha tartışmak istiyorsa, lütfen buraya gönderin.
Samo Jerom

27

İki istatistik önlemin korelasyon göstermesi muhtemel olsa da, sınıflandırıcının farklı niteliklerini ölçer.

AUROC

Eğri altındaki alan (AUC), bir sınıflandırıcının, rastgele seçilen bir negatif örnekten daha yüksek bir rastgele seçilen pozitif örneği sıralama olasılığına eşittir. Sınıflandırıcıların becerisini , pozitif sınıfa ait oldukları dereceye göre bir dizi diziyi sıralamadaki ölçüsünü ölçmektedir , ancak gerçekte sınıflara desen vermeden.

Genel doğruluk aynı zamanda sınıflandırıcının model sıralaması yeteneğine, aynı zamanda eşiğin üstünde ise pozitif sınıfa ve alt sıra ise negatif sınıfa model atamak için kullanılan sıralamada bir eşik seçme yeteneğine de bağlıdır.

Bu nedenle, AUROC istatistiğinin daha yüksek olduğu (her şeyin eşit olduğu) sınıflandırıcı, aynı zamanda (AUROC'un ölçtüğü) sıralamanın hem AUROC hem de genel doğruluk için faydalı olduğu için daha yüksek bir genel doğruluğa sahip olması muhtemeldir. Bununla birlikte, bir sınıflandırıcı desenleri iyi bir şekilde sıralarsa, ancak eşiği kötü seçerse, yüksek bir AUROC'ye, ancak genel olarak zayıf bir doğruluğa sahip olabilir.

Pratik kullanım

Uygulamada, AUROC'nin genel doğruluğunu ve sınıflayıcıyı sınıf üyeliği olasılığını, çapraz entropi veya öngörücü bilgiyi toplamayı toplamayı seviyorum. Sonra, zor bir sınıflandırma yapmak için ham kabiliyetini ölçen bir metriğe sahibim (yanlış-pozitif ve yanlış-negatif yanlış sınıflandırma maliyetlerinin eşit olduğunu ve numunedeki sınıf frekanslarının operasyonel kullanımdakilerle aynı olduğunu farz ediyorum - büyük bir varsayım!), desen sıralama yeteneğini ölçen bir ölçü ve sıralamanın bir olasılık olarak ne kadar iyi kalibre edildiğini ölçen bir ölçü.

Pek çok görevde, operasyonel sınıflandırma maliyetleri bilinmemektedir veya değişkendir veya operasyonel sınıf frekansları, eğitim örneğindekilerden farklı veya değişkendir. Bu durumda, genel doğruluk genellikle oldukça anlamsızdır ve AUROC daha iyi bir performans göstergesidir ve ideal olarak, operasyonel kullanımda bu sorunları telafi edebilmemiz için iyi kalibre edilmiş olasılıkları ortaya çıkaran bir sınıflandırıcı istiyoruz. Temel olarak hangi metriğin önemli olduğu çözmeye çalıştığımız soruna bağlıdır.


Dikran, ilk paragrafınız için referansınız var mı?
Bunder

@ Doğrudan değil, AUROC, rastgele seçilen bir + ve deseninin, rastgele seçilen bir desenden ( en.wikipedia.org/wiki/… ) daha yüksek sıralanma olasılığını gösterir ve bu nedenle sıralamanın kalitesinin bir ölçüsüdür. Bu olasılığın mümkün olduğu kadar yüksek olmasını istediğimiz gibi.
Dikran Marsupial

5

AUC gerçekten çok kullanışlı bir ölçüm mü?

Beklenen maliyetin daha uygun bir önlem olduğunu söyleyebilirim.

O zaman tüm Yanlış Pozitifler için A maliyetine ve tüm Yanlış Negatifler için B maliyetine sahip olacaksınız. Kolayca diğer sınıfın diğerinden daha pahalı olması olabilir. Elbette çeşitli alt gruplarda yanlış sınıflandırma için maliyetleriniz varsa, o zaman daha da güçlü bir ölçüm olacaktır.

X ekseni ve o zamandaki y ekseni için beklenen maliyeti çizerek, hangi kesim noktasının beklenen maliyeti en aza indirdiğini görebilirsiniz.

Resmen, en aza indirmeye çalıştığınız bir kayıp fonksiyon kaybınız (kesinti | veriler, maliyet).


3
Beklenen maliyet, yalnızca maliyetler bilinmiyorsa veya değişkense, kullanımı iyi bir istatistik olan AUC'nin hesaplanması için gerekli olmayan yanlış pozitif ve yanlış negatif maliyetleri biliyorsanız, değerlendirilebilir.
Dikran Marsupial 13:13

4

Tüm cevapların gönderildiği gibi: ROCve accuracyiki farklı kavram esastır.

Genel olarak konuşursak, ROCsınıflandırmadan ve eşit olmayan tahmin hata maliyetlerinden (yanlış pozitif ve yanlış negatif maliyet) bağımsız bir sınıflandırıcının ayırt edici gücünü açıklar.

Metrik benzeri accuracy, test datasetveya sınıf dağılımına göre hesaplanır cross-validation, ancak bu oran, sınıflandırıcıyı gerçek yaşam verilerine uyguladığınızda değişebilir, çünkü temel sınıf dağılımı değişmiştir veya bilinmemektedir. Diğer yandan, TP rateve FP ratebu yapıya kullanılan AUCsınıf dağılımı değişen etkilenmeyecektir olacaktır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.