Yüksek ve düşük arandı ve AUC'nin tahmin ile ilgili olarak ne anlama geldiğini veya ne anlama geldiğini bulamadık.
Yüksek ve düşük arandı ve AUC'nin tahmin ile ilgili olarak ne anlama geldiğini veya ne anlama geldiğini bulamadık.
Yanıtlar:
AUC, çoğu zaman AUROC anlamına gelir, çünkü Marc Claesen, AUC'nin belirsiz olduğunu (herhangi bir eğri olabilir) belirttiğinden, AUROC olmasa da, kötü bir uygulamadır.
AUROC'un çeşitli eşdeğer yorumları vardır :
Daha da ileri gitmek: AUROC’un olasılıksal yorumunu nasıl türetirim?
Lojistik regresyon gibi olasılıksal, ikili bir sınıflandırıcı olduğunu varsayalım.
ROC eğrisini sunmadan önce (= Alıcı Çalışma Karakteristiği eğrisi), karışıklık matrisi kavramının anlaşılması gerekir. İkili bir tahmin yaptığımızda, 4 tür sonuç olabilir:
Karışıklık matrisini elde etmek için, model tarafından yapılan tüm tahminleri gözden geçiriyoruz ve bu 4 tür sonuçtan her birinin kaç kez gerçekleştiğini sayıyoruz:
Bu bir karmaşa matrisi örneğinde, sınıflandırılmış 50 veri noktası arasında, 45 doğru sınıflandırılmış ve 5 yanlış sınıflandırılmıştır.
İki farklı modeli karşılaştırdığımızda, birkaç taneden ziyade tek bir metriğe sahip olmak çoğu zaman daha uygun olduğundan, daha sonra bir tanede birleştireceğimiz karışıklık matrisinden iki ölçüm hesaplıyoruz:
FPR ve TPR'yi tek bir metrikte birleştirmek için önce iki eski metriği çok sayıda farklı eşikle (örneğin ) lojistik regresyon için hesapladık, sonra bunları tek bir grafiğe çizdik, abscissa üzerindeki FPR değerleri ve koordinattaki TPR değerleri ile. Ortaya çıkan eğri, ROC eğrisi olarak adlandırılır ve dikkate aldığımız metrik, AUROC olarak adlandırdığımız bu eğrinin AUC'sidir.
Aşağıdaki şekilde AUROC grafik olarak gösterilmektedir:
Bu şekilde, mavi alan, Alıcının Çalışma Karakteristiği (AUROC) eğrisinin altındaki Alana karşılık gelir. Çaprazdaki kesikli çizgi, rastgele bir tahmincinin ROC eğrisini sunarız: AUROC değeri 0,5. Rastgele prediktör, modelin faydalı olup olmadığını görmek için genel olarak bir taban çizgisi olarak kullanılır.
Bazı ilk elden tecrübe edinmek istiyorsanız:
Partiye biraz geç kalmama rağmen, işte 5 sentim. @FranckDernoncourt (+1) zaten AUC ROC'un olası yorumlarından bahsetti ve en sevdiğim kişi listesindeki ilk kişi (farklı kelimeler kullanıyorum, ancak aynı):
Bir sınıflandırıcının AUC'si, sınıflandırıcının rastgele seçilen bir negatif örnekten daha yüksek, rastgele seçilmiş bir pozitif örnek, yani daha yüksek bir sıralamada seçilme olasılığına eşittir.
Bu örneği ele alalım (auc = 0.68):
Bunu simüle etmeye çalışalım: rastgele pozitif ve negatif örnekler çizin ve sonra pozitiflerin negatiflerden daha yüksek puan aldığı durumlarda oranı hesaplayın
cls = c('P', 'P', 'N', 'P', 'P', 'P', 'N', 'N', 'P', 'N', 'P',
'N', 'P', 'N', 'N', 'N', 'P', 'N', 'P', 'N')
score = c(0.9, 0.8, 0.7, 0.6, 0.55, 0.51, 0.49, 0.43, 0.42, 0.39, 0.33,
0.31, 0.23, 0.22, 0.19, 0.15, 0.12, 0.11, 0.04, 0.01)
pos = score[cls == 'P']
neg = score[cls == 'N']
set.seed(14)
p = replicate(50000, sample(pos, size=1) > sample(neg, size=1))
mean(p)
Ve 0.67926 alıyoruz. Çok yakın, değil mi?
Bu arada, RI'de genellikle ROC eğrilerini çizmek ve AUC'yi hesaplamak için ROCR paketini kullanın .
library('ROCR')
pred = prediction(score, cls)
roc = performance(pred, "tpr", "fpr")
plot(roc, lwd=2, colorize=TRUE)
lines(x=c(0, 1), y=c(0, 1), col="black", lwd=1)
auc = performance(pred, "auc")
auc = unlist(auc@y.values)
auc
Önemli tartışmalar bu tartışmaların hiçbirinde yer almamaktadır. Yukarıda tartışılan prosedürler uygun olmayan eşleşmeleri teşvik eder ve yanlış özelliklerin seçilmesi ve onlara yanlış ağırlık verilmesiyle optimize edilen uygunsuz doğruluk puanlama kurallarından (oranlar) yararlanır.
Sürekli tahminlerin ikilemi, optimum karar teorisi karşısında uçar. ROC eğrileri eyleme geçirilebilir içgörü sağlamıyor. Yararları inceleyen araştırmacılar olmadan zorunlu hale geldiler. Çok büyük bir mürekkebi var: bilgi oranı.
Optimum kararlar "pozitif" ve "olumsuz" olarak değil, sonucun tahmini olasılığını dikkate alır. ROC yapımında hiçbir rolü olmayan fayda / maliyet / kayıp fonksiyonu, dolayısıyla ROC'lerin işe yaramazlığı, risk tahminini optimal (örneğin, en düşük beklenen zarar) kararına çevirmek için kullanılır.
İstatistiksel bir modelin amacı genellikle bir öngörüde bulunmaktır ve analist, kayıp fonksiyonunu bilemeyebileceğinden, analist sıklıkla orada durmalıdır. Tahmin Anahtar bileşenleri tarafsız bir şekilde doğrulamak için (örneğin, ön yükleme alanı kullanarak) bu ROC altında bölgeyi eşit olur ama daha kolay eğer anlaşılabilir uyum olasılığıdır ölçmek için bir yarı iyi bir şekilde tahmin ayrımcılık (edilmektedir don 't ROC) ve kalibrasyon eğrisi çizin. Kesin bir ölçekte tahminler kullanıyorsanız kalibrasyon onayı gerçekten, gerçekten gereklidir.
Daha fazla bilgi için Biyomedikal Araştırma Biyoistatistik ve diğer bölümlerdeki Bilgi Kaybı bölümüne bakın .
AUC, eğrinin altındaki alanın kısaltmasıdır . Kullanılan modellerden hangisinin sınıfları en iyi şekilde öngördüğünü belirlemek için sınıflandırma analizinde kullanılır.
Uygulamaya bir örnek ROC eğrileridir. Burada, doğru pozitif oranlar yanlış pozitif oranlara karşı çizilir. Bir örnek aşağıdadır. Bir model için AUC ne kadar yaklaşırsa o kadar iyidir. Dolayısıyla, daha yüksek AUC'li modeller, düşük AUC'li modellere göre tercih edilir.
Lütfen ROC eğrilerinden başka yöntemler de olduğunu, ancak bunların gerçek pozitif ve yanlış pozitif oranlarla da ilgili olduklarını, örneğin hassas hatırlama, F1-Score veya Lorenz eğrileri ile ilgili olduklarını unutmayın.
auc
etiketin açıklamasını kontrol edin : stats.stackexchange.com/questions/tagged/auc