AUC-ROC'u hesaplamanın yolu TPR ve FPR'yi eşik olarak çizmektir, değiştirilir ve bu eğrinin altındaki alanı hesaplar. Peki, eğrinin altındaki bu alan neden bu olasılıkla aynı? Aşağıdakileri varsayalım:τ
- bir , modelin aslında pozitif sınıftaki veri noktaları için ürettiği puanların dağılımıdır.
- AB , modelin aslında negatif sınıftaki veri noktaları için ürettiği puanların dağılımıdır (bunun solunda olmasını istiyoruz ).bir
- τ kesme eşiğidir. Bir veri noktası bundan daha yüksek bir puan alırsa, pozitif sınıfa ait olduğu tahmin edilir. Aksi takdirde, negatif sınıfta olduğu tahmin edilir.
TPR'nin (hatırlama) şu şekilde verildiğine dikkat edin: ve FPR (serpinti): .P( A > τ)P( B > τ)
Şimdi, TPR'yi y ekseninde ve FPR'yi x ekseninde çiziyoruz, çeşitli için eğri çiziyoruz ve bu eğrinin altındaki alanı ( ) hesaplıyoruz .τA UC
Biz:
A UC= ∫10TPR ( x ) dx = ∫10P( A > τ( x ) ) dx
burada FPR'dir. Şimdi, bu integrali hesaplamanın bir yolu tekdüze bir dağılıma ait saymaktır. Bu durumda, basitçe beklentisi haline gelir .
xxTPR,
A UC= Ex[ P( A > τ( x ) ) ](1)
olduğunu düşünürsek .
x ∼ U[ 0 , 1 )
Şimdi, burada sadecexFPR,
x = FPR = P( B > τ( x ) )
tekdüze bir dağılımdan
olduğunu düşündüğümüzden ,
x
P( B > τ( x ) ) ∼ U
= > P( B < τ( x ) ) ∼ ( 1 - U) ∼ U
= > FB( τ( x ) ) ∼ U(2)
Ancak ters dönüşüm yasasından , herhangi bir rastgele değişken , sonra olduğunu . Bu, herhangi bir rastgele değişken alarak ve kendi CDF'sini uygulayarak üniformaya yol açtığı için bunu takip eder.XFX( Y) ∼ UY∼ X
FX( X) = P( FX( x ) < X) = P( X< F- 1X( X) ) = FXF- 1X( X) = X
ve bu sadece üniforma için geçerlidir.
Bu gerçeği denklem (2) 'de kullanmak bize şunu verir:
τ( x ) ∼ B
Bunu denklem (1) ile değiştirerek şunu elde ederiz:
A UC= Ex( P( A > B ) ) = P( A > B )
Başka bir deyişle, eğrinin altındaki alan, rastgele bir pozitif örneğin rastgele bir negatif örnekten daha yüksek bir puana sahip olma olasılığıdır.