Wojtek J. Krzanowski ve David J. Sürekli Veriler için El ROC Eğrileri (2009) ROC eğrileri ile ilgili her şey için mükemmel bir referanstır. Aynı konuyu tartışmak için genellikle farklı terminoloji kullanan sinir bozucu bir şekilde geniş bir literatür tabanı olan bir dizi sonuç toplar.
Buna ek olarak, bu kitap aynı miktarları tahmin etmek için türetilen alternatif yöntemlerin yorumlarını ve karşılaştırmasını sunar ve bazı yöntemlerin belirli bağlamlarda savunulamayacak varsayımlar yaptığını gösterir. Bu böyle bir bağlam; diğer cevaplar, puanların dağılımı için binormal modeli kabul eden Hanley & McNeil yöntemini bildirmektedir; bu, sınıf puanlarının dağılımının (yakın) normal olmadığı durumlarda uygun olmayabilir. Normal olarak dağıtılmış puanların varsayımı, modern makine öğrenimi bağlamlarında özellikle uygun görünmemektedir , xgboost gibi tipik ortak modeller , sınıflandırma görevleri için "küvet" dağılımı (0 ve 1 yakınındaki uçlarda yüksek yoğunluklu dağılımlar) ile puan üretme eğilimindedir. ).
Soru 1 - AUC
Bölüm 6.3'te iki ROC eğrisi için ROC AUC karşılaştırmaları tartışılmaktadır (sf. 113-114). Özellikle, benim anlayışım, bu iki modelin birbiriyle ilişkili olduğu, bu yüzden nasıl hesaplanacağı hakkındaki bilgi burada kritik öneme sahiptir; Aksi takdirde, test istatistiğiniz önyargılı olacaktır çünkü korelasyonun katkısını hesaba katmaz.r
Herhangi bir parametrik dağılım varsayımına dayanmayan ilişkisiz ROC eğrileri için, AUC'leri karşılaştıran testler ve güven aralıkları istatistikleri , AUC değerlerinin ve ^ AUC 2 tahminlerine ve standart sapmalarının S 1 ve Bölüm 3.5.1'de verildiği gibi S 2 :AUCˆ1AUCˆ2S1S2
Z=AUCˆ1−AUCˆ2S21+S22−−−−−−−√
Bu tür testleri her iki sınıflandırıcı için de aynı verilerin kullanıldığı duruma genişletmek için AUC tahminleri arasındaki korelasyonu hesaba :
z=AUCˆ1−AUCˆ2S21+S22−rS1S2−−−−−−−−−−−−−√
burada bu korelasyonun tahminidir. Hanley ve (1983) McNeil binormal durumda analizlerini dayanarak, bu tür bir uzatma yapılmıştır, ancak tahmin korelasyon katsayısı hesaplamak için nasıl kullanıldığını gösteren bir tablo verdi korelasyon gelen sınıfı P içinde iki sınıflandırıcıların ve korelasyonunu r N sınıfındaki iki sınıflandırıcıdan n , matematik türetmenin talep üzerine mevcut olduğunu söyleyerek. Diğer çeşitli yazarlar (örneğin Zou, 2001), P ve N sınıflarının skor dağılımlarını aynı anda normale dönüştürecek uygun bir dönüşümün bulunabileceğini varsayarak, binormal modele dayanan testler geliştirmiştir.r r PrrrPrn
DeLong ve arkadaşları (1988), AUC ile Mann-Whitney test istatistiği arasındaki kimlikten ve Sen (1960) 'a bağlı genelleştirilmiş -istatistik teorisinden elde edilen sonuçlardan faydalanarak AUC'ler arasındaki korelasyonun bir tahminini elde etmişlerdir. binormal varsayımlara dayanmaz. Aslında, DeLong ve arkadaşları (1988) k ≥ 2 sınıflandırıcıları arasındaki karşılaştırmalar için aşağıdaki sonuçları sunmuşlardır .Uk≥2
Bölüm 3.5.1'de, ampirik ROC eğrisinin altındaki alanın Mann-Whitney - statikine eşit olduğunu veU
buradasPi,i=1,…,nP,PnesnelerisınıfıvesNj,j=1,…,nN,örnektekiNsınıfınesneler. Varsayalım kiksınıflandırıcılarımız var, puanlarveriyoruzs r N j ,
AUCˆ=1nNnP∑i=1nN∑j=1nP[I(sPj>sNi)+12I(sPj=sNi)]
sPi,i=1,…,nPPsNj,j=1,…,nNNk ve s r P i , j = 1 , … , n P [Bu bölümde bir dizin oluşturma hatasını düzelttim - Sycorax] ve ^ A U C r , r = 1 , … , k . TanımlamaksrNj,j=1…nNsrPi,j=1,…,nPAUCˆr,r=1,…,k
ve
V r 01 =1
Vr10= 1nN-Σj = 1nN-[ Ben( srPben> srN-j) + 12ben( srPben= srN-j) ] , i = 1 , … , nP
Vr01= 1nPΣi = 1nP[ Ben( srPben> srN-j) + 12ben( srPben= srN-j) ] , j = 1 , … , nN-
sonra, matris W 10'u ( r , s ) th elemanı
w r , s 10 = 1 ile tanımlayınk × kW10( r , s )
vek×kmatrisiW01ile(r,s)inci elemanı
w r
wr , s10= 1nP- 1Σi = 1nP[ Vr10( sPben) - A UCˆr] [ Vs10( sPben) - A UCˆs]
k × kW01( r , s )
Sonra vektör için tahmini kovaryans matrisi( ^ A U C 1,…, ^ A U C kwr , s01= 1nN-- 1Σi = 1nN-[ Vr01( sN-ben) - A UCˆr] [ Vs01( sN-ben) - A UCˆs]
eğriler altındaki tahmini alanlardan
W = 1( A UCˆ1,…,AUCˆk)wr,selemanları ile. Bu, bölüm 3.5.1'de de verilen tek bir tahmini AUC'nin tahmini varyansı için sonucun genelleştirilmesidir. İki sınıflandırıcılar durumunda, estiamted korelasyonrtahmini AUC'ler arasında bu şekilde verilirw1,2W=1nPW10+1nNW01
wr , sr ki bu dayukarıdakiz'dekullanılabilir.w1,2w1,1w2,2√z
Başka bir cevap, AUC varyansı tahmin edicileri için Hanley ve McNeil ifadelerini verdiğinden, burada DeLong tahmincisini p. 68:
DeLong ve arkadaşlarına (1988) bağlı olan ve Pepe (2003) tarafından örneklendirilen alternatif yaklaşım, belki de daha basit bir tahmin verir ve bir yerleştirme değeri için ekstra yararlı bir kavram ortaya koyan bir yaklaşımdır. Belirtilen popülasyona referansla bir puanının yerleştirme değeri, popülasyonun hayatta kalan fonksiyonunun s cinsinden olmasıdır . Bu yerleşim değer s nüfus N olan 1 - F ( ler ) ve için s nüfus P o 1 - G ( ler ) . Yerleşim değerlerinin ampirik tahminleri bariz oranlarda verilmiştir. Gözlem nedenle yerleştirme değeri s Nsss1−F(s)s1−G(s) popülasyonda P belirtilens P , N i aşması P örnek değerlerin oranıdırs , N i , vevar(s , N p i )nüfus P ile ilgili olarak, N, her bir gözlem yerleşim değerlerinin varyansını ..sNisPNisNivar(sNPi)
DeLong ve arkadaşları (1988) varyans tahmini şu varyanslar cinsinden verilmiştir:
s 2 ( ^ A U C ) = 1AUCˆ
s2(AUCˆ)=1nPvar(sNPi)+1nNvar(sPNi)
Not, popülasyonu N ve skorlar kümülatif dağılım fonksiyonu G tahmin etmek için popülasyon S. standart bir şekilde puanlar kümülatif dağılım fonksiyonu olan F ve G, kullanmaktır ecdf . Kitap aynı zamanda ecdf tahminlerine çekirdek yoğunluğu tahmini gibi bazı alternatif yöntemler de sunmaktadır, ancak bu yanıtın kapsamı dışındadır.FGFG
ve z istatistiklerinin standart normal sapmalar olduğu varsayılabilir ve sıfır hipotezinin istatistiksel testleri normal şekilde devam eder. (Ayrıca bakınız: hipotez testi )Zz
Bu, hipotez testinin nasıl çalıştığının basitleştirilmiş, üst düzey bir özetidir:
Kelimelerinizde, "bir sınıflandırıcının diğerinden önemli ölçüde daha iyi olup olmadığının" test edilmesi, iki modelin istatistiklerin eşit olmadığı alternatif hipoteze karşı istatistiksel olarak eşit AUC'lere sahip olduğu sıfır hipotezini test etmek olarak yeniden ifade edilebilir.
Bu iki kuyruklu bir test.
Test istatistiği bu durumda standart normal dağılım olan referans dağılımın kritik bölgesinde ise sıfır hipotezini reddediyoruz.
Kritik bölgenin büyüklüğü testin seviyesine bağlıdır . % 95'lik bir anlam seviyesi için, z > 1.96 veya z < - 1.96 ise test istatistiği kritik bölgeye düşer . (Bunlar standart normal dağılımın α / 2 ve 1 - α / 2 miktarlarıdır.) Aksi takdirde, sıfır hipotezini reddedemezsiniz ve iki model istatistiksel olarak bağlıdır.αz>1.96z<−1.96α/21−α/2
Soru 1 - Hassasiyet ve Özgüllük
Duyarlılık ve özgüllüğü karşılaştırmak için genel strateji, bu istatistiklerin her ikisinin de oranlar üzerinde istatistiksel çıkarsamaya değer olduğunu gözlemlemektir ve bu standart, iyi çalışılmış bir sorundur. Spesifik olarak duyarlılık, bazı eşik eşik değerinden daha yüksek bir puana sahip P popülasyonu oranı ve benzer şekilde popülasyon N wrt özgüllük için oranıdır :
hassasiyet = t pt
sensitivity=tp1−specificity=fp=P(sP>t)=P(sN>t)
Ana yapışma noktası, iki örnek oranının ilişkilendirileceği göz önüne alındığında uygun testi geliştirmektir (aynı test verilerine iki model uyguladığınızda). Bu, s. 111.
Belirli testlere dönersek, birkaç özet istatistik, her eğri için orantıya düşer, böylece oranları karşılaştırmak için standart yöntemler kullanılabilir. Örneğin, değeri sabit, ön p gibi sabit bir eşik için yanlış sınıflandırma oranı, bir oranıdır t . Böylece bu ölçüleri kullanarak eğrileri, oranları karşılaştırmak için standart testlerle karşılaştırabiliriz. Örneğin, eşleşmemiş durumda, biz Test istatistiğini kullanarak ( t p 1 - t p 2 ) / s 12 , burada t s i eğri için gerçek pozitif oran itpfpt(tp1−tp2)/s12tpiisöz konusu nokta olarak ve , t p 1 ve t p 2 varyanslarının toplamıdır ...s212tp1tp2
Eşleştirilmiş durumda, bununla birlikte, bir ila kovaryans sağlayan bir düzenleme elde edebilirsiniz ve t p 2 , ancak alternatif bir korelasyon oranlarda (Marascuilo ve McSweeney-, 1977) için McNemar testi kullanmaktır.tp1tp2
N
tp1=tp2tp1≠tp2
Model 2 Positive at tModel 2 Negative at tModel 1 Positive at tacModel 1 Negative at tbd
abcd=∑i=1nPI(s1Pi>t)⋅I(s2Pi>t)=∑i=1nPI(s1Pi≤t)⋅I(s2Pi>t)=∑i=1nPI(s1Pi>t)⋅I(s2Pi≤t)=∑i=1nPI(s1Pi≤t)⋅I(s2Pi≤t)
M=(b−c)2b+c
χ21α=95%M>3.841459
srPisrNj
soru 2
Her katılımcı için tahmin değerlerini ortalayarak sonuçları birleştirmek yeterli görünmektedir, böylece her model için 100 ortalama tahmin edilen değerden 1 vektörüne sahip olursunuz. Daha sonra ROC AUC, hassasiyet ve özgüllük istatistiklerini her zamanki gibi orijinal modeller yokmuş gibi hesaplayın. Bu, 5 katılımcının modellerinin her birine, bir tür topluluk gibi bir model komitesinden biri olarak davranan bir modelleme stratejisini yansıtır.