KS, AUROC ve Gini arasındaki ilişki


11

Kolmogorov-Smirnov testi (KS), AUROC ve Gini katsayısı gibi yaygın model doğrulama istatistiklerinin tümü işlevsel olarak ilişkilidir. Ancak, sorum bunların hepsinin nasıl ilişkili olduğunu kanıtlamakla ilgilidir. Birinin bu ilişkileri kanıtlamama yardım edip edemeyeceğini merak ediyorum. Çevrimiçi olarak hiçbir şey bulamadım, ancak kanıtların nasıl çalıştığıyla gerçekten ilgileniyorum. Örneğin, Gini = 2AUROC-1'i biliyorum, ancak en iyi kanıtım bir grafiğe işaret etmeyi içeriyor. Resmi kanıtlarla ilgileniyorum. Herhangi bir yardım büyük mutluluk duyacağız!


1
KS ile Kolmogorov-Smirnov istatistiği mi demek istediniz? AUROC muhtemelen ROC eğrisinin altındaki alandır?
Nitesh

Wikipedia'dan başlamak ve orijinal referanslardan geçmek, başlamak için iyi bir yer gibi görünüyor.
LauriK

Yanıtlar:


1

Alıcı işletim karakteristiği için Wikipedia girişi , Gini = 2AUROC-1 sonucu için bu makaleye referansta bulunmaktadır: Hand, David J .; ve Till, Robert J. (2001); Çoklu sınıflandırma problemleri için ROC eğrisinin altındaki alanın basit bir genellemesi, Makine Öğrenimi, 45, 171-186. Ama korkarım ki istediğine ne kadar yakın olduğunu görmek için ona kolay erişimim yok.


1
... ve Gini genellikle iki kategorik etiketli verilere uygulanırken, AUROC sayısal sıralama verilerine + bir ikili etikete uygulandığında işe yaramaz bir sonuç olabilir. Onlar olabilir denk sadece senin sıralaması ikili olur? Bu durumda, AUROC'u kullanmak çok mantıklı olmaz çünkü sadece 2 serbestlik derecesine sahip 3 noktalı bir eğri ... (Bu sonucu kontrol etmedim, bu gün Wikipedia'da çok fazla kağıt spam.)
QUIT Vardır - Anony-Mousse

0

Göre kağıt (Adeodato PJ, L ve Melo 2016 SB), KS eğrisi ROC eğrisinin altındaki (Auks) ve Alan (AUROC) altındaki alan arasında doğrusal bir ilişki vardır, yani:

birUR,ÖC=0.5+birUKS

Makaleye denklik kanıtı dahildir.


0

Gini = 2 * AUROC-1 sonucunun kanıtlanması zordur çünkü mutlaka doğru değildir. Alıcının Çalışma Karakteristik eğrisindeki Wikipedia makalesi sonucu Gini'nin bir tanımı olarak verir ve Hand and Till (nealmcb tarafından alıntılanan) makalesinin yalnızca Gini'nin ROC eğrisini kullanarak grafik tanımının bu formüle yol açtığını söyler.

Yakalama, Gini'nin bu tanımının makine öğrenimi ve mühendislik topluluklarında kullanılması, ancak ekonomistler ve demograflar (Gini'nin orijinal makalesine geri dönme) tarafından farklı bir tanımın kullanılmasıdır. Gini katsayısı hakkındaki Wikipedia makalesi , Lorenz eğrisine dayanarak bu tanımı ortaya koymaktadır.

Schechtman ve Schechtman'ın (2016) bir makalesi, AUC ve orijinal Gini tanımı arasındaki ilişkiyi ortaya koymaktadır. Ancak tam olarak aynı olamayacaklarını görmek için, olayların oranının p olduğunu ve mükemmel bir sınıflandırıcıya sahip olduğumuzu varsayalım . Daha sonra ROC eğrisi sol üst köşeden geçer ve AUCROC 1'dir. Ancak, (çevrilmiş) Lorenz eğrisi (0,0) ila ( p , 1) ila (1,1) arasında çalışır ve ekonomistlerin Gini 1'dir. - p / 2, ki bu neredeyse tam olarak 1 değil.

Olaylar nadirse, Gini = 2 * AUROC-1 ilişkisi Gini'nin orijinal tanımı kullanılarak neredeyse doğru değildir. İlişki ancak Gini bunu doğrulamak için yeniden tanımlandığında doğrudur.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.