AIC ve c-istatistiğinin (AUC) model uyumu için gerçekte ne ölçtüğü arasındaki fark nedir?


29

Akaike Bilgi Kriteri (AIC) ve c istatistiği (ROC eğrisinin altındaki alan) lojistik regresyon için uygun iki ölçü modelidir. İki önlemin sonuçları tutarlı olmadığında neler olup bittiğini açıklamakta sorun yaşıyorum. Sanırım model uyumunun biraz farklı yönlerini ölçüyorlar, ancak bu belirli yönler nelerdir?

3 adet lojistik regresyon modelim var. M0 modelinin bazı standart değişkenleri vardır. M1 modeli, X1 ila M0; M2 modeli X2'yi M0'a ekler (bu nedenle M1 ve M2 iç içe değildir).

AIC'deki M0'dan hem M1'e hem de M2'ye olan fark yaklaşık 15'tir, bu da X1 ve X2'nin her ikisinin de model uyumunu iyileştirdiğini ve yaklaşık olarak aynı miktarda olduğunu gösterir.

c-istatistikleri: M0, 0.70; M, 0,73; M2 0,72. C-istatistiğindeki M0 ila M1 arasındaki fark önemlidir (DeLong ve arkadaşlarının 1988 yöntemi), ancak M0 ila M2 arasındaki fark anlamlı değildir;

X1 rutin olarak toplanmaz. X2'nin rutin olarak toplandığı varsayılmaktadır ancak vakaların yaklaşık% 40'ında eksiktir. X1 toplamaya başlamaya veya X2 toplamasını iyileştirmeye ya da her iki değişkeni düşürmeye karar vermek istiyoruz.

AIC'den değişkenlerin modele benzer bir gelişme gösterdiği sonucuna vardık. Tamamen yeni bir değişken (X1) toplamaya başlamaktansa, X2 koleksiyonunu geliştirmek muhtemelen daha kolaydır, bu nedenle X2 koleksiyonunu iyileştirmeyi amaçlıyoruz. Fakat c-istatistikten, X1 modeli geliştirir ve X2 bunu yapmaz, bu yüzden X2'yi unutmalı ve X1'i toplamaya başlamalıyız.

Önerimiz hangi istatistiklere odaklandığımıza bağlı olduğundan, ölçtükleri arasındaki farkı açıkça anlamamız gerekir.

Herhangi bir tavsiye edilir.

Yanıtlar:


25

AIC ve c istatistiği farklı soruları cevaplamaya çalışıyor. (Ayrıca c-istatistiği ile ilgili bazı sorunlar son yıllarda ortaya çıkmıştır, ancak bunu bir kenara bırakacağım)

Kabaca konuşma:

  • AIC, modelinizin belirli bir yanlış sınıflandırma maliyetine ne kadar iyi uyduğunu söylüyor .
  • AUC, modelinizin ortalama olarak tüm yanlış sınıflandırma maliyetlerinde ne kadar iyi çalışacağını söylüyor.

AIC'yi hesaplarken lojistiğinizi, 1'in (1'den 0 olması muhtemel 1'den daha büyük olasılıkla) 1 olacağını öngörerek tahmin etme 0.9 olarak kabul edersiniz. Lojistik puanınızı alabilir ve "0,95'in üzerindeki herhangi bir şey 1, aşağıdaki her şey 0" diyebilirsiniz. Neden bunu yaptın? Bu, gerçekten kendinden emin olduğunuzda yalnızca birini tahmin etmenizi sağlayacaktır. Yanlış pozitif oranın gerçekten çok düşük olacak, ama yanlış negatifin fırlayacak. Bazı durumlarda bu kötü bir şey değildir - eğer sahtekarlıkla suçlanacaksanız, muhtemelen ilk önce gerçekten emin olmak istersiniz. Ayrıca, olumlu sonuçları takip etmek çok pahalı ise, o zaman çok fazla almak istemezsiniz.

Bu nedenle maliyetlerle ilgilidir. Bir 1'i 0 olarak sınıflandırırken bir maliyet ve 0'ı 1 olarak sınıflandırdığınızda bir maliyet vardır. masraflı. Yani, lojistik regresyon, olumlu veya olumsuz tercihleri ​​olmadan, size en iyi toplam doğru tahmin sayısını verir.

ROC eğrisi, farklı maliyet gereklilikleri altında kullandığınızda sınıflandırıcının nasıl bir performans göstereceğini göstermek için gerçek pozitifi yanlış pozitifle karşılaştırdığı için kullanılır. C-istatistiği ortaya çıkar, çünkü kesinlikle bir diğerinin üzerinde yatan herhangi bir ROC eğrisi açıkça baskın bir sınıflandırıcıdır. Bu nedenle, eğri altındaki alanı sınıflandırıcının genel olarak ne kadar iyi olduğunu ölçmek için sezgiseldir.

Bu nedenle, temel olarak, modele uyurken maliyetlerinizi biliyorsanız, AIC (veya benzeri) kullanın. Eğer sadece bir puan oluşturuyorsanız, ancak tanı eşiğini belirtmiyorsanız, AUC yaklaşımlarına ihtiyaç duyulur (AUC'nin kendisi hakkında aşağıdaki ihtarla).

Peki, c-statistic / AUC / Gini'nin nesi var?

Uzun yıllar boyunca AUC standart bir yaklaşımdı ve hala yaygın olarak kullanılıyor, ancak bununla ilgili bir takım sorunlar var. Özellikle çekici kılan şeylerden biri, sınıflandırma saflarındaki bir Wilcox testine karşılık gelmesiydi. Bu, bir sınıfın rastgele seçilmiş bir üyesinin puanının, diğer sınıfın rastgele seçilmiş bir üyesinden daha yüksek olma ihtimalini ölçmüştür. Sorun şu ki, bu neredeyse hiçbir zaman faydalı bir ölçüm değildir.

AUC ile ilgili en kritik sorunlar, birkaç yıl önce David Hand tarafından duyuruldu. (Aşağıdaki referanslara bakın) Sorunun temel noktası, AUC'nin tüm maliyetler üzerinden ortalama yapmasına rağmen, ROC eğrisinin x ekseni Yanlış Pozitif Oran olduğu için, farklı maliyet rejimlerine atadığı ağırlık sınıflandırıcılar arasında değişir. Dolayısıyla, AUC'yi iki farklı mantıksal regresyonda hesaplarsanız, her iki durumda da "aynı şeyi" ölçmez. Bu, AUC'ye dayalı modelleri karşılaştırmanın çok az anlamlı olduğu anlamına gelir.

El, sabit bir maliyet ağırlıklandırma kullanarak alternatif bir hesaplama önerdi ve buna H-ölçümü dedi - R'de hmeasurebu hesaplamayı yapacak bir paket var ve karşılaştırma için AUC'ye inanıyorum.

AUC ile ilgili sorunlar hakkında bazı referanslar:

  • Alıcının çalışma karakteristik eğrisi altındaki alan ne zaman uygun bir sınıflandırma performansı ölçüsüdür? DJ Hand, C. Anagnostopoulos Örüntü Tanıma Harfleri 34 (2013) 492–495

    (Bunu özellikle erişilebilir ve kullanışlı bir açıklama olarak buldum)


2
Ve işte DJ Hand'in bir başka makalesi: Sınıflandırıcı performansının ölçülmesi: ROC eğrisinin altındaki alana uyumlu bir alternatif , Machine Learning (2009) 77: 103–123.
chl

Aradığım kişi buydu - evet, bu konudaki ilk yazıydı (sonuçta daha sonraki yazılardan biraz daha teknik bir kitleye yönelik olduğunu düşünüyorum).
Koron

3
AUC (C-index), maliyet / fayda hususları dışında, belirttiğiniz uyumluluk olasılığını ölçme avantajına sahiptir. Bana göre, sonuçta AUC, 2 modeli karşılaştırmak değil, bir modelin ayrımcılığını tanımlamak için kullanılmalıdır. Karşılaştırma için en güçlü ölçüyü kullanmamız gerekir: sapma ve sapmadan türetilenler: genelleştirilmiş ve AIC. R2
Frank Harrell

Corone'nin cevabı ile kafam karıştı, AIC'nin bir modelin tahmin performansı ile ilgisi olmadığını ve sadece model karmaşıklığı ile işlem gören verilerin olasılığının bir ölçüsü olduğunu düşündüm.
Zhubarb

@Berkan ne demek istediğinizi "prediktif performans ile ilgisi yok" derken neyi kastediyorsunuz? (Olasılık olasılığı arttıkça, bu veri noktalarını "o kadar iyi tahmin eder"). Mesele şu ki, AIC spesifik, önceden seçilmiş bir olabilirlik işlevi içindir, AIC ise bir dizi grubun ortalamasıdır. Olasılığını biliyorsanız (yani eşik, maliyetler, prevalans ...) AIC kullanabilirsiniz.
Corone

3

Alıntılanan El makalesinin, klinik teşhislerde gerçek dünya kullanımında bir temeli yoktur. 0.5 AUC ile teorik bir eğri var, bunun yerine mükemmel bir sınıflandırıcı. Modellerin elden fırlatılacağı, çok kötü olduklarından ve ölçümler etrafındaki güven aralıklarını (verilmemiş, ancak çıkarımlar) hesaplamanın rastlantısal olma ihtimalinin yüksek olduğu tek bir gerçek dünya veri seti kullanıyor. . Gerçek dünyadaki (ya da akla yatkın simülasyon) veri eksikliği göz önüne alındığında, bu boş bir bildiridir. Şahsen binlerce hasta arasında binlerce sınıflandırıcının analizine katıldım (yeterli derecede serbest). Bu bağlamda, argümanları duygusal değildir.

Ayrıca üst düzeylere eğilimlidir (herhangi bir bağlamda iyi bir işaret değil) ve desteklenmeyen genellemeler yapar, örneğin maliyetler bilinemez. Tıpta, tarama testleri için% 10 pozitif prediktif değer ve terapötik müdahaleler için kalite ayarlı yaşam yılı başına 100.000 ABD doları gibi kabul edilen maliyetler vardır. Kredi puanlamada maliyetlerin iyi bir şekilde anlaşılmadığına inanmayı zor buluyorum. Eğer açıkça belirsizce farklı bireysel yanlış pozitiflerin ve yanlış negatiflerin farklı maliyetler taşıdığını söylüyorsa, bu çok ilginç bir konudur, buna benzemez ikili sınıflandırıcılar.

Eğer onun amacı ROC şekli önemliyse, o zaman sofistike kullanıcılar için, bu bariz ve sofistike olmayan kullanıcılar için, örneğin pozitif ve negatif prediktif değerlere yaygınlık dahil etmek konusunda endişelenecek çok şey var.

Son olarak, farklı sınıflandırıcıların modellerin klinik (veya finansal) kullanımıyla belirlenen çeşitli, gerçek dünyadaki kesintilere dayanarak nasıl yargılanamadığını anlama konusunda bir kaygı duymuyorum. Açıkçası, her model için farklı kesimler seçilecektir. Modeller yalnızca AUC’lere dayanarak kıyaslanmayacaktır. Sınıflandırıcılar önemli değil, eğrinin şekli önemlidir.


-1

Benim için, sonuçta, C-istatistiği (AUC), farklı bağımsız değişkenlere sahip modeller (Ellerin "sınıflandırıcı" olarak ne anlama geldiğine benzer) ile karşılaştırırken sorunlu olabilirken, diğer uygulamalarda hala yararlıdır. Örneğin, aynı modelin farklı çalışma popülasyonları arasında karşılaştırıldığı doğrulama çalışmaları (veri setleri). Bir model veya risk endeksi / skorunun bir popülasyonda yüksek derecede ayırt edici olduğu, ancak diğerlerinde olmadığı gösteriliyorsa, bunun genel olarak çok iyi bir araç olmadığını, ancak belirli durumlarda olabileceğini gösterir.


3
C-endeksi genel olarak farklı modelleri karşılaştırmak için kullanılamayacak kadar duyarsızdır. Genel olarak de dahil olmak üzere genelleştirilmiş veya diğer sapma temelli önlemleri kullanırdım. Ve AIC'nin sınıflandırma / kesim noktaları ile ilgili olmadığını unutmayın . R2
Frank Harrell
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.