Uç durumlarda hassaslık ve geri çağırma için doğru değerler nelerdir?


20

Hassasiyet şu şekilde tanımlanır:

p = true positives / (true positives + false positives)

Gibi, bu doğru mu true positivesve false positiveshassas 1 yaklaşır yaklaşım 0?

Hatırlama için aynı soru:

r = true positives / (true positives + false negatives)

Şu anda bu değerleri hesaplamam gereken bir istatistiksel test uyguluyorum ve bazen payda 0 oluyor ve bu durum için hangi değerin geri döneceğini merak ediyorum.

PS: Ben kullanmak istedi, uygunsuz etiketi dilerim recall, precisionve limit, ama henüz yeni Etiketler oluşturamazsınız.

precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

Limit etiketine ihtiyacımız olduğunu sanmıyorum.

Muhtemelen bazı teşhis prosedürlerinin performansını ölçmeye çalışıyorsunuz; d ', A' veya ROC eğrisinin altındaki alan gibi uygun bir sinyal algılama teorisi metriği kullanmamanızın bir nedeni var mı?
Mike Lawrence

3
@Mike, kesinlik ve geri çağırma, örneğin çok sayıda yanlış pozitif beklediğiniz için, örneğin ROC'nin veya özellikle özgüllüğün kullanıldığı yerlerde bilgi almada yaygın değerlendirme metrikleridir.
user979

Yanıtlar:


17

Bir karışıklık matrisi verildiğinde:

            predicted
            (+)   (-)
            ---------
       (+) | TP | FN |
actual      ---------
       (-) | FP | TN |
            ---------

Biz biliyoruz ki:

Precision = TP / (TP + FP)
Recall = TP / (TP + FN)

Paydanın sıfır olduğu durumları ele alalım:

  • TP + FN = 0: giriş verilerinde pozitif vaka olmadığı anlamına gelir
  • TP + FP = 0: tüm örneklerin negatif olarak tahmin edildiği anlamına gelir

9
Cevabınızı genişletme: TP = 0 ise (her iki durumda da olduğu gibi), geri çağırma 1'dir, çünkü yöntem, hiçbiri gerçek pozitiflerin tümünü keşfetmedi; Herhangi bir FP ve 1 varsa hassasiyet 0'dır.

11

Cevap Evet. Tanımlanmamış kenar vakaları, gerçek P pozitif değerlerin (TP) 0 olması durumunda oluşur, çünkü bu hem P&R paydasındadır. Bu durumda,

  • TP'nin% 100'ü keşfedildiğinden FN = 0 olduğunda hatırlama = 1
  • Kesinlik = FP = 0 olduğunda 1, çünkü hayır sahte sonuç yoktu

Bu @ mbq'nin yorumunun yeniden yapılandırılmasıdır.


3

Farklı terminolojiye aşinayım. Hassasiyet dediğin pozitif tahmin değeri (PPV) olurdu. Ve hatırlama dediğiniz şeye duyarlılık (Sens) derim. :

http://en.wikipedia.org/wiki/Receiver_operating_characteristic

Duyarlılık durumunda (hatırlama), payda sıfırsa (Amro'nun işaret ettiği gibi), pozitif durumlar yoktur, bu nedenle sınıflandırma anlamsızdır. (Bu TP veya FN'nin sıfır olmasını engellemez, bu da 1 veya 0 sınırlama hassasiyetine neden olur. Bu noktalar sırasıyla ROC eğrisinin sağ üst ve alt sol köşelerinde bulunur - TPR = 1 ve TPR = 0. )

PPV sınırı anlamlı. Test kesmesinin çok yüksek (veya düşük) olarak ayarlanması mümkündür, böylece tüm durumlar negatif olarak tahmin edilir. Bu ROC eğrisinin kökenindedir. Kesme başlangıç ​​noktasına ulaşmadan hemen önce PPV'nin sınırlayıcı değeri, başlangıç ​​noktasından hemen önce ROC eğrisinin son segmenti dikkate alınarak tahmin edilebilir. (ROC eğrileri çok gürültülü olduğu için modellemek daha iyi olabilir.)

Örneğin, 100 gerçek pozitif ve 100 gerçek negatif varsa ve ROC eğrisinin nihai seçimi TPR = 0.08, FPR = 0.02'ye yaklaşırsa, sınırlayıcı PPV PPR ~ 0.08 * 100 / (0.08 * 100 + 0.02 * 100) olacaktır. ) = 8/10 = 0.8 yani% 80 gerçek pozitif olma olasılığı.

Uygulamada her numune ROC eğrisindeki bir segment ile temsil edilir - gerçek bir negatif için yatay ve gerçek bir pozitif için dikey. Sınırlayıcı PPV'yi başlangıç ​​noktasından önceki son segmente göre tahmin edebiliriz, ancak bu, son örneğin gerçek bir pozitif, yanlış pozitif (gerçek negatif) veya eşit bir TP ve FP. Belki de verilerin binormal olduğunu varsayarak bir modelleme yaklaşımı daha iyi olurdu - ortak bir varsayım, örneğin: http://mdm.sagepub.com/content/8/3/197.short


1

Bu, "yaklaşım 0" ile ne demek istediğinize bağlı olacaktır. Yanlış pozitifler ve yanlış negatiflerin her ikisi de sıfıra gerçek pozitiflerden daha hızlı bir şekilde yaklaşırsa, her iki soruya da evet. Ama aksi halde, zorunlu olarak değil.


Gerçekten oranı bilmiyorum. Dürüst olmak gerekirse, tüm bildiğim programım sıfıra bölünerek çöktü ve bu durumu bir şekilde ele almam gerekiyor.
Björn Pollex
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.