Lojistik regresyonun öngörülen olasılığı, sınıflandırmaya duyulan güven olarak yorumlanabilir mi?


12

Öngörülen bir sınıf değeri ve bir olasılık (örneğin, lojistik regresyon veya Naive Bayes) veren bir sınıflandırıcıdan elde edilen arka olasılığı, bu öngörülen sınıf değerine atanan bir tür güven puanı olarak yorumlayabilir miyiz?

Yanıtlar:


8

Diğer cevaplar doğru bir şekilde belirtildiği gibi, lojistik regresyon ve naif Bayes gibi modellerden bildirilen olasılıklar, sınıf olasılığının tahminleridir. Model doğru olsaydı, olasılık gerçekten doğru bir sınıflandırma olasılığı olurdu.

Bununla birlikte, modelin tahmin edildiği ve dolayısıyla doğru bir model olmadığı için bunun yanıltıcı olabileceğini anlamak oldukça önemlidir. En az üç sorun var.

  • Tahminlerin belirsizliği.
  • Model yanlış tanımlaması.
  • Önyargı.

Belirsizlik olasılığı sadece bir tahmin olduğunu sadece her yerde mevcut gerçektir. Tahmini sınıf olasılığının güven aralığı, belirsizlik (sınıflandırma değil sınıf olasılığı) hakkında bir fikir verebilir.

Eğer modeli yanlıştır ve o yüz, öyle sınıf olasılıkları oldukça sınıf tahminler iyi olsa bile yanıltıcı olabilir. Bazı veri noktaları biraz aşırı ise, lojistik regresyon oldukça iyi ayrılmış iki sınıf için sınıf olasılıklarını yanlış yapabilir. Sınıflandırma açısından hala iyi bir iş çıkarabilir.

Tahmin prosedürü (kasıtlı olarak) önyargılı bir tahmin sağlıyorsa , sınıf olasılıkları yanlıştır. Bu, lojistik regresyon için kement ve sırt gibi düzenlileştirme yöntemleriyle gördüğüm bir şey. Düzenlemenin çapraz doğrulanmış bir seçimi, sınıflandırma açısından iyi performans gösteren bir modele yol açarken, sonuçta ortaya çıkan sınıf olasılıkları, test senaryolarında açıkça göz ardı edilmektedir (0,5'e çok yakın). Bu mutlaka kötü değil, farkında olmak önemlidir.


2

Bir test durumu (belirli girdi) için, sınıfı (ikili çıktı için etiket 1'i diyelim) öngörme olasılığı , test örneğinin bu sınıfa ait olma şansıdır. Bu gibi birçok test vakasında, sınıf 1'e ait olan oran öngörme olasılığına eğilim gösterecektir. Güven , oldukça farklı bir şey olan güven aralıklarının çağrışımlarına sahiptir.


1

Bir sınıflandırıcı belirli bir sınıfı olasılıkla tahmin ederse, bu sayı o sınıflandırmaya olan güven derecesi için bir vekil olarak kullanılabilir. Güven aralıkları ile karıştırılmamalıdır. Örneğin P sınıflandırıcısı iki vakayı% 80 ve% 60 olasılıkla +1 ve -1 olarak öngörüyorsa, +1 sınıflandırmasından -1 sınıflandırmasından daha emin olduğunu söylemek doğrudur. P (1-p) ile ölçüldüğü gibi varyans da iyi bir belirsizlik ölçüsüdür. Temel güven,% 0 değil,% 50'dir.


1

2 sınıflı bir sınıflandırıcı göz önüne alındığında (örneğin, 2 sınıf doğrusal bir diskriminant veya lojistik regresyon sınıflandırıcı) her iki sınıf için de diskriminant değeri, o sınıf için posterior olasılık tahmini vermek üzere bir softmax fonksiyonuna uygulanabilir:

P1 = exp (d1) / (exp (d1) + exp (d2))

P1'in sınıf 1 için arka olasılık tahmini olduğu durumlarda, d1 ve d2 sırasıyla sınıf 1 ve 2 için ayırt edici değerlerdir. Bu durumda, belirli bir sınıf için tahmini posterior olasılık sınıfta bir güven derecesi olarak alınabilir, belirli bir vaka için P1 1 - P2'ye eşit olacaktır.


1
Bu cevabın "olasılık" ı "güven" ile eşitlediği görülürken, @ Yoda'nın cevabı (doğru) ikisini ayırır.
whuber

@whuber Bence genel anlamda güven inancın gücü olarak görülebilir. Bu şekilde bir olasılık gibidir. Güven ve güven aralığı iki farklı şeydir. Ancak, güven aralığı terimi için bile, güven seviyesi rastgele aralık için bir kapsama olasılığıdır.
Michael R.Chernick

"Güven puanı" gibi bir terimin hemen hemen her şey anlamına gelebileceği anlamında, @Michael, sözlerinize katılmıyorum (ama belki de tam olarak bu nedenle kullanımdan kaldırılmalıdır). Peki lojistik regresyona uygun değer ne anlamda bir “kapsam olasılığı” dır? İnanç gücü olarak "güven" i önerdiğiniz, onu öznel "olasılık" ile eşanlamlı hale getiriyor mu yoksa hala bir ayrım var mı? (Eğer öyleyse, ne?)
whuber

1
@whuber Bence bu benim sözüm ile düşündüğümden çok daha derine iniyorsunuz. Sadece "güven" kelimesini yaygın olarak güven aralığına bağladığımız için, bu OPs terimi güven puanının bir olasılık anlamına gelemeyeceği anlamına gelmediğini (belki Bayes olasılığını öznel bir seviye olarak görmek gibi) anlamına gelmez. ancak bu zorunlu değildir).
Michael R.Chernick

1
@whuber, gerçekten de 'inanç gücü' anlamında sınıf etiketine olan güveni kastediyordum, yani belirli bir sınıf için posterior olasılık değeri ne kadar büyük olursa, öngörülen sınıf etiketine o kadar güven duyuyorsunuz. Ancak bu yanıtı kaldırmaktan mutluluk duyuyorum.
BGreene
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.