Yanıtlar:
Diğer cevaplar doğru bir şekilde belirtildiği gibi, lojistik regresyon ve naif Bayes gibi modellerden bildirilen olasılıklar, sınıf olasılığının tahminleridir. Model doğru olsaydı, olasılık gerçekten doğru bir sınıflandırma olasılığı olurdu.
Bununla birlikte, modelin tahmin edildiği ve dolayısıyla doğru bir model olmadığı için bunun yanıltıcı olabileceğini anlamak oldukça önemlidir. En az üç sorun var.
Belirsizlik olasılığı sadece bir tahmin olduğunu sadece her yerde mevcut gerçektir. Tahmini sınıf olasılığının güven aralığı, belirsizlik (sınıflandırma değil sınıf olasılığı) hakkında bir fikir verebilir.
Eğer modeli yanlıştır ve o yüz, öyle sınıf olasılıkları oldukça sınıf tahminler iyi olsa bile yanıltıcı olabilir. Bazı veri noktaları biraz aşırı ise, lojistik regresyon oldukça iyi ayrılmış iki sınıf için sınıf olasılıklarını yanlış yapabilir. Sınıflandırma açısından hala iyi bir iş çıkarabilir.
Tahmin prosedürü (kasıtlı olarak) önyargılı bir tahmin sağlıyorsa , sınıf olasılıkları yanlıştır. Bu, lojistik regresyon için kement ve sırt gibi düzenlileştirme yöntemleriyle gördüğüm bir şey. Düzenlemenin çapraz doğrulanmış bir seçimi, sınıflandırma açısından iyi performans gösteren bir modele yol açarken, sonuçta ortaya çıkan sınıf olasılıkları, test senaryolarında açıkça göz ardı edilmektedir (0,5'e çok yakın). Bu mutlaka kötü değil, farkında olmak önemlidir.
Bir test durumu (belirli girdi) için, sınıfı (ikili çıktı için etiket 1'i diyelim) öngörme olasılığı , test örneğinin bu sınıfa ait olma şansıdır. Bu gibi birçok test vakasında, sınıf 1'e ait olan oran öngörme olasılığına eğilim gösterecektir. Güven , oldukça farklı bir şey olan güven aralıklarının çağrışımlarına sahiptir.
Bir sınıflandırıcı belirli bir sınıfı olasılıkla tahmin ederse, bu sayı o sınıflandırmaya olan güven derecesi için bir vekil olarak kullanılabilir. Güven aralıkları ile karıştırılmamalıdır. Örneğin P sınıflandırıcısı iki vakayı% 80 ve% 60 olasılıkla +1 ve -1 olarak öngörüyorsa, +1 sınıflandırmasından -1 sınıflandırmasından daha emin olduğunu söylemek doğrudur. P (1-p) ile ölçüldüğü gibi varyans da iyi bir belirsizlik ölçüsüdür. Temel güven,% 0 değil,% 50'dir.
2 sınıflı bir sınıflandırıcı göz önüne alındığında (örneğin, 2 sınıf doğrusal bir diskriminant veya lojistik regresyon sınıflandırıcı) her iki sınıf için de diskriminant değeri, o sınıf için posterior olasılık tahmini vermek üzere bir softmax fonksiyonuna uygulanabilir:
P1 = exp (d1) / (exp (d1) + exp (d2))
P1'in sınıf 1 için arka olasılık tahmini olduğu durumlarda, d1 ve d2 sırasıyla sınıf 1 ve 2 için ayırt edici değerlerdir. Bu durumda, belirli bir sınıf için tahmini posterior olasılık sınıfta bir güven derecesi olarak alınabilir, belirli bir vaka için P1 1 - P2'ye eşit olacaktır.