Uygun bir puanlama kuralı ne zaman bir sınıflandırma ortamında genellemenin daha iyi bir tahminidir?


9

Bir sınıflandırma probleminin çözümü için tipik bir yaklaşım, bir aday model sınıfını tanımlamak ve daha sonra çapraz doğrulama gibi bir prosedür kullanarak model seçimi yapmaktır. Tipik olarak, en yüksek doğruluktaki modeli veya gibi soruna özgü bilgileri kodlayan ilgili bir işlevi seçer .Fβ

Nihai hedefin, doğru bir sınıflandırıcı (doğruluk tanımının tekrar olduğu, probleme bağlı olduğu) olduğunu varsayarsak, hangi durumlarda doğruluk, kesinlik, hatırlama gibi uygun olmayan bir puanlama kuralını kullanarak model seçimini yapmak daha iyidir , vb? Dahası, model karmaşıklığı konularını göz ardı edelim ve tüm modelleri eşit derecede olası gördüğümüz bir a priori varsayalım.

Daha önce asla söylemezdim. Biçimsel olarak sınıflamanın regresyondan [1], [2] daha kolay bir sorun olduğunu biliyoruz ve birincisi için öncekinden ( ) daha sıkı sınırlar elde edebiliriz . Ayrıca, olasılıkları doğru bir şekilde eşleştirmeye çalışırken yanlış karar sınırlarına veya fazla sığmaya neden olabilir . Ancak, konuşma dayalı burada ve bu tür meselelere dikkat topluluğun oylama desen, ben bu görüşü sorguluyorum.

  1. Devroye, Luc. Olasılıksal örüntü tanıma teorisi. Vol. 31. springer, 1996., Bölüm 6.7
  2. Kearns, Michael J. ve Robert E. Schapire. Olasılıksal kavramların etkin dağıtımsız öğrenimi. Bilgisayar Biliminin Temelleri, 1990. Bildiriler., 31. Yıllık Sempozyumu. IEEE, 1990.

() Bu ifade biraz özensiz olabilir. Özellikle formu verilen etiketli verileri ortalama ile ve , bir karar sınırını tahmin etmek koşullu olasılıkları doğru bir şekilde tahmin etmekten daha kolay görünmektedir.S={(x1,y1),,(xn,yn)}xiXyi{1,,K}

Yanıtlar:


4

Bunu -test / Wilcoxon testi ile Mood medyan testi arasında bir karşılaştırma olarak düşünün . Medyan testi , numunedeki bilgilerin sadece değerini kaybetmesi için optimum sınıflandırmayı (sürekli değişken için medyanın üstünde veya altında) kullanır . Medyandan farklı bir noktada ikiye ayrılma çok daha fazla bilgi kaybedecektir. "Doğru" olarak sınıflandırılan oran gibi uygunsuz bir puanlama kuralı kullanmak en fazla veya yaklaşık verimlidir. Bu, yanlış özelliklerin seçilmesine ve sahte bir modelin bulunmasına neden olur.t1π2π23


Sanırım ikilemleşmenin neden önemli olduğunu anlamıyorum. Sonuçta amacı bir sınıflandırıcı almak için bir bazı varsayım sınıftan , öyle ki az, sonlu bir örnek verilmiştir örneklerinden oluşan göre dağıtılmış . h'HP(x,y)~D(h(x)y)SD
alto

2
Sorun şu ki, sınıflandırma (risk tahmininin aksine) gereksiz bir ikiye ayrılmadır.
Frank Harrell

Bu nedenle, Bayes'in bazı fayda fonksiyonlarıyla ilgili olarak optimum karar verme ve olasılıkları tam olarak eşleştirmemesi şartıyla, bu sorunun cevabının asla olmadığını varsaymak güvenli midir?
alto

Bayes optimum kararı iyi kalibre edilmiş öngörülen riskler gerektirir, böylece ikisi birbiriyle bağlantılıdır. Optimum karar, daha önce boru hattında yapılan bir ikilemleştirmeyi değil, tam bilgi koşullarını, örneğin,PrÖb(Y=1|X=x) değil PrÖb(Y=1|X>c).
Frank Harrell

1
Güzel tartışma. Bazı spam dedektörleri gibi bazı durumlarda, 'belirsiz' olabilirsiniz. Tıbbi tanı ve prognoz gibi problemlerde eşikle daha fazla ilgileniyorum.
Frank Harrell
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.