Bir sınıflandırma probleminin çözümü için tipik bir yaklaşım, bir aday model sınıfını tanımlamak ve daha sonra çapraz doğrulama gibi bir prosedür kullanarak model seçimi yapmaktır. Tipik olarak, en yüksek doğruluktaki modeli veya gibi soruna özgü bilgileri kodlayan ilgili bir işlevi seçer .
Nihai hedefin, doğru bir sınıflandırıcı (doğruluk tanımının tekrar olduğu, probleme bağlı olduğu) olduğunu varsayarsak, hangi durumlarda doğruluk, kesinlik, hatırlama gibi uygun olmayan bir puanlama kuralını kullanarak model seçimini yapmak daha iyidir , vb? Dahası, model karmaşıklığı konularını göz ardı edelim ve tüm modelleri eşit derecede olası gördüğümüz bir a priori varsayalım.
Daha önce asla söylemezdim. Biçimsel olarak sınıflamanın regresyondan [1], [2] daha kolay bir sorun olduğunu biliyoruz ve birincisi için öncekinden ( ) daha sıkı sınırlar elde edebiliriz . Ayrıca, olasılıkları doğru bir şekilde eşleştirmeye çalışırken yanlış karar sınırlarına veya fazla sığmaya neden olabilir . Ancak, konuşma dayalı burada ve bu tür meselelere dikkat topluluğun oylama desen, ben bu görüşü sorguluyorum.
- Devroye, Luc. Olasılıksal örüntü tanıma teorisi. Vol. 31. springer, 1996., Bölüm 6.7
- Kearns, Michael J. ve Robert E. Schapire. Olasılıksal kavramların etkin dağıtımsız öğrenimi. Bilgisayar Biliminin Temelleri, 1990. Bildiriler., 31. Yıllık Sempozyumu. IEEE, 1990.
Bu ifade biraz özensiz olabilir. Özellikle formu verilen etiketli verileri ortalama ile ve , bir karar sınırını tahmin etmek koşullu olasılıkları doğru bir şekilde tahmin etmekten daha kolay görünmektedir.