Neden Bayes sınıflandırıcısı ile elde edilebilecek en iyi performansı elde ediyoruz? Bunun resmi kanıtı / açıklaması nedir?
Genellikle, bir veri kümesi D oluşur düşünülmektedir n IID örnekleri xben veri üreten bir dağılım. Daha sonra, belirli bir veri, bir tahmin modelini oluşturmak: örnek verilen xben , sınıf tahmin f ( x i ) numunenin gerçek sınıf ise f ( x i ) .f^( xben)f( xben)
Ancak, teorik olarak, bir belirli model seçmek için değil karar verebilir f seçilmiş değil, düşünün tüm olası modeller f defada ve bir içine nasılsa bunları birleştirmek büyük modeli F .f^kendilerine verilecekf^F^
Tabii ki, veri verilmiş, birçok küçük MODELLS oldukça imkansız veya uygunsuz olabilir (örneğin, hedefin birden değerler veri kümesi içinde bulunmasına rağmen, hedefin yalnızca bir değer tahmin modelleri D ).
Her durumda, xben s ile aynı dağılımdan alınan yeni örneklerin hedef değerini tahmin etmek istersiniz . İyi bir ölçü e modeline performansı olacaktır
e ( model ) = P[ f( X) = model ( X) ] ,
örneğin, bir rastgele örneklenmiş için de geçerlidir hedef değeri tahmin olasılığı X .
Bayes formülünü kullanarak, D verisi verildiğinde, yeni bir x örneğinin v hedef değerine sahip olma olasılığının ne olduğunu hesaplayabilirsiniz :D
P( v ∣ D ) = ∑f^P( v ∣ f^) P( f^∣ D ) .
Kişi bunu vurgulamalı
- Genellikle P( v ∣ f^) ya olduğu 0 ya da 1 , çünkü ön bir belirleyici fonksiyonu olan x ,f^x
- Genellikle, ancak hemen hemen tüm bu tahmin etmek imkansız zamandır P(f^∣D) (yukarıda bahsedilen önemsiz durumlar hariç),
- f^
P(v∣D)
xv^=argmaxv∑f^P(v∣f^)P(f^∣D).
ve(f^)
Her zaman Bayes sınıflandırıcısını diğer tüm sınıflandırıcıların performansını karşılaştırmak için bir referans olarak kullandığımızdan.
P(v∣D)