( ) 0 olması sorun değil mi?yilog(yi)
Evet, çünkü tanımsızdır, fakat kullanmaktan kaçınılmalıdır .log(0)log(yi+ϵ)
Ne doğru?
(a) veya
(b) ?Hy′(y):=−∑iy′ilog(yi)
Hy′(y):=−∑i(y′ilog(yi)+(1−y′i)log(1−yi))
(a) çok sınıflı tahmin için doğrudur (gerçekte çift toplamdır), (b) iki sınıflı tahmin için (a) ile aynıdır. Her ikisi de çapraz entropidir.
Örnek:
Her eğitim verileri varsayalım etiketi vardır ve model tahmin .xic′i∈{0,1}ci∈[0,1]
5 veri noktası için, gerçek etiketi ve model tahmini : c′ici
(c′i,ci)={(0,0.1),(0,0.4),(0,0.8),(1,0.8),(1,0.2)} (1),
Vektörleri tanımlar ve olarak y′iyi
y′ik:=1 , ise ve , c′i=k:=0
yik:=p(k|xi) , model tarafından tahmin edilen sınıfına ait olasılığıdır .xik
Örnek (1) notasyonu dönüşür: (y′i,yi)
(y′i,yi)={([1,0],[0.9,0.1]), ([1,0],[0.6,0.4]), ([1,0],[0.2,0.8]), ([0,1],[0.2,0.8]), ([0,1],[0.8,0.2])} ,
(A) ve (b) nin her ikisi de şöyle hesaplanır:
Hy′(y)=−1/5([log(0.9)+log(0.6)+log(0.2)]ci=0+[log(0.8)+log(0.2)]ci=1)=0.352
derivasyon:
Birden sınıflar vardır varsayalım için .
Eğitim noktası için , , eşdeğerdir; ki bu, pozisyonunda 1 ve diğer yerlerde 0'dır. Ne zaman , biz modelin çıkış istediğiniz Dolayısıyla 1'e yakın olmak, kaybı olarak tanımlanabilir , . Tüm sınıflardaki kayıplar aşağıdaki gibi birleştirilebilir:1K
(xi,c′i)c′i=ky′i=[0,..,1,0,..]kthy′ik=1yik=p(k|xi)(xi,k)−log(yik)yik→1⇒−log(yik)→0
L(y′i,yi)=−∑Kk=1y′iklog(yik) .
Tüm , ve diğer tüm sınıfları kaybı olarak devre dışı , örneğin gerçek etiket yani , kayıp olur be:y′ik=1k′≠k0log(yik′)=0y′im=1
L(y′i,yi)=−log(yim) .
Tüm eğitim noktalarındaki son formül:
Hy′(y)=−∑(xi,y′i)∑Kk=1y′iklog(yik) .
İkili sınıflandırma için, (gerçek etiketler) var ve (model tahminleri), bu nedenle (a) şu şekilde yeniden yazılabilir:y′i0=1−y′i1yi0=1−yi1
Hy′(y)=−∑(xi,y′i)y′i1log(yi1)+y′i0log(yi0)=−∑(xi,y′i)y′i1log(yi1)+(1−y′i1)log(1−yi1)
(b) ile aynıdır.
Sınıflar arası çapraz entropi (a) (bir toplama)
Sınıflar arası çapraz entropi (a):
Hy′(y)=−∑Kk=1y′klog(yk) ,
Bu sürüm sınıflandırma görevi için kullanılamaz. Önceki örnekteki verileri tekrar kullanalım:
(c′i,ci)={(0,0.1),(0,0.4),(0,0.8),(1,0.8),(1,0.2)}
Ampirik sınıf olasılıkları: ve ,y′0=3/5=0.6y′1=0.4
Modele göre tahmin edilen sınıf olasılıkları: vey0=3/5=0.6y1=0.4
(a) şu şekilde hesaplanmaktadır: .−y′0logy0−y′1logy1=−0.6log(0.6)−0.4log(0.4)=0.292
İki veri noktası ve sınıflandırılmıştır ancak ve doğru tahmin edilmektedir!(0,0.8)(1,0.2)y′0y′1
5 noktanın tümü doğru olarak sınıflandırıldığında: ,
(c′i,ci)={(0,0.1),(0,0.4),(0,0.2),(1,0.8),(1,0.8)}
(a) yine aynı kalır, çünkü , olarak tekrar tahmin edilir .y′0y0=3/5