Çapraz entropi kaybını şöyle ifade ederim :
L (X, Y) = - 1nΣi = 1ny( i )lna ( x( i )) + ( 1 - y( i )) ln( 1 - a ( x( i )) )
Burada, eğitim veri kümesindeki girdi örnekleri kümesidir ve Y = { y ( 1 ) , … , y ( n ) } karşılık gelen etiket kümesidir bu girdi örnekleri için. Bir ( x ) sinir ağı verilen giriş çıkışını gösterir x .X= { x( 1 ), … , X( n )}Y= { y( 1 ), … , Y( n )}a ( x )x
Her ya da 0 ya da 1 'dir, ve aktivasyon çıkış bir ( x ) genellikle kullanılarak, açık aralığı (0, 1) ile sınırlandırılmıştır lojistik sigmoid . Örneğin, tek katmanlı bir ağ için (lojistik regresyona eşdeğerdir), etkinleştirme bir ( x ) = 1 ile verilir.y( i )a ( x ) buradaWbir ağırlık matrisidir vebbir sapma vektörüdür. Birden çok katman için etkinleştirme işlevini(x)=1gibibirşeye genişletebilirsiniz.
a ( x ) = 11 + e- Wx - b
Wb burada
Vve
c, birinci katman için ağırlık matrisi ve sapmasıdır ve
z(x), ağdaki gizli katmanın etkinleştirilmesidir.
a ( x ) = 11 + e- Wz( x ) - bz( x ) = 11 + e- Vx - c
Vcz( x )
Andrew i'nin makine öğrenimi kursunda oldukça etkili olduğunu düşündüğüm için (i) üst simge kullandım; bazen insanlar örnekleri bir matristeki sütunlar veya satırlar olarak ifade ederler, ancak fikir aynı kalır.