9
Neden standart normalleştirmenin aksine softmax kullanılır?
Bir sinir ağının çıkış katmanında, bir olasılık dağılımına yaklaşmak için softmax işlevinin kullanılması tipiktir: Bu, üsler nedeniyle hesaplanması pahalıdır. Neden tüm çıkışların pozitif olması için bir Z dönüşümü yapmıyorsunuz ve sonra tüm çıkışları tüm çıkışların toplamına bölerek normalleştiriyorsunuz?