Sınıflayıcılar gibi makine öğrenme algoritmaları , giriş kategorisini farklı kategorilere ait olan giriş olasılıklarını belirleyerek istatistiksel olarak modellemektedir . İsteğe bağlı sayıda sınıf için normal olarak modele softmax katmanı eklenir, böylece çıktılar tasarıma göre olasılık özelliklerine sahip olur:
y⃗ = softmax ( a)⃗ ) ≡ 1Σbene- aben× [ e- a1, e- a2, . . . , e- an]
0 ≤ yben≤ 1 tüm i için
y1+ y2+ . . . + yn= 1
bir
Bu, iki sınıf için mükemmel bir şekilde geçerlidir, ancak, çıktısı yerine getirdiği takdirde biri de bir nöron (iki yerine) kullanabilir:
0 ≤ y Tüm girişler için ≤ 1 .
Bu, hangi haritaların dönüştürüldüğü (geri yayılma amaçları için farklılaştırılabilir / pürüzsüz) uygulandığında sağlanabilir.
bir için
yöyle ki yukarıdaki koşul yerine getirilir. Sigmoid işlevi kriterlerimize uyuyor. Basit bir matematiksel temsilden başka, özel bir şey yok.
sigmoid ( a ) ≡ σ( a ) ≡ 11 + e- a
kullanışlı matematiksel özellikler (farklılaşma, 0 ile 1 arasında sınırlandırılmış vb.), hesaplama verimliliği ve güncelleme ağının ağırlığının güncellenmesi için doğru eğime sahip olması, optimizasyon amacıyla çıktıda küçük ama ölçülebilir bir değişikliğe sahip olmasını sağlar.
Sonuç
@ İtdxer'in softmax ve sigmoid gösteren mantığının geçerli olması durumunda eşdeğer olup olmadığından emin değilim, ancak daha az parametre ve hesaplama gerektiğinden , ikili sınıflandırıcılar için 2 nöronun aksine 1 nöron seçmek konusunda haklı . Ayrıca, "gereksiz" olduğu için ikili bir sınıflandırıcı için iki nöron kullandığım için eleştirildim.