Arka plan: Ian Goodfellow ve Yoshua Bengio ve Aaron Courville'in Deep Learning'in 6. bölümünü inceliyorum. Bölüm 6.2.2.2 olarak (sayfa 183 182 buradan görülebilir ) çıkışı sigmoid kullanımı harekete geçirilir.
Malzemenin bazılarını özetlemek için, etkinleştirme uygulanmadan önce bir çıkış nöronu olmasını sağlarlar; burada , önceki gizli katmanın çıktısıdır, , ağırlıkların bir vektörü ve , skaler bir sapmadır. Giriş vektörü ( bir fonksiyonu olduğu) ve çıkış değeri burada sigmoid fonksiyonudur. Kitap , değerini kullanarak üzerinde bir olasılık dağılımı tanımlamak istemektedir . Sayfa 183'ün ikinci paragrafından:
Şu an için bağımlılığını, değerini kullanarak üzerinde bir olasılık dağılımının nasıl tanımlanacağını tartışıyoruz . Sigmoid, 1'e eşit olmayan normal olmayan bir olasılık dağılımı inşa edilerek motive edilebilir. Daha sonra geçerli bir olasılık dağılımı elde etmek için uygun bir sabitle bölebiliriz. Normalleştirilmemiş log olasılıklarının ve cinsinden doğrusal olduğu varsayımıyla başlarsak , normalleştirilmemiş olasılıkları elde etmek için üs alabiliriz. Daha sonra bunun, z'nin sigmoidal bir dönüşümüyle kontrol edilen bir Bernoulli dağılımı sağladığını görmek için normalize ederiz:
Sorular: İki şey hakkında kafam karıştı, özellikle de ilk:
- İlk varsayım nereden geliyor? Normalleştirilmemiş log olasılığı ve neden doğrusal ? Birisi bana yazarların ile nasıl başladıkları hakkında bir başlangıç yapabilir mi?z günlüğü ˜ P ( y ) = y z
- Son satır nasıl takip ediyor?