Nesnel işlev ile çıktı katmanı etkinleştirme işlevi arasındaki bağlantı ne kadar esnektir?


10

Çıktı katmanındaki aktivasyon fonksiyonu ile en aza indirilecek objektif fonksiyonu eşleştirmek birçok sinir ağı paketinde standart görünmektedir.

Örneğin, regresyon için kullanılan doğrusal bir çıktı katmanı için, kare şeklinde bir hata objektif fonksiyonuna sahip olmak standarttır (ve genellikle sadece seçimdir). Bir diğer olağan eşleşme, lojistik çıktı ve log kaybı (veya çapraz entropi). Ve yine bir diğeri softmax ve çoklu log kaybı.

Notasyonu kullanarak, z etkinleştirme öncesi değeri için (önceki katmanda gerçekleştirilen etkinliğin ağırlık çarpımlarının toplamı), bir aktivasyon için, y eğitim için kullanılan temel hakikat için, ben çıkış nöron indeksi için.

  • Doğrusal aktivasyon birben=zben kare hata ile gider 12Σben(yben-birben)2

  • Sigmoid aktivasyonu birben=11+e-zben mantık / çapraz entropi hedefi ile gider -Σben(yben*lÖg(birben)+(1-yben)*lÖg(1-birben))

  • Softmax aktivasyonu birben=ezbenΣjezj çok sınıflı mantık hedefi ile gider -Σben(yben*lÖg(birben))

Bunlar bildiğim şeyler ve umarım hala duymadığım birçok şey var.

Günlük kaybı yalnızca çıktı ve hedefler aralıkta olduğunda işe yarayacak ve sayısal olarak kararlı olacak gibi görünmektedir [0,1]. Bu nedenle, bir lojik objektif fonksiyonu ile doğrusal çıktı katmanını denemek mantıklı olmayabilir. Değerleri ile başa çıkabilen daha genel bir lojik fonksiyon olmadığı sürecey aralığın dışında kalanlar?

Bununla birlikte, sigmoid çıktıyı kare şeklinde bir hata hedefi ile denemek o kadar da kötü görünmüyor. Kararlı olmalı ve en azından birleşmelidir.

Bu eşleşmelerin arkasındaki bazı tasarımların, δEδz - nerede Enesnel fonksiyonun değeridir - geri yayılım için kolaydır. Fakat yine de bu türevi diğer eşleşmeleri kullanarak bulmak mümkün olmalıdır. Ayrıca, çıktı katmanlarında yaygın olarak görülmeyen, ancak tanhhangi objektif fonksiyonun uygulanabileceği açık olmayan ve mümkün olan başka aktivasyon fonksiyonları da vardır .

Bir sinir ağının mimarisini tasarlarken, "standart dışı" çıkış aktivasyonu ve objektif fonksiyon çiftlerini kullanmanız veya kullanmanız gereken durumlar var mı?

Yanıtlar:


4

Hangi aktivasyon fonksiyonunu kullandığınız o kadar çok değil, hangi kayıp fonksiyonunu kullanmanız gerektiğini değil, daha çok çıktıdaki yorumunuzun ne olduğunu belirler.

Çıktının bir olasılık olması gerekiyorsa, o zaman log-kayıp gidilecek yoldur.

Çıktı genel bir değerse, ortalama kare hatası varsayılan yoludur. Örneğin, çıktınız gri ölçeği 0 ile 1 arasında bir sayı ile etiketlenmiş gri ölçekli bir pikselse, ortalama bir kare hata objektif işlevine sahip bir sigmoid aktivasyon işlevi kullanmak mantıklı olabilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.