Partiye geç kalabilirim, ancak anlaşılması gereken bazı şeyler var.
g(x)∂C∂zCz
C(y,g(z))=12(y−g(z))2g(x)=x∂C(y,g(z))∂z=∂C(y,g(z))∂g(z)⋅∂g(z)∂z=∂∂g(z)(12(y−g(z))2)⋅∂∂z(z)=−(y−g(z))⋅1=g(z)−y
∂C∂z
Doğrusal aktivasyonların genellikle ikili / çoklu sınıf sınıflandırması için regresyon ve lojistik / softmax aktivasyonlarında kullanılmasının nedeni budur. Ancak, hiçbir şey sizi farklı kombinasyonları denemekten alıkoyamaz. ifadesi olmasına rağmen∂C∂z
İkinci olarak, gizli katmanlar için kullanılabilecek birçok aktivasyon işlevi olduğunu eklemek isterim. Sigmoidlerin (lojistik fonksiyon ve hiperbolik teğet gibi) gerçekten iyi çalıştığı kanıtlandı, ancak Jatin tarafından belirtildiği gibi , bunlar ağlarınız çok derinleştiğinde kaybolan gradyanlardan muzdarip. Bu durumda ReLU'lar popüler hale geldi. Yine de vurgulamak istediğim, daha birçok aktivasyon fonksiyonunun mevcut olduğu ve farklı araştırmacıların yenilerini aramaya devam ettikleri (örn. Üstel Doğrusal Birimler (ELU'lar), Gaussian Hata Doğrusal Birimler (GELU'ler), ...) daha iyi özellikler
Sonuç olarak: En iyi aktivasyon fonksiyonlarını ararken sadece yaratıcı olun. Farklı şeyler deneyin ve hangi kombinasyonların en iyi performansa yol açtığını görün.
Zeyilname: Daha fazla sayıda kayıp fonksiyonu ve aktivasyonu için, muhtemelen (kurallı) bağlantı fonksiyonlarını aramak istersiniz.