Evrişimli sinir ağlarını çalışıyorum ve uygulamaya çalışıyorum, ancak bu sorunun genel olarak çok katmanlı algılayıcılar için geçerli olduğunu düşünüyorum.
Ağımdaki çıkış nöronları her sınıfın aktivasyonunu temsil eder: en aktif nöron, belirli bir girdi için öngörülen sınıfa karşılık gelir. Eğitim için çapraz entropi maliyetini göz önünde bulundurmak için, ağın sonuna bir softmax katmanı ekliyorum, böylece her nöronun aktivasyon değeri bir olasılık değeri olarak yorumlanır.
Benim sorum şu: Çıktı katmanındaki nöronlar girdiye doğrusal olmayan bir fonksiyon uygulamalı mıdır? Benim sezgim bunun gerekli olmadığıdır:
- çıkış çıkış nöronuna giriş, bir x vektörü (bir önceki katmandan geliyor) ve o nöron için ağırlıklar θ i arasındaki nokta ürünü x T θ i ise ,
- ve eğer sigmoid veya ReLU gibi monotonik doğrusal olmayan bir işlev kullanırsam
- daha sonra daha büyük bir aktivasyon çıkışı hala büyük karşılık gelir böylece doğrusal olmayan fonksiyon tahmini değişiklik olmaz Bu görüş noktasından,.
Bu yorumda bir sorun mu var? Göz ardı ettiğim, çıktıyı doğrusal olmamasını gerekli kılan bazı eğitim faktörleri var mı?
DÜZENLE
Cevabı temelde "duruma bağlı" olan Karel'in cevabına atıfta bulunarak, ağımın ve şüphemin daha ayrıntılı bir açıklaması:
N gizli katmanım olduğunu ve çıktı katmanımın sınıfları temsil eden bir nöron kümesi üzerinde sadece bir softmax katmanı olduğunu varsayalım (bu yüzden beklenen çıktım, girdi verilerinin her sınıfa ait olma olasılığıdır). İlk N-1 katmanlarının doğrusal olmayan nöronlara sahip olduğu varsayılarak, N-th gizli katmanında doğrusal olmayan lineer nöronların kullanılması arasındaki fark nedir?