Yapay sinir ağı ağırlıklarının (YSA) MLE tahminleri kesinlikle mümkündür ; Gerçekten, tamamen tipik. Sınıflandırma problemleri için standart bir objektif fonksiyon, bir binom modelinin negatif log olabilirliği ile aynı olan çapraz entropidir. Regresyon problemleri için, OLS regresyonunun MLE'sine paralel kalan artık kare hatası kullanılır.
Ancak, klasik istatistiklerden elde edilen MLE'lerin iyi özelliklerinin, sinir ağlarının MLE'leri için de geçerli olduğunu varsaymakta bazı sorunlar vardır.
YSA tahmini ile ilgili genel bir sorun var: Tek katmanlı YSA'lara bile birçok simetrik çözüm var. Gizli katman için ağırlık işaretlerinin tersine çevrilmesi ve gizli katman aktivasyon parametrelerinin işaretlerinin tersine çevrilmesi de aynı olasılığa sahiptir. Ek olarak, gizli düğümlerin herhangi birine izin verebilirsiniz ve bu permütasyonlar da aynı olabilir. Tanımlanabilirlikten vazgeçtiğinizi kabul etmeniz gerektiği sürece, bu sonuç önemlidir. Ancak, tanımlanabilirlik önemli değilse, bu alternatif çözümlerin sadece birbirlerinin yansımaları ve / veya izinleri olduğunu kabul edebilirsiniz.
Bu, OLS regresyonu gibi istatistiklerde MLE'nin klasik kullanımlarının aksine: OLS sorunu dışbükey ve tasarım matrisi tam değerdeyken kesinlikle dışbükeydir. Güçlü dışbükeylik, tek ve benzersiz bir simge durumuna küçültücü olduğu anlamına gelir.
YSA’lar sınırsız bir çözüm kullanırken verilerin üzerine çıkma eğiliminde olacaktır. Ağırlıklar, kökenden uzaklaşarak iyi genelleşmeyen ya da yeni verileri çok doğru bir şekilde tahmin edebilen inanılmaz büyük değerlere doğru uzama eğiliminde olacaktır. Ağırlık azaltma veya diğer düzenlileştirme yöntemlerini uygulamak, küçülen ağırlık tahminlerini sıfıra doğru etkiler. Bu, belirsizlik konusunu mutlaka (1) den çözmez, ancak ağın genelleştirmesini iyileştirebilir.
Kayıp işlevi dışbükey değildir ve optimizasyon, genel olarak optimal olmayan yerel olarak en uygun çözümleri bulabilir . Veya belki de bu çözümler, bazı optimizasyon yöntemlerinin durduğu eyer noktalarıdır. Bu yazıda çıkan sonuçlar , modern tahmin yöntemlerinin bu konuyu engellediğini ortaya koymaktadır.
L1L2