Sinir Ağı ağırlıklarını tahmin etmek için MLE'yi kullanabilir miyiz?

23

Daha yeni istatistikler ve modeller hakkında çalışmaya başladım. Şu an anladığım kadarıyla, bir model için en iyi parametreyi tahmin etmek için MLE kullanıyoruz. Ancak, sinir ağlarının nasıl çalıştığını anlamaya çalıştığımda, bunun yerine parametreleri tahmin etmek için başka bir yaklaşım kullandıkları görülüyor. Neden MLE kullanmıyoruz ya da hiç MLE kullanmak mümkün mü?

maximum-likelihood neural-networks

— dik ve kayalık tepe
kaynak

16

Yapay sinir ağı ağırlıklarının (YSA) MLE tahminleri kesinlikle mümkündür ; Gerçekten, tamamen tipik. Sınıflandırma problemleri için standart bir objektif fonksiyon, bir binom modelinin negatif log olabilirliği ile aynı olan çapraz entropidir. Regresyon problemleri için, OLS regresyonunun MLE'sine paralel kalan artık kare hatası kullanılır.

Ancak, klasik istatistiklerden elde edilen MLE'lerin iyi özelliklerinin, sinir ağlarının MLE'leri için de geçerli olduğunu varsaymakta bazı sorunlar vardır.

YSA tahmini ile ilgili genel bir sorun var: Tek katmanlı YSA'lara bile birçok simetrik çözüm var. Gizli katman için ağırlık işaretlerinin tersine çevrilmesi ve gizli katman aktivasyon parametrelerinin işaretlerinin tersine çevrilmesi de aynı olasılığa sahiptir. Ek olarak, gizli düğümlerin herhangi birine izin verebilirsiniz ve bu permütasyonlar da aynı olabilir. Tanımlanabilirlikten vazgeçtiğinizi kabul etmeniz gerektiği sürece, bu sonuç önemlidir. Ancak, tanımlanabilirlik önemli değilse, bu alternatif çözümlerin sadece birbirlerinin yansımaları ve / veya izinleri olduğunu kabul edebilirsiniz.

Bu, OLS regresyonu gibi istatistiklerde MLE'nin klasik kullanımlarının aksine: OLS sorunu dışbükey ve tasarım matrisi tam değerdeyken kesinlikle dışbükeydir. Güçlü dışbükeylik, tek ve benzersiz bir simge durumuna küçültücü olduğu anlamına gelir.
YSA’lar sınırsız bir çözüm kullanırken verilerin üzerine çıkma eğiliminde olacaktır. Ağırlıklar, kökenden uzaklaşarak iyi genelleşmeyen ya da yeni verileri çok doğru bir şekilde tahmin edebilen inanılmaz büyük değerlere doğru uzama eğiliminde olacaktır. Ağırlık azaltma veya diğer düzenlileştirme yöntemlerini uygulamak, küçülen ağırlık tahminlerini sıfıra doğru etkiler. Bu, belirsizlik konusunu mutlaka (1) den çözmez, ancak ağın genelleştirmesini iyileştirebilir.
Kayıp işlevi dışbükey değildir ve optimizasyon, genel olarak optimal olmayan yerel olarak en uygun çözümleri bulabilir . Veya belki de bu çözümler, bazı optimizasyon yöntemlerinin durduğu eyer noktalarıdır. Bu yazıda çıkan sonuçlar , modern tahmin yöntemlerinin bu konuyu engellediğini ortaya koymaktadır.
$L^1$ $L^2$

— Sycorax diyor Reinstate Monica
kaynak

2

Söylediklerinizle farklı olmak için yalvarıyorum. Simetrilerden kaynaklanan farklı yerel minima aynı kalitededir, bu yüzden bunun için endişelenmenize gerek yoktur. Muhtemelen söylemek istediğiniz şey, YSA'ların dışbükey kayıp fonksiyonlarına sahip olmamasıdır, bu da optimizasyonu daha fazla dahil eder ve küresel bir optimum bulmayı garanti etmez. Bununla birlikte, son zamanlarda YSA'ların gerçekte bu kadar çok yerel asgari konuya sahip olmadığına, daha ziyade eyer noktası sorunlarına sahip olduğuna dair oldukça kanıtlar olmuştur. Bakınız örneğin arxiv.org/abs/1412.6544 .

— bayerj 11:15

11

Sınıflandırma problemlerinde, olasılığı en üst düzeye çıkarmak bir sinir ağını eğitmenin en yaygın yoludur (hem denetimli hem de denetimsiz modeller).

Uygulamada, negatif kütük olasılığını genellikle minimize ediyoruz (eşdeğer MLE). Olumsuz log olasılığını kullanmanın tek kısıtı, olasılık dağılımı olarak yorumlanabilen bir çıktı katmanına sahip olmaktır. Bunu yapmak için genellikle bir softmax çıkış katmanı kullanılır. Yapay sinir ağları topluluğunda, olumsuz log olasılığının bazen çapraz entropi olarak adlandırıldığını unutmayın. Düzenlileştirme terimleri elbette eklenebilir (ve bazen parametreler üzerinde önceki dağılımlar olarak da yorumlanabilir, bu durumda maksimum bir posteriori ( MAP ) arıyoruz ).

— AdeB
kaynak