Sinir ağlarında gerçek sayıları olasılıklara dönüştürmek için yaygın olarak kullanılan softmax fonksiyonu, Boltzmann dağılımı ile aynı işlevdir, termodinamikte belirli bir sıcaklıkta T termal dengede parçacıkların enerjileri üzerindeki olasılık dağılımı.
Bunun pratik olmasının açık sezgisel nedenlerini görebiliyorum:
- Girdi değerleri negatif olursa olsun, softmax bire karşılık gelen pozitif değerler verir.
- Her zaman ayırt edilebilir, bu da geri yayılım için kullanışlıdır.
- Ağın küçük değerlere karşı ne kadar yumuşak olması gerektiğini kontrol eden bir 'sıcaklık' parametresi vardır (T çok büyük olduğunda, tüm sonuçlar eşit derecede olasıdır, çok küçük olduğunda, sadece en büyük girdiye sahip değer seçilir).
Boltzmann fonksiyonu sadece pratik nedenlerle softmax olarak mı kullanılıyor, yoksa termodinamik / istatistiksel fizikle daha derin bir bağlantı var mı?