ML'deki softmax fonksiyonu ile termodinamikteki Boltzmann dağılımı arasındaki bağlantı ne kadar derindir?

12

Sinir ağlarında gerçek sayıları olasılıklara dönüştürmek için yaygın olarak kullanılan softmax fonksiyonu, Boltzmann dağılımı ile aynı işlevdir, termodinamikte belirli bir sıcaklıkta T termal dengede parçacıkların enerjileri üzerindeki olasılık dağılımı.

Bunun pratik olmasının açık sezgisel nedenlerini görebiliyorum:

Girdi değerleri negatif olursa olsun, softmax bire karşılık gelen pozitif değerler verir.
Her zaman ayırt edilebilir, bu da geri yayılım için kullanışlıdır.
Ağın küçük değerlere karşı ne kadar yumuşak olması gerektiğini kontrol eden bir 'sıcaklık' parametresi vardır (T çok büyük olduğunda, tüm sonuçlar eşit derecede olasıdır, çok küçük olduğunda, sadece en büyük girdiye sahip değer seçilir).

Boltzmann fonksiyonu sadece pratik nedenlerle softmax olarak mı kullanılıyor, yoksa termodinamik / istatistiksel fizikle daha derin bir bağlantı var mı?

machine-learning neural-networks softmax

— ahura
kaynak

1

Bunun neden yakın oyları çektiğini anlamıyorum - bu oldukça makul bir soru.

— Matt Krause

2

MattKrause için + 1'le, NN'ler de istatistiki fizikte olduğu gibi kesinlikle konuyla ilgilidir.

— Sean Easter

Bir soruna bir çözüm değil, daha genel bir bilgi aradığımdan, sorunun çoğu SO sorgusundan daha 'açık' olduğunu görebiliyorum. Ancak, sormak için daha iyi bir yer ya da sormak için daha spesifik bir yol düşünemedim.

— ahura

3

Bildiğim kadarıyla, YSA'ları Perceptron aşamasının ötesine alan birçok insanın fizikçi olması dışında daha derin bir neden yoktur.

Bahsedilen faydaların yanı sıra, bu özel seçimin daha fazla avantajı vardır. Belirtildiği gibi, çıkış davranışını belirleyen tek bir parametreye sahiptir. Hangi sırayla optimize edilebilir veya ayarlanabilir.

Kısacası, en büyük girdi değerlerinin bile kısıtlanmış olması anlamında bir tür 'düzenlileştirme' sağlayan çok kullanışlı ve iyi bilinen bir fonksiyondur.

Elbette aynı gereklilikleri yerine getiren birçok olası fonksiyon vardır, ancak bunlar fizik dünyasında daha az bilinir. Ve çoğu zaman, kullanımı daha zordur.

— melek
kaynak

2

softmax işlevi de ayrık seçim modellemesinde kullanılır, u her sınıfla ilişkili bir yardımcı program işlevi olduğunu varsayarsa ve yardımcı program işlevi sinir ağının çıktısına eşittir + Gumbel'i izleyen bir hata terimi bir sınıfa ait olma olasılığı, girdi olarak sinir ağı ile softmax fonksiyonuna eşittir. Bkz. Https://eml.berkeley.edu/reprints/mcfadden/zarembka.pdf

hata teriminin daha iyi bir varsayım olan standart normal dağılımı izlediği varsayıldığı probit modeli gibi logit modeline alternatifler vardır. bununla birlikte, olasılık inatçı olabilir ve çözülmesi için hesaplama pahalıdır, bu nedenle sinir ağında yaygın olarak kullanılmaz

— John
kaynak