LSTM'deki sıcaklık (ve genel olarak sinir ağları) nedir?


Yanıtlar:


28

Sıcaklık , softmax'ı uygulamadan önce logları ölçekleyerek tahminlerin rastlantısallığını kontrol etmek için kullanılan LSTM'lerin (ve genel olarak sinir ağlarının) bir hiperparametresidir. Örneğin, TensorFlow'un Magenta LSTM'lerinin uygulanmasında sıcaklık, softmax'ı hesaplamadan önce logların ne kadar bölündüğünü gösterir.

Sıcaklık 1 olduğu zaman, doğrudan logits üzerinde Softmax (daha önce katmanların bu değerler çıkışı) hesaplamak, ve 0.6 arasında bir sıcaklık kullanılarak bir model üzerinde, Softmax hesaplar daha büyük bir değere neden olur. Daha büyük değerlerde softmax gerçekleştirmek, LSTM'yidaha güvenlihale getirir(çıkış katmanını etkinleştirmek için daha az girdi gerekir), ancak aynı zamandaörneklerindedaha muhafazakar(olası adaylardan örnek alma olasılığı daha düşüktür). Daha yüksek bir sıcaklığın kullanılması, sınıflar üzerinde daha yumuşak bir olasılık dağılımı sağlar ve RNN'in numuneler tarafından daha kolay “heyecanlandırılmasını” sağlar, budadahafazla çeşitlilikvedaha fazla hataylasonuçlanır.logits0.6

Sinir ağları logit vektör sınıf olasılıkları üretmek burada z = ( z 1 , ... , z , n ) üretmek olasılık vektörü için SoftMax fonksiyonu gerçekleştirerek q = ( q 1 , ... , k , n ) karşılaştırarak z i diğer logits ile birlikte .zz=(z1,,zn)q=(q1,,qn)zi

(1)qi=exp(zi/T)jexp(zj/T)

T

Softmax işlevi, ağ çıktılarının her zaman adımında sıfır ile bir arasında olmalarını sağlayarak ağın her bir yinelemesindeki üssel değerlerine göre adayları normalleştirir.

Bu nedenle sıcaklık düşük olasılık adaylarına duyarlılığı arttırır. LSTM'lerde, aday veya örnek bir mektup, kelime veya nota olabilir, örneğin:

ττ0+

- softmax işlevi hakkında Wikipedia makalesinden

Referans

Hinton, Geoffrey, Oriol Vinyals ve Jeff Dean. "Sinir ağındaki bilgiyi damıtmak." arXiv ön baskı arXiv: 1503.02531 (2015). arXiv


3
Bu yapılan atıfla olan Boltzmann dağılımına (veya Gibbs dağılımı) istatistiksel mekanik kullanılan bir olasılık dağılımı -.
mc2
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.