LSTM ağları için hiperparametrelerden biri sıcaklıktır. Bu ne?
LSTM ağları için hiperparametrelerden biri sıcaklıktır. Bu ne?
Yanıtlar:
Sıcaklık , softmax'ı uygulamadan önce logları ölçekleyerek tahminlerin rastlantısallığını kontrol etmek için kullanılan LSTM'lerin (ve genel olarak sinir ağlarının) bir hiperparametresidir. Örneğin, TensorFlow'un Magenta LSTM'lerinin uygulanmasında sıcaklık, softmax'ı hesaplamadan önce logların ne kadar bölündüğünü gösterir.
Sıcaklık 1 olduğu zaman, doğrudan logits üzerinde Softmax (daha önce katmanların bu değerler çıkışı) hesaplamak, ve 0.6 arasında bir sıcaklık kullanılarak bir model üzerinde, Softmax hesaplar daha büyük bir değere neden olur. Daha büyük değerlerde softmax gerçekleştirmek, LSTM'yidaha güvenlihale getirir(çıkış katmanını etkinleştirmek için daha az girdi gerekir), ancak aynı zamandaörneklerindedaha muhafazakar(olası adaylardan örnek alma olasılığı daha düşüktür). Daha yüksek bir sıcaklığın kullanılması, sınıflar üzerinde daha yumuşak bir olasılık dağılımı sağlar ve RNN'in numuneler tarafından daha kolay “heyecanlandırılmasını” sağlar, budadahafazla çeşitlilikvedaha fazla hataylasonuçlanır.
Sinir ağları logit vektör sınıf olasılıkları üretmek burada z = ( z 1 , ... , z , n ) üretmek olasılık vektörü için SoftMax fonksiyonu gerçekleştirerek q = ( q 1 , ... , k , n ) karşılaştırarak z i diğer logits ile birlikte .
Softmax işlevi, ağ çıktılarının her zaman adımında sıfır ile bir arasında olmalarını sağlayarak ağın her bir yinelemesindeki üssel değerlerine göre adayları normalleştirir.
Bu nedenle sıcaklık düşük olasılık adaylarına duyarlılığı arttırır. LSTM'lerde, aday veya örnek bir mektup, kelime veya nota olabilir, örneğin:
- softmax işlevi hakkında Wikipedia makalesinden
Hinton, Geoffrey, Oriol Vinyals ve Jeff Dean. "Sinir ağındaki bilgiyi damıtmak." arXiv ön baskı arXiv: 1503.02531 (2015). arXiv