Makine öğrenimi literatüründe, bir olasılık dağılımını temsil etmek için genellikle softmax işlevi kullanılır. Bunun bir sebebi var mı? Neden başka bir işlev kullanılmıyor?
Makine öğrenimi literatüründe, bir olasılık dağılımını temsil etmek için genellikle softmax işlevi kullanılır. Bunun bir sebebi var mı? Neden başka bir işlev kullanılmıyor?
Yanıtlar:
Optimizasyon açısından bakıldığında, farklılaşma açısından bazı hoş özelliklere sahiptir. Birçok makine öğrenimi problemi için 1-N sınıfı sınıflandırması için iyi bir seçimdir.
Derin bir öğrenme perspektifinden bakıldığında, teoride, MLP'lerin Evrensel Yaklaşım özelliğine sahip olduğu için, bir softmax sınıflandırıcısı ile derin bir ağ kullanmanın özellik alanı üzerinde herhangi bir N sınıfı olasılık fonksiyonunu temsil edebileceği de iddia edilebilir .
Softmax aynı zamanda lojistik sigmoid fonksiyonunun genelleştirilmesidir ve bu nedenle sigmoid'in farklılaşma kolaylığı ve 0-1 aralığında olması gibi özelliklerini taşır. Bir lojistik sigmoid fonksiyonunun çıktısı da 0 ile 1 arasındadır ve dolayısıyla olasılığı temsil etmek için doğal olarak uygun bir seçimdir. Türevi kendi çıktısı açısından da abartılıdır. Ancak, işlevinizde bir vektör çıkışı varsa, çıkış vektörü üzerinde olasılık dağılımını elde etmek için Softmax işlevini kullanmanız gerekir. Softmax'ın sadece Sinir Ağları için kullanılan bir işlev olmadığı için, Evrensel Yaklaşım teorisiyle bir ilgisi olmamasına rağmen, Indie AI'nın bahsettiği Softmax'ı kullanmanın başka avantajları da vardır.
Referanslar