Her bir değeri vektörün toplamına bölebilsek de, softmax fonksiyonu olasılıkları hesaplamak için neden kullanılıyor?


20

Bir vektör üzerine softmax fonksiyonunun uygulanması, "olasılıklar" ve ile arasında değerler üretecektir . 01

Ancak her bir değeri vektörün toplamına bölebiliriz ve bu da ile arasında olasılıklar ve değerler üretir .01

Burada cevabı okudum ama her iki fonksiyon da farklı olsa da bunun nedeninin farklı olabileceğinden kaynaklandığını söylüyor.


1
Lojistik gerilemeye ilk bakmanızın daha iyi olacağını düşünüyorum. 'amacınız' monoton olarak ı (0,1)' e dönüştürmektir. Lojistik fonksiyon budur. Gerçek satırdaki kümülatif (olasılık) dağılım işlevinin de çalıştığını unutmayın - normal dağıtım işlevini kullanan probit regresyonuna bakın. (,)
seanv507

Yanıtlar:


36

Öğelerin toplamı sıfır olduğunda önerdiğiniz işlevin tekilliği vardır.

Vektörünüzün diyelim [1,13,23]. Bu vektörün toplamı 0'dır, bu nedenle bölme tanımlanmamıştır. İşlev burada ayırt edilemez.

Ek olarak, vektörün bir veya daha fazla elemanı negatifse, ancak toplam sıfır değilse, sonucunuz bir olasılık değildir.

Vektörünüzün [1,0,2] olduğunu varsayalım . Bunun toplamı 1'dir, bu nedenle işlevinizi uygulamanız , negatif elemanlara ve 1'den fazla elemanlara sahip olduğu için olasılık vektörü olmayan [1,0,2] ile sonuçlanır.

Daha geniş bir bakış açısıyla, ikili lojistik regresyonun üç veya daha fazla kategorik sonuç durumuna genişletilmesi perspektifinden softmax fonksiyonunun özel formunu motive edebiliriz.

Yorumlarda önerildiği gibi mutlak değerler veya kareler almak gibi şeyler yapmak, ve aynı öngörülen olasılığa sahip olduğu anlamına gelir ; bu, modelin tanımlanmadığı anlamına gelir . Buna karşılık, tüm gerçek için monotonik ve pozitiftir , bu nedenle softmax sonucu (1) bir olasılık vektörü ve (2) multinomiyal lojistik modeli tanımlanır.xexp ( x ) xxexp(x)x


Çok teşekkür ederim. Her iki sorunu da mutlak değerlerin toplamına bölerek çözebiliriz, değil mi?
floyd

2
Hayır. Her iki örneğimin de mutlak değerlerini toplayıp sonra bu tutara bölerseniz ne olur?
Sycorax: Reinstate Monica

Gerçekten teşekkür ederim. Şimdi anladım. ancak payın mutlak değerini alarak veya vektördeki her değer için hesaplayarak bu sorunu çözebiliriz . İnatçı olmaya çalışmıyorum, olasılıkları hesaplamak için daha basit olanlar olmasına rağmen, insanların karmaşık bir işlevi icat etmesini garip buluyorum. Çok fazla matematik bilmiyorum bu yüzden belki de başka matematiksel özellikler varxi2/sum(X2)
floyd

8
için teklifiniz hala başarısız . Softmax fonksiyonunun ek nedenleri, ikili lojistik regresyonun çoklu sonuçlar durumunda genelleştirilmesi olarak özellikleri ile ilgilidir. Bu konuda stats.stackexchange.com/questions/349418/… gibi bir dizi konu var[0,0,0]
Sycorax,

8
Sycorax'ın noktasına ek olarak, veyabir vektör elemanının azaltılmasının her zaman olasılık katkısını azaltacağı istenen özelliğe sahip değildir. Negatif unsurların azaltılması katkılarını artıracaktır. , çıktısının tüm gerçek girdiler için olumlu olduğu ve tüm gerçek satırda monotonik olduğu güzel bir özelliğe sahiptir. | x i | / j | x j | exp ( x )xi2/jxj2|xi|/j|xj|exp(x)
Bridgeburners

4

Softmax'ın iki bileşeni vardır:

  1. Bileşenleri e ^ x biçimine dönüştürün. Bu, sinir ağının sıradan olasılıklar yerine logaritmik olasılıklarla çalışmasına izin verir. Bu, çarpma olasılıklarının ortak çalışmasını, sinir ağlarının lineer cebir temelli yapısı için çok daha doğal olan eklemeye dönüştürür.

  2. Toplamlarını 1'e normalleştirin, çünkü ihtiyacımız olan toplam olasılık budur.

Bunun önemli bir sonucu, bayes teoreminin böyle bir ağ için çok doğal olmasıdır, çünkü sadece payda tarafından normalleştirilen olasılıkların çarpımıdır.

Softmax aktivasyonuna sahip tek katmanlı bir ağın önemsiz durumu lojistik regresyona eşdeğerdir.

İki bileşenli softmax'ın özel durumu, sadece iki sınıf olduğunda popüler olan sigmoid aktivasyonuna eşdeğerdir. Çok sınıflı sınıflandırmada, eğer sınıflar birbirini dışlarsa softmax, bağımsız ise bileşen bazında sigmoid kullanılır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.