Lojistik sınıflandırıcı Softmax vs Sigmoid işlevi?

63

Lojistik sınıflandırıcısındaki fonksiyon seçimine (Softmax vs Sigmoid) ne karar verir?

4 çıkış sınıfı olduğunu varsayalım. Yukarıdaki fonksiyonların her biri, her sınıfın doğru çıktı olma ihtimalini verir. Peki sınıflandırıcı için hangisi?

— mak
kaynak

16

Softmax işlevi, sigmoidin genelleştirilmesinden başka bir şey değildir, bu nedenle "softmax vs. sigmoid" ile ne demek istediğinizi tam olarak netleştirmeyin.

— dsaxton

2

Sigmoid ile durum böyle. Sigmoid'i kullandığımızda bir sınıfın , diğerinin .

\exp (β^{T} x) / (\exp (β^{T} x) + 1)

$\exp(\beta^T x) / (\exp(\beta^T x) + 1)$

1 / (\exp (β^{T} x) + 1)

$1 / (\exp(\beta^T x) + 1)$

— dsaxton

3

Reddit posteri, yanlış ya da en azından alakasız olduğunu düşündüğüm bir ayrım yapıyor. Sınıflardan birinin ağırlığa sahip olup olmaması, sadece puanları değiştirmekten ibarettir, olasılıklar üzerinde etkisi yoktur.

— dsaxton,

2

İkili ve çok

— uluslu

3

"softmax vs. sigmoid" ile ne demek istediğinizi tamamen açık değil. "" başlığın hemen altında, sorunun gövdesi var - kaçırması çok kolay, biliyorum. Ayrıca, google sorgularını, tam olarak sorulanları yanıtlamak için buraya gelmek üzere yönlendirmek için de iyi bir başlık.

— michael

77

Sigmoid fonksiyonu ise, iki sınıf lojistik regresyon analizi için kullanılır SoftMax fonksiyonu çok sınıflı lojistik regresyon (aka MAXENT olduğunda, çok lojistik regresyon, SoftMax Regresyon Maksimum Entropi Sınıflandırıcı) için kullanılır.

İki sınıflı lojistik regresyonda, öngörülen olasılıklar sigmoid işlevi kullanılarak aşağıdaki gibidir:

\begin{aligned} Pr (Y_{i} = 0) & = \frac{e^{- β_{\cdot} X_{i}}}{1 + e^{- β_{0} \cdot X_{i}}} \\ Pr (Y_{i} = 1) & = 1 - Pr (Y_{i} = 0) = \frac{1}{1 + e^{- β_{\cdot} X_{i}}} \end{aligned}

$\begin{align} \Pr(Y_i=0) &= \frac{e^{-\boldsymbol\beta_ \cdot \mathbf{X}_i}} {1 +e^{-\boldsymbol\beta_0 \cdot \mathbf{X}_i}} \, \\ \Pr(Y_i=1) &= 1 - \Pr(Y_i=0) = \frac{1} {1 +e^{-\boldsymbol\beta_ \cdot \mathbf{X}_i}} \end{align}$

Çok sınıflı lojistik regresyonda, sınıfı ile softmax fonksiyonu kullanılarak öngörülen olasılıklar aşağıdaki gibidir: $K$

\begin{aligned} Pr (Y_{i} = k) & = \frac{e^{β_{k} \cdot X_{i}}}{\sum_{0 \leq c \leq K}^{} e^{β_{c} \cdot X_{i}}} \end{aligned}

$\begin{align} \Pr(Y_i=k) &= \frac{e^{\boldsymbol\beta_k \cdot \mathbf{X}_i}} {~\sum_{0 \leq c \leq K}^{}{e^{\boldsymbol\beta_c \cdot \mathbf{X}_i}}} \, \\ \end{align}$

Softmax fonksiyonunun, aşağıda açıklandığı gibi sigmoid fonksiyonunun çok sınıflı kasaya bir uzantısı olduğu görülebilir. sınıflarıyla çoklu sınıf lojistik regresyonuna bakalım : $K=2$

\begin{aligned} Pr (Y_{i} = 0) & = \frac{e^{β_{0} \cdot X_{i}}}{\sum_{0 \leq c \leq K}^{} e^{β_{c} \cdot X_{i}}} = \frac{e^{β_{0} \cdot X_{i}}}{e^{β_{0} \cdot X_{i}} + e^{β_{1} \cdot X_{i}}} = \frac{e^{(β_{0} - β_{1}) \cdot X_{i}}}{e^{(β_{0} - β_{1}) \cdot X_{i}} + 1} = \frac{e^{- β_{\cdot} X_{i}}}{1 + e^{- β \cdot X_{i}}} \\ Pr (Y_{i} = 1) & = \frac{e^{β_{1} \cdot X_{i}}}{\sum_{0 \leq c \leq K}^{} e^{β_{c} \cdot X_{i}}} = \frac{e^{β_{1} \cdot X_{i}}}{e^{β_{0} \cdot X_{i}} + e^{β_{1} \cdot X_{i}}} = \frac{1}{e^{(β_{0} - β_{1}) \cdot X_{i}} + 1} = \frac{1}{1 + e^{- β_{\cdot} X_{i}}} \end{aligned}

$\begin{align} \Pr(Y_i=0) &= \frac{e^{\boldsymbol\beta_0 \cdot \mathbf{X}_i}} {~\sum_{0 \leq c \leq K}^{}{e^{\boldsymbol\beta_c \cdot \mathbf{X}_i}}} = \frac{e^{\boldsymbol\beta_0 \cdot \mathbf{X}_i}}{e^{\boldsymbol\beta_0 \cdot \mathbf{X}_i} + e^{\boldsymbol\beta_1 \cdot \mathbf{X}_i}} = \frac{e^{(\boldsymbol\beta_0 - \boldsymbol\beta_1) \cdot \mathbf{X}_i}}{e^{(\boldsymbol\beta_0 - \boldsymbol\beta_1) \cdot \mathbf{X}_i} + 1} = \frac{e^{-\boldsymbol\beta_ \cdot \mathbf{X}_i}} {1 +e^{-\boldsymbol\beta \cdot \mathbf{X}_i}} \\ \, \\ \Pr(Y_i=1) &= \frac{e^{\boldsymbol\beta_1 \cdot \mathbf{X}_i}} {~\sum_{0 \leq c \leq K}^{}{e^{\boldsymbol\beta_c \cdot \mathbf{X}_i}}} = \frac{e^{\boldsymbol\beta_1 \cdot \mathbf{X}_i}}{e^{\boldsymbol\beta_0 \cdot \mathbf{X}_i} + e^{\boldsymbol\beta_1 \cdot \mathbf{X}_i}} = \frac{1}{e^{(\boldsymbol\beta_0-\boldsymbol\beta_1) \cdot \mathbf{X}_i} + 1} = \frac{1} {1 +e^{-\boldsymbol\beta_ \cdot \mathbf{X}_i}} \, \\ \end{align}$

ile . Sigmoid fonksiyonunu kullanarak iki sınıflı lojistik regresyondaki aynı olasılıkları elde ettiğimizi görüyoruz. Vikipedi bu konuda biraz daha genişler. $\boldsymbol\beta = - (\boldsymbol\beta_0 - \boldsymbol\beta_1)$

— Franck Dernoncourt
kaynak

1

Bu konuda safım, ama bunu çok zaman görüyorum β = - (β0 − β1) Bunun ne açıklaması olabilir? Sigmoidlerde bildiğim kadarıyla β bir vektör olurdu. Ve genellikle verilen çalışma için bir tanesidir. Öyleyse and0 ve come1 nasıl geliyor?

— Ishan Bhatt

1

@IshanBhatt bu yorum yardımcı olabilir.

— Tom Hale

garip bir şekilde, hala sadece sigmoid kullanarak

— çoklu sınıflara

15

Aslında, birinin diğerine dönüştürülebileceği anlamında eşdeğerdirler.

Verilerinizin keyfi bir boyutta bir vektör ile temsil edildiğini ve bunun için softmax ile takip edilen bir afin dönüşümü kullanarak bir ikili sınıflandırıcı oluşturduğunuzu varsayalım: $\boldsymbol{x}$

(\begin{matrix} z_{0} \\ z_{1} \end{matrix}) = (\begin{matrix} w_{0}^{T} \\ w_{1}^{T} \end{matrix}) x + (\begin{matrix} b_{0} \\ b_{1} \end{matrix}),

$\begin{equation} \begin{pmatrix} z_0 \\ z_1 \end{pmatrix} = \begin{pmatrix} \boldsymbol{w}_0^T \\ \boldsymbol{w}_1^T \end{pmatrix}\boldsymbol{x} + \begin{pmatrix} b_0 \\ b_1 \end{pmatrix}, \end{equation}$

P (C_{i} | x) = softmax (z_{i}) = \frac{e^{z_{i}}}{e^{z_{0}} + e^{z_{1}}}, i \in {0, 1} .

$\begin{equation} P(C_i | \boldsymbol{x}) = \text{softmax}(z_i)=\frac{e^{z_i}}{e^{z_0}+e^{z_1}}, \, \, i \in \{0,1\}. \end{equation}$

Şimdi softmax yerine bir sigmoid kullanan eşdeğer bir ikili sınıflandırıcıya dönüştürelim. Öncelikle, istediğimiz olasılığın hangisi olduğuna karar vermeliyiz (bu, veya sınıfı için olabilir ). Bu seçenek kesinlikle keyfi ve sınıfını . Sonra, sınıflandırıcım şu şekilde olacak: $C_0$ $C_1$ $C_0$

z^{'} = w^{' T} x + b^{'},

$\begin{equation} z' = \boldsymbol{w}'^T \boldsymbol{x} + b', \end{equation}$

P (C_{0} | x) = σ (z^{'}) = \frac{1}{1 + e^{- z^{'}}},

$\begin{equation} P(C_0 | \boldsymbol{x}) = \sigma(z')=\frac{1}{1+e^{-z'}}, \end{equation}$

P (C_{1} | x) = 1 - σ (z^{'}) .

$\begin{equation} P(C_1 | \boldsymbol{x}) = 1-\sigma(z'). \end{equation}$

Sınıflayıcılar eğer olasılıklar aynı ise eşdeğerdir, bu nedenle dayatmalıyız:

σ (z^{'}) = softmax (z_{0})

$\begin{equation} \sigma(z') = \text{softmax}(z_0) \end{equation}$

Değiştirme , ve açısından kendi ifadelerle ve ve bazı basit yaparak Cebirsel manipülasyon, yukarıdaki eşitliklerin, eğer sadece ve ile verildiyse geçerli olduğunu doğrulayabilirsiniz : $z_0$ $z_1$ $z'$ $\boldsymbol{w}_0,\boldsymbol{w}_1, \boldsymbol{w}', b_0, b_1, b'$ $\boldsymbol{x}$ $\boldsymbol{w}'$ $b'$

w^{'} = w_{0} - w_{1},

$\begin{equation} \boldsymbol{w}' = \boldsymbol{w}_0-\boldsymbol{w}_1, \end{equation}$

b^{'} = b_{0} - b_{1} .

$\begin{equation} b' = b_0-b_1. \end{equation}$

— D ...
kaynak

@null Tamam, eğer sorarsanız, açıklamamı anlamadınız mı? Özel probleminizi çözmeme izin verin: verilerinizi sigmoide beslediğinizi söylerseniz, bunun tek boyutlu bir sayı olması gerekir, . Bir sigmoid beslemek, sen olasılığı olsun örneği için, senin iki sınıftan birine olmak : . Daha sonra, içinde olma olasılığı şudur: . Şimdi sigmoid'inizi softmax ile değiştirelim. (Devam edecek).

x

$x$

x

$x$

C_{0}

$C_0$

P (C_{0} | x) = σ (x)

$P(C_0|x)=σ(x)$

x

$x$

C_{1}

$C_1$

P (C_{1} | x) = 1 - P (C_{0} | x) = σ (x)

$P(C_1|x)=1−P(C_0|x)=σ(x)$

— D ...

(Devamı). Softmax'ı iki sınıflı bir sınıflandırma problemine uygulamak için, bir boyutlu verinizin iki boyutlu bir vektöre dönüştürülmesi gerekir. Bu nedenle, ve tanımlamamız gerekiyor . En seçeyim . Yana uygun olmalıdır , elimizdeki nedenle, . Şimdi, ve . Bunu kullanarak hemen olduğunu doğrulayabilirsiniz .

w_{0}

$w_0$

w_{1}

$w_1$

w_{0} = 1

$w_0=1$

w_{1}

$w_1$

w' = w_{0} - w_{1}

$w′=w_0−w_1$

1 = 1 - w_{1}

$1=1−w_1$

w_{1} = 0

$w_1=0$

z_{0} = w_{0} x = x

$z_0=w_0x=x$

z_{1} = w_{1} x = 0

$z_1=w_1x=0$

σ (x) = softmax (z_{0})

$σ(x)=\text{softmax}(z_0)$

— D ...

Dahası, (yani, ) karşılayan herhangi bir ve kombinasyonu aynı sonuca yol açacaktır. Bu, softmax'ın bir yedek parametresine sahip olduğunu gösterir. Bu aptal gibi görünse de, aslında ilginç bir özelliktir, çünkü öğrenme algoritmasının ve çıkarımının sayısal kararlılığını destekleyen parametrelerinin normalleştirilmesine izin verir . Ama bu sadece fazladan bir yorum, sorunuzu cevaplamak önemli değil :)

w_{0}

$w_0$

w_{1}

$w_1$

w^{'} = w_{0} - w_{1}

$w'=w_0-w_1$

1 = w_{1} - w_{0}

$1=w_1-w_0$

w_{i}

$w_i$

— D ...

Çok teşekkürler. Anladım. İlk yorumunuzda olasılık muhtemelen . Şimdi dönüşümün arkasındaki fikrin ne olduğunu anladım.

P (C_{1} | x)

$P(C_1|x)$

1 - σ (x)

$1-\sigma(x)$

— null

Bunu sevindim;) Evet, bu bir yazım hatası, açıkça . Gösterdiğin için teşekkürler!

P (C_{1} | x) = 1 - σ (x)

$P(C_1|x)=1 - \sigma(x)$

— D ...

8

Sinir ağlarında softmax vs softmax kullanıp kullanmayacaklarını ararken insanların bu soruya yöneldiklerini fark ettim. Bir sinir ağı sınıflandırıcısı oluşturan bu insanlardan biriyseniz, sigmoid veya softmax'ı ağınızdaki ham çıktı değerlerine uygulayıp uygulamayacağınıza nasıl karar vereceğinize karar verebilirsiniz:

Eğer çok etiketli bir sınıflandırma probleminiz varsa = birden fazla "doğru cevap" var = çıkışlar birbirini dışlamaz, o zaman her ham çıkışta bağımsız olarak bir sigmoid işlevi kullanın. Sigmoid, tüm sınıflarınız için, bazıları veya hiçbiri için yüksek olasılıklara sahip olmanızı sağlayacaktır. Örnek: Göğüs röntgeni görüntüsündeki hastalıkları sınıflandırmak. Görüntü zatürree, amfizem ve / veya kanser içerebilir veya bu bulguların hiçbirini içermeyebilir.
Çok sınıflı bir sınıflandırma probleminiz varsa = sadece bir tane "doğru cevap" = çıktılar birbirini dışlar, softmax işlevini kullanın. Softmax, çıktı sınıflarınızın olasılıklarının toplamının bire eşit olduğunu zorlayacaktır, bu nedenle belirli bir sınıfın olasılığını arttırmak için, modelinizin buna uygun olarak diğer sınıflardan en az birinin olasılığını azaltması gerekir. Örnek: El yazısı rakamlarının MNIST veri setindeki görüntüleri sınıflandırmak. Rakamın tek bir resmi yalnızca bir gerçek kimliğe sahiptir - resim aynı anda 7 ve 8 olamaz.

Referans: Sinematik ağ tasarımında sigmoid ve softmax'ın ne zaman kullanılacağına dair ayrıntılı açıklamalar için, örneğin hesaplamalar dahil, lütfen bu makaleye bakınız: "Sınıflandırma: Sigmoid vs. Softmax."

— veritessa
kaynak

-1

Önceki cevapların tümüne eklenmesi - Herhangi bir çok-sınıflı sınıflandırma probleminin, "hepsi-bir-hepsi" yöntemini kullanarak, yani C sigmoidleri olan (C sayısı ise, C) olan ikilik sınıflandırma problemlerine indirgenebileceğini söylemek isterim sınıflar) ve her sigmoidin söz konusu sınıfta olma ya da olmama olasılığı olarak yorumlanması ve maksimum olasılığın alınması.

Örneğin, MNIST rakam örneğinde, bir softmax veya on sigmoid kullanabilirsiniz. Aslında Andrew Ng'nin Coursera ML kursunda yaptığı şey bu. Dışarı kontrol edebilirsiniz burada Andrew Ng (bana göre piton Matlab'de uyarlanan) çok sınıflı sınıflandırma için 10 sigmoidleri nasıl kullandığını ve burada piton benim SoftMax uyarlamasıdır.

Ayrıca, fonksiyonların denk olmasına rağmen (çok sınıflı sınıflandırma amacıyla) uygulamalarında (özellikle türevleri ve y'yi nasıl temsil edecekleri konusunda) biraz farklılık gösterdiğine dikkat etmek önemlidir.

Tek bir çok sınıflı sınıflandırmada (yani Softmax) birden fazla ikili sınıflandırma (yani Sigmoidler) kullanmanın büyük bir avantajı - softmax değeriniz çok büyükse (örneğin, 10K veya daha büyük bir sözlük boyutunda tek bir sıcak kelime gömme kullanıyorsanız) ) - eğitmek verimsiz olabilir. Bunun yerine antrenman setinizin küçük bir kısmını alıp sigmoidlerinizin sadece küçük bir kısmını eğitmek için kullanabilirsiniz. Negatif Örneklemenin arkasındaki ana fikir budur .

— David Refaeli
kaynak

İşlevler eşdeğer değildir, çünkü softmax ağı, çıktılar olarak sınıflar üzerinde olasılık dağılımı sağlamak için sınırlandırılmıştır: vektör negatif değildir ve 1'e toplanır . sigmoid birimleri negatif değildir ancak herhangi bir sayıya toplanabilir 0 ila arasında ; geçerli bir olasılık dağılımı değil. Bu ayrım, iki fonksiyonun nasıl farklılaştığını tanımlamak için çok önemlidir.

C

$C$

C

$C$

— Monica'yı

Eşdeğer tanımınız nedir? Benimki: Çok sınıflı sınıflandırma için herhangi bir problem olmadan kullanabilirsiniz. Ayrıca - softmax kullanan herhangi bir çoklu sınıflandırma, sigmoidler kullanan ikili-sınıflandırmalara dönüştürülebilir. Neden çıktıları 1'e toplayan dağılımlarını önemsemeliyim?

— David Refaeli

Çok etiketli sınıflandırma hakkındaki argümanınız sigmoid ve softmax'ın neden eşdeğer olmadığını gösteriyor. Softmax kullanırken, bir sınıfın olasılığını arttırmak, diğer tüm sınıfların toplam olasılığını azaltır (toplam-1 nedeniyle). Sigmoid kullanmak, bir sınıfın olasılığını arttırmak diğer sınıfların toplam olasılığını değiştirmez. Bu gözlem, sigmoidin çok etiketli sınıflandırma için makul olmasının nedenidir : tek bir örnek sınıflarına ait olabilir. Sum-to-1 ayrıca softmax'ın çoklu etiket sınıflandırması için uygun olmamasının nedenidir.

0, 1, 2, \dots, C

$0, 1, 2, \dots , C$

— Monica'yı

Seni kaybettim. Bildiğim tüm pratik amaçlar için, çoklu sigmoidler = 1 softmax. Negatif örnekleme vakasını bile ekledim, burada çoklu sigmoidler aslında softmax'a göre bir avantaja sahip.

— David Refaeli