Sinir ağlarında sigmoid çıkış birimlerini, ve doğrusal olmayan normal olmayan günlük olasılıklarıyla başlayarak


12

Arka plan: Ian Goodfellow ve Yoshua Bengio ve Aaron Courville'in Deep Learning'in 6. bölümünü inceliyorum. Bölüm 6.2.2.2 olarak (sayfa 183 182 buradan görülebilir ) çıkışı sigmoid kullanımı harekete geçirilir.P(y=1|x)

Malzemenin bazılarını özetlemek için, etkinleştirme uygulanmadan önce bir çıkış nöronu olmasını sağlarlar; burada , önceki gizli katmanın çıktısıdır, , ağırlıkların bir vektörü ve , skaler bir sapmadır. Giriş vektörü ( bir fonksiyonu olduğu) ve çıkış değeri burada sigmoid fonksiyonudur. Kitap , değerini kullanarak üzerinde bir olasılık dağılımı tanımlamak istemektedir . Sayfa 183'ün ikinci paragrafından:

z=wTh+b
hwbxhy=ϕ(z)ϕyz

Şu an için bağımlılığını, değerini kullanarak üzerinde bir olasılık dağılımının nasıl tanımlanacağını tartışıyoruz . Sigmoid, 1'e eşit olmayan normal olmayan bir olasılık dağılımı inşa edilerek motive edilebilir. Daha sonra geçerli bir olasılık dağılımı elde etmek için uygun bir sabitle bölebiliriz. Normalleştirilmemiş log olasılıklarının ve cinsinden doğrusal olduğu varsayımıyla başlarsak , normalleştirilmemiş olasılıkları elde etmek için üs alabiliriz. Daha sonra bunun, z'nin sigmoidal bir dönüşümüyle kontrol edilen bir Bernoulli dağılımı sağladığını görmek için normalize ederiz: xyzP~(y)yz

logP~(y)=yzP~(y)=exp(yz)P(y)=exp(yz)y=01exp(yz)P(y)=ϕ((2y1)z)

Sorular: İki şey hakkında kafam karıştı, özellikle de ilk:

  1. İlk varsayım nereden geliyor? Normalleştirilmemiş log olasılığı ve neden doğrusal ? Birisi bana yazarların ile nasıl başladıkları hakkında bir başlangıç ​​yapabilir mi?z günlüğü ˜ P ( y ) = y zyzlogP~(y)=yz
  2. Son satır nasıl takip ediyor?

Yanıtlar:


8

için iki olası sonuç vardır . Bu özellik çok önemlidir, çünkü bu özellik çarpmanın anlamını değiştirir. İki olası durum vardır:y{0,1}

logP~(y=1)=zlogP~(y=0)=0

Ayrıca için normalleştirilmemiş logaritmik olasılığın sabit olduğunu fark etmek önemlidir . Bu özellik ana varsayımdan kaynaklanmaktadır. Herhangi bir deterministik fonksiyonun sabit değere uygulanması sabit çıktı üretir. Bu özellik, tüm olası olasılıklar üzerinde normalleştirme yapacağımız zaman son formülü basitleştirecektir, çünkü sadece için yalnızca normalleştirilmemiş olasılığı bilmemiz gerekir ve için her zaman sabittir. Ve ağdan çıktılar normalleşmemiş logaritmik olasılıkta olduğundan sadece bir çıktıya ihtiyacımız olacak, çünkü diğerinin sabit olduğu varsayıldı.y=0y=1y=0

Daha sonra, normalleştirilmemiş olasılık elde etmek için normalleştirilmemiş logaritma olasılığına üs alma uyguluyoruz.

P~(y=1)=ezP~(y=0)=e0=1

Daha sonra, her normalleştirilmemiş olasılığı tüm normalleştirilmemiş olasılıkların toplamına bölerek olasılıkları normalleştiririz.

P(y=1)=ez1+ezP(y=0)=11+ez

Sadece ile ilgileniyoruz , çünkü sigmoid fonksiyonundan olasılık budur. Elde edilen fonksiyon ilk bakışta sigmoid gibi görünmüyor, ancak eşitler ve gösterilmesi kolay.P(y=1)

P(y=1)=ex1+ex=1ex+1ex=11+1ex=11+ex

Son ifade ilk başta kafa karıştırıcı olabilir, ancak bu sadece son olasılık işlevinin bir sigmoid olduğunu göstermenin bir yoludur. değeri dönüştürür için ve ile (ya da bunun bir değişiklik olmadan söyleyebiliriz).(2y1)0111

P(y)=σ((2y1)z)={σ(z)=11+ez=ez1+ezwhen y=1σ(z)=11+e(z)=11+ezwhen y=0

Gördüğümüz gibi, ve arasındaki ilişkiyi göstermenin yoluσP(y)


"Ayrıca, için normalleştirilmemiş logaritmik olasılığın sabit olduğunu fark etmek önemlidir . Bu özellik ana varsayımdan kaynaklanmaktadır." Varsayım olduğuna karar vermiş miyiz ? y=0y=1
HBeel

Sanırım karışıklığım, sigmoid'in gerçek etikete bakılmaksızın modelin olasılığını verdiği gerçeğinden geldi . Teşekkürler! y=1
HBeel

Burada kalın olmak istemezsiniz, ancak , ve nasıl doğrusaldır ? Ben şeklinde bir şey beklerdim . Farkındayım ürün üzerinde yakın doğrusallığı beni alacaktı ama bu yazarın belirtilen ne doğrudan olmak görünmüyor toplamını verecektir. y×zyzay+bz+clogyz
04:46

Görüyorum ki, bu gerçekten ilginç bir soru. Soruyu ilk kez okuduğumda bu ifadeye dikkat etmedim. Şimdi bana da garip geliyor. Bir sorun y ikili değişken ve nasıl bu koşullar altında doğrusal işlevin özelliklerini kontrol emin değilim. Sanırım ayrı sorular sormanız mantıklı olacaktır, belki birisi size neden bu şekilde yazıldığını açıklayabilir.
itdxer

2

Ayrıca kitabın bu parçasını takip etmeyi zor buluyorum ve itdxer'in yukarıdaki cevabı, olasılıklar ve matematik düşüncesiyle düzgün bir şekilde akıcı olmayan biri için de anlaşılması oldukça zaman alıyor. Ancak cevabı geriye doğru okuyarak yaptım, bu yüzden z'nin sigmoidiyle başlayın

P(y=1)=ez1+ez=11+ez

ve takip etmeye çalışın.

logP~(y)=yz

O zaman açıklamaya neden yz ile başladıkları mantıklı - tasarımla, finalle aynı

σ((2y1)z)

yapı ile Bernoulli altında y'nin tek olası değerleri olan y = 0 için -1 ve y = 1 için 1 elde edilmesini sağlar.


0

Ölçü teorik geçmişi olanlara hitap edecek daha resmi bir ifade.

Let bir Bernoulli rv olabilir ve izin için pushforward ölçü, örneğin, ifade , ve izin göstermektedirler onun normalleştirilmemiş muadili.YPYy{0,1}PY(y)=P(Y=y)P~Y

Aşağıdaki çıkarım zincirine sahibiz:

logP~Y(y)=yzP~Y(y)=exp(yz)PY(y)=eyze0z+e1z=eyz1+ezPY(y)=yez1+ez+(1y)11+ezPY(y)=yσ(z)+(1y)σ(z)PY(y)=σ((2y1)z)

Son eşitlik, ile arasında eşlemenin akıllı bir yoludur{ - 1 , 1 }{0,1}{1,1}

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.