Girişler koşullu olarak bağımsız olduğunda hiper düzlemler verileri en iyi şekilde sınıflandırır - Neden?


10

Derin Öğrenme ve Bilgi Darboğaz Prensibi adlı makalede yazarlar bölüm II A) 'da belirtilmektedir:

Tek nöronlar, yalnızca lineer olarak ayrılabilir girdileri sınıflandırır, çünkü giriş alanlarında sadece hiper düzlemler uygulayabilirler u=wh+b. Girişler koşullu olarak bağımsız olduğunda hiper düzlemler verileri en iyi şekilde sınıflandırabilir.

Bunu göstermek için aşağıdakileri elde ederler. Bayes teoremini kullanarak şunları elde ederler:

p(y|x)=11+exp(logp(x|y)p(x|y)logp(y)p(y)) (1)

Nerede x girdi, y sınıf ve y tahmin edilen sınıf (sanırım, ytanımlanmamış). Devam ederek şunları söylüyorlar:

p(x|y)p(x|y)=j=1N[p(xj|y)p(xj|y)]np(xj) (2)

Nerede N girdi boyutu ve nEmin değilim (yine her ikisi de tanımsız). Sigmoid aktivasyon fonksiyonu ile sigmoidal bir nöron göz önüne alındığındaσ(u)=11+exp(u) ve ön aktivasyon u, (2) 'ye (1) yerleştirdikten sonra optimum ağırlık değerlerini alıyoruz wj=logp(xj|y)p(xj|y) ve b=logp(y)p(y), girdi değerleri hj=np(xj).

Şimdi sorularıma geçelim. (2) 'yi (1)' e eklemenin optimal ağırlık ve giriş değerlerine nasıl yol açtığını anlıyorumw,b,h. Ancak anlamadığım şey şudur:

  1. (1) Bayes teoremi kullanılarak nasıl türetilir?
  2. (2) nasıl türetilir? Nedirn? Bunun anlamı nedir? Şartlı bağımsızlıkla bir ilgisi olduğunu düşünüyorum
  3. X'in boyutları şartlı olarak bağımsız olsa bile, kişi ölçeklendirilmiş olasılığına eşit olduğunu nasıl belirtebilir? (yani nasıl ifade edebilirsinizhj=np(xj)?)

EDIT: Değişken ybir ikili sınıf değişkenidir. Bundan varsayıyorum kiy"diğer" sınıftır. Bu soru 1'i çözecektir. Kabul ediyor musunuz?


Makalenin yazarı (Prof. Tishby) tarafından verilen cevaptaki işaretçilere rağmen, denklem 2'nin nereden geldiğini anlamak için uğraşıyorum. Koşullu bağımsızlık varsayımından gelen kısmı anlıyorum. Ancak, üs hakkında emin değilimnp(xj)- neden orada?
IcannotFixThis

Yanıtlar:


5

Kısa yazımızdaki eksik ayrıntılar için özür dileriz, ancak Olabilirlik Oranı testi ile sigmoidal nöronlar arasındaki bu ilişkiler ve bağlantılar kesinlikle yeni değildir ve ders kitaplarında bulunabilir (örn. Bishop 2006). Yazımızda, 'N' girdi boyutudur ve 'n' test örneği boyutudur (SNR'nin sqrt (n) gibi büyüdüğü varsayımı altında aslında giriş SNR'ye çevrilmiştir). Sigmoidal işleve bağlantı, sınıfın arka tarafı olarak Bayes kuralı ile yapılır. Kağıdın geri kalanındaki hiçbir şey ve 2017'deki daha yeni ve daha önemli makalemiz aslında buna bağlı değil.

Naftali Tishby


2
Bunu burada açıkladığınız için teşekkürler. İlgilenen okuyucuların kaynakları arayabilmeleri için tam alıntılar yazmak bu toplulukta standart bir uygulamadır. Bunu Bishop (2006) için yapabilir misiniz?
mkt - Monica

5

Bu, yazarların ilgilenen ikili bir değişkeniniz olduğunda geçerli olan özel bir Bayes teoremi formu kullandıkları bir model kurulumudur. Önce bu özel Bayes teoremi formunu Denklem (1) olarak türetirler ve sonra Denklem (2) 'deki durumun ağları için belirtilen doğrusal forma yönlendirdiğini gösterirler. İkinci denklemin önceki koşullardan türetilmediğine daha ziyade, ağları için kullandıkları doğrusal form için bir koşuldur .


Birinci denklemin türetilmesi: Makaledeki denklem (1) , olasılık ve önceki fonksiyonlar üzerinde çalışan standart lojistik (sigmoid) fonksiyonu açısından koşullu ilgi olasılığını çerçeveleyen Bayes teoreminin sadece bir şeklidir . almay ve y rastgele değişkenin iki ikili sonucu olmak Yve Bayes teoremini uygulayarak şunları verir:

p(y|x)=p(y,x)p(x)=p(x|y)p(y)p(x|y)p(y)+p(x|y)p(y)=11+p(x|y)p(y)/p(x|y)p(y)=11+exp(log(p(x|y)p(y)p(x|y)p(y)))=11+exp(logp(x|y)p(x|y)logp(y)p(y))=logistic(logp(x|y)p(x|y)+logp(y)p(y)).

Denklem (2) 'nin ağın lienar formu için bir koşul olarak kullanılması: Yukarıda belirtildiği gibi, bu denklem önceki sonuçlardan türetilen bir şey değildir. Daha ziyade, bir yeterlidir koşul yazarlar yani kendi modelinde --- kullandıkları doğrusal forma potansiyel müşteriler, Yazarlar söyleyerek olduğunu eğer bu denklem tutar, daha sonra belli müteakip sonuçlar izleyin. Girdi vektörünü serbest bırakmax=(x1,...,xN) uzunluğa sahip olmak N, Denklem (2) tutarsa, her iki tarafın logaritmasını almak:

logp(x|y)p(x|y)=logi=1N[p(xi|y)p(xi|y)]np(xi)=i=1Nnp(xi)log[p(xi|y)p(xi|y)]=i=1Nhiwi.

Bu koşul altında, posterior formu elde ederiz:

p(y|x)=logistic(logp(x|y)p(x|y)+logp(y)p(y))=logistic(i=1Nhiwi+b),

yazarların kendi ağlarında kullandıkları biçimdir. Bu, Denklemler (1) - (2) belirtmeden önce arka plan bölümünde yazarlar tarafından öne sürülen model formudur. Kağıt tanımlamıyornBu model kurulumunda, ancak belirttiğiniz gibi, Prof Tishby'nin cevabı bunun test örneği boyutu olduğunu söylüyor. Üçüncü sorunuzla ilgili olarak, Denklem (2) gereksiniminin,xedilir değil şartlı bağımsız verileny.


Prof. Tishby (yazar) kendi cevabında şöyle diyor: ntest örneği boyutudur. Bu yüzden eq (2) 'nin ağın doğrusal formuna ilişkin keyfi bir koşuldan çok daha zengin bir yorumu olduğunu hissettim.
IcannotFixThis

Teşekkürler - Cevabımı bu ek bilgileri yansıtacak şekilde düzenledim.
Ben - Monica'yı eski

4

1 için

P(y|x)=P(y,x)P(x)

=P(y,x)ΣbenP(yben,x)

Şimdi olduğu gibi yben ikili, bu olur:

=P(y,x)P(y,x)+P(y',x)

=11+P(y',x)P(y,x)

=11+exp[-lÖg P(y,x)P(y',x)]

ve oradan sadece nihai forma ulaşmak için logaritmanın özelliği (bu noktaya kadar yeterince açık olmalı, değilse bana bildirin).

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.