Sinir ağında maxout nedir?


42

Bir sinir ağındaki maxout birimlerinin ne yaptığını açıklayan var mı? Nasıl performans gösterirler ve geleneksel birimlerden nasıl farklıdırlar?

Goodfellow ve arkadaşlarının 2013 "Maxout Network" belgesini okumaya çalıştım . (Profesör Yoshua Bengio'nun grubundan), ama tam olarak anlamadım.

Yanıtlar:


26

Bir maxout katmanı, sadece aktivasyon fonksiyonunun girişlerin maksimum olduğu bir katmandır. Kağıtta belirtildiği gibi, 2 maxout üniteli bir MLP bile herhangi bir işlevi yerine getirebilir. Maxout'un neden iyi performans gösterdiğine dair birkaç neden veriyorlar, ancak verdikleri asıl sebep şudur:

Bırakma, her yinelemede rastgele bir alt ağın eğitildiği ortalama bir model biçimi olarak düşünülebilir ve sonunda bu gibi farklı rastgele ağların ağırlıklarının ortalaması alınır. Biri ağırlıkları açıkça ortalayamadığından, bir yaklaşım kullanılır. Bu yaklaşım bir tam doğrusal ağ için
maxout olarak, maxout tabakasına girişi düşürme. Bu nedenle, bir veri noktası için maksimum değeri veren girişin kimliği değişmeden kalır. Bu yüzden, bırakma sadece MLP'nin lineer kısmında meydana gelir, ancak bir tanesi maxout katmanı nedeniyle herhangi bir fonksiyonu hala yaklaşık olarak alabilir.
Bırakma yalnızca doğrusal kısımda gerçekleştiğinden, ortalama yaklaşım yaklaşımı doğrusal ağlar için kesin olduğu için bunun ortalama modellemede daha verimli bir modele yol açtığını varsaymaktadırlar.

Kodları burada mevcuttur .


1
Teşekkürler! Şimdi nasıl maxout yapacağımı biliyorum. Birkaç sorum var. (1) Yani yazdıklarınıza göre, çıkmaza girmeden önce bırakma yapmazsınız. “Maxout'ta, girdileri maxout katmanına bırakmazlar.”? (2) MLP'nin lineer kısmı ile ne anlama geliyor? “Dolayısıyla, bırakma yalnızca MLP’nin doğrusal kısmında gerçekleşir, ancak bir tanesi maxout katmanı nedeniyle hala herhangi bir işlevi yerine getirebilir.” (3) Neden daha iyi ortalama alıyorsunuz? “Bırakma yalnızca doğrusal kısımda gerçekleştiği için, ortalama değer yaklaşımı doğrusal ağlar için tam olduğu için bunun ortalama modellemenin daha verimli olmasına yol açtığını tahmin ediyorlar.”
RockTheStar

2
(1) Anladığım kadarıyla, bir maxout katman düğümü ve . Böylece maxout katmanına giriş düğümleri daha derin katmanlarda düğümlerin doğrusal kombinasyonlarıdır. Çıkarma, maxout katmanı veya z katmanı için yapılmaz, ancak bundan daha derin katmanlar için yapılır. (2) Doğrusal kısım ile, doğrusal ağlarda olduğu gibi sadece ortalama ortalama aktivasyon işlevlerine (3) göre daha iyi ortalamaya sahip gizli katmanlar anlamına gelir, bırakma tarafından kullanılan ortalama şema kesindir. Genel olarak NN doğrusal değildir, ancak maksut ile NN'nin çoğunu doğrusal yapar ve yalnızca doğrusal kısımda bırakma yapar. max(zi)zi=kxk
Opt

Teşekkürler! (3) için "kesin" ile ne anlama geliyor ve NN neden maxout ile doğrusallaşıyor? Yardımın için çok teşekkürler.
RockTheStar

1
Nah maxout bir ağ mimarisidir. Bırakma bir düzenlileştirme tekniğidir
Opt

1
-1 Bu, Goodfellow'un maxout aktivasyon fonksiyonunun doğru bir tanımı değildir. @ Toussaint-louverture tarafından verilen cevap doğru. stats.stackexchange.com/a/298705/20587
Trisoloriansunscreen

15

Bir maxout birimi parça parçaya göre doğrusal, dışbükey işlevi k parçalara kadar öğrenebilir . 1

Böylece k 2 olduğunda, ReLU'yu, mutlak RELU'yu, sızdıran ReLU'yu vb. K'nin 10 olduğunu varsayalım, yaklaşık dışbükey işlevini bile öğrenebilirsiniz.

K 2 olduğunda:

Maxout nöronu fonksiyonunu hesaplar . Hem ReLU hem de Leaky ReLU bu formun özel bir durumudur (örneğin, ReLU için ). Bu nedenle, Maxout nöronu, bir ReLU ünitesinin (doğrusal çalışma rejimi, doygunluk yok) tüm faydalarından yararlanır ve dezavantajları yoktur (ölen ReLU).max(w1Tx+b1,w2Tx+b2)w1,b1=0

Bununla birlikte, ReLU nöronlarının aksine, her bir nöron için parametre sayısını iki katına çıkarır, bu da yüksek bir toplam parametre sayısına yol açar. 2

Ayrıntıları buradan okuyabilirsiniz:
1. DL kitap
2. http://cs231n.github.io/neural-networks-1


Tüm ağırlıkları değil, yalnızca önyargı parametrelerini ikiye katlar.
Hans
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.