Max-Pooling Katmanları Üzerinden Backprop?

Bu, bir süredir beni şaşırtan küçük bir kavramsal sorudur: Bir sinir ağındaki max-havuz katmanından nasıl geri yayılabiliriz?

Torch 7'nin nn kütüphanesi için bu eğitici yazıda Max Pooling katmanları ile karşılaştım . Kütüphane, gradyan hesaplamasını soyutlar ve derin bir ağın her katmanı için ileri geçişler. Gradyan hesaplamasının bir max-pooling katmanı için nasıl yapıldığını anlamıyorum.

Biliyorum bir giriş olup olmadığını nöron girmeden tabakasının , daha sonra (olarak tanımlanır ${z_i}^l$ $i$ $l$ ${\delta_i}^l$ ) tarafından verilir: ${\delta_i}^l = \frac{\partial E}{\partial {z_i}^l}$

{δ_{i}}^{l} = θ^{^{'}} ({z_{i}}^{l}) \sum_{j} {δ_{j}}^{l + 1} w_{i, j}^{l, l + 1}

${\delta_i}^l = \theta^{'}({z_i}^l) \sum_{j} {\delta_j}^{l+1} w_{i,j}^{l,l+1}$

Bu yüzden, maksimum havuzuna tabaka alacak , her zamanki gibi bir sonraki tabakanın sitesindeki; Max-havuzu nöronlar için aktivasyon fonksiyonu girdi olarak (bu maxes, üzerinde) değerlerinin bir vektörde alır ancak bu yana, artık tek bir sayı, ancak bir vektör (değildir ${\delta_j}^{l+1}$ ${\delta_i}^{l}$ ile ikame edilmesi gerekir). Bundan başka,, maksimum fonksiyonu olmak, girişlerine göre türevlenebilir değildir. $\theta^{'}({z_j}^l)$ $\nabla \theta(\left\{{z_j}^l\right\})$ $\theta$

Peki .... tam olarak nasıl çalışması gerekir?

neural-network backpropagation

— shinvu
kaynak

Yanıtlar:

Maksimum olmayan değerlere göre bir gradyan yoktur, çünkü bunları hafifçe değiştirmek çıkışı etkilemez. Ayrıca, maks, gerçekten maks. Böylece, bir sonraki katmandan gelen gradyan, sadece maks. Diğer tüm nöronlar sıfır gradyan alır.

$\delta_i^l$ $i^*$ $\left\{\delta_j^{l+1}\right\}$ $i^* = argmax_{i} (z_i^l)$

— Abora
kaynak

Ah doğru, maksimum olmayan nöronlar arasında geri yayılan bir nokta yoktur - bu çok önemli bir içgörüydü. Eğer şimdi bunu doğru anlarsam, max-pooling katmanında geriye doğru yayılma sadece maks. önceki katmandan nöron (maksimum havuzlamanın yapıldığı yer) ve bununla geriye doğru ilerlemeye devam eder.

— shinvu

Fakat aktivasyon fonksiyonunun türeviyle çarpmanıza gerek yok mu?

— Jason

@Jason: Maksimum işlevi maksimuma sahip olan aktivasyon için lokal olarak doğrusaldır, bu nedenle türevi sabittir. ) = max (0, x) aktivasyon işlevi.

— Chrigi

Adım, maksimum havuzlama için çekirdek genişliğinden az mı?

— Vatsal

Mükemmel cevap! Birden fazla girişin aynı maksimum değere sahip olduğu (örneğin 2 değerin bir ReLU'dan 0, diğer ikisi negatif olan) kenar durumundan ne haber?

— DankMasterDan

Max Havuzlama

Öyleyse, bir PR katmanının üstüne gelen bir P katmanınız olduğunu varsayalım. Sonra ileri geçiş böyle bir şey olacaktır:

$P_i = f(\sum_j W_{ij} PR_j)$

$P_i$

$grad(PR_j) = \sum_i grad(P_i) f^\prime W_{ij}$

$f = id$ $f = 0$ $f^\prime = 1$ $f^\prime = 0$

$grad(PR_{max\ neuron}) = \sum_i grad(P_i) W_{i\ {max\ neuron}}$

$grad(PR_{others}) = 0.$

— patapouf_ai
kaynak

@ Shinvu'nun cevabı iyi yazılmış, Max () işleminin derecesini açıklayan bir videoya ve bunu kavramak için hızlı olan bir hesaplama grafiğine işaret etmek istiyorum.!

maxpool işlemini uygularken (hesaplamalı grafikte hesaplamalı bir düğüm-NN mimariniz), bir fonksiyona ihtiyacımız var, matrisin maksimumunun nerede olduğunu izleyen bir "maske" matrisi yaratırız. Doğru (1), X cinsinden maksimumun konumunu belirtir, diğer girdiler Yanlış (0) olur. Maksimum konumun izini sürüyoruz çünkü sonuçta çıktıyı ve dolayısıyla maliyeti etkileyen girdi değeridir. Backprop, maliyete göre degradeleri hesaplar; bu nedenle, en yüksek maliyeti etkileyen her şey sıfır olmayan bir degradeye sahip olmalıdır. Bu nedenle backprop, gradyanı, maliyeti etkileyen bu belirli giriş değerine geri "iletir".

— anu
kaynak