DropOut evrişimsel katmanlarla tam olarak nasıl çalışır?


10

Bırakma ( kağıt , açıklama ) bazı nöronların çıkışını sıfıra ayarlar. Bir MLP için, Iris çiçeği veri kümesi için aşağıdaki mimariye sahip olabilirsiniz :

4 : 50 (tanh) : dropout (0.5) : 20 (tanh) : 3 (softmax)

Şu şekilde çalışır:

softmax(W3tanh(W2mask(D,tanh(W1input_vector)))

ile , B 1R, 50 x 4 , D { 0 , 1 } 50 x 1 , B 2R, 20 x 50 , W, 3R 20 × 3 (basitlik uğruna önyargıları görmezden gelmek).input_vectorR4×1W1R50×4D{0,1}50×1W2R20×50W3R20×3

İle veD=(d)ij

dijB(1,p=0.5)

burada işlemi D ile W noktasını M ile çarpar (bakınız Hadamard ürünü ).mask(D,M)DM

Bu nedenle, matrisini her seferinde örnekliyoruz ve böylece bırakma, bir düğümün 0 ile çarpımı haline geliyor.D

Ancak CNN'ler için tam olarak neyin bırakıldığını net değil. Üç olasılık görebiliyorum:

  1. Tam özellik haritalarını bırakma (dolayısıyla bir çekirdek)
  2. Bir çekirdeğin bir öğesini bırakma (bir çekirdeğin bir öğesini 0 ile değiştirme)
  3. Özellik haritasının bir öğesini düşürme

Lütfen cevabınıza bir referans / teklif ekleyin.

Düşüncelerim

Bence Lasagne yapar (3) ( koda bakınız ). Bu, uygulanması en basit yöntem olabilir. Ancak, orijinal düşünceye daha yakın olabilir (1).

Caffe için benzer görünüyor ( koda bakınız ). Tensorflow için, kullanıcı karar vermelidir ( kod - noise_shape=Nonegeçtiğinde ne olduğundan emin değilim ).

Nasıl olmalı

(2) ve (3), büyük olasılıkla istenmeyen, ağın uzaysal konumlara değişmezlik katmasına neden olacağı için çok mantıklı değildir. Dolayısıyla (1) mantıklı olan tek değişkendir. Ancak varsayılan uygulamayı kullanırsanız ne olacağından emin değilim.



Arkadaşım (2) ve (3) 'ün iyi bir fikir olmayabileceğini, çünkü ağı bilgiyi mekânsal olarak yaymaya zorlayabileceğini belirtti.
Martin Thoma

Yanıtlar:


1

lW(l+1)

Daha fazla ayrıntı için, bu makaledeki 3. bölümün size yardımcı olabileceğini düşünüyorum: Maksimum havuz oluşturma ve Evrişimsel çıkış . Özellikle 3.2.

Test ettiğinizde ağın tüm düğümlerini kullanırsınız, ancak filtrenin ağırlıkları, kağıtta açıklandığı gibi tutma olasılığı ile ölçeklendirilir.

Lütfen cevabımı düzeltmek veya düzeltmek için çekinmeyin.

Umarım bu en azından biraz yardımcı olur.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.