Bu soru, "evrişim katmanlarının tam olarak nasıl çalıştığını" gösterir.
Bir gri tonlamalı görüntüm olduğunu varsayalım . Yani görüntünün bir kanalı var. Birinci tabaka içinde, bir uygulama 3 x 3 ile kıvrım k 1 filtre ve dolgu. Sonra başka bir büklüm katmanı 5 x 5 kıvrımlar ve k 2 filtreler. Kaç tane özellik haritam var?
Tip 1 evrişim
İlk katman idam edilir. Ondan sonra özellik haritasına sahibim (her filtre için bir tane). Bunların her biri n × m boyutundadır . Her bir piksel, yastıklı giriş görüntüsünden 3 ~ 3 = 9 piksel alınarak oluşturulmuştur .
Sonra ikinci katman uygulanır. Her bir filtre , özellik haritalarının her birine ayrı ayrı uygulanır . Bu sonuçlar özelliğin her için eşleyen k 1 haritalarda. Böylece , ikinci katmandan sonra k 1 × k 2 özellik haritaları vardır. Yeni özellik haritalarının her birinin her bir piksel alarak oluşturulan got 5 ⋅ 5önceden doldurulmuş özellikli harita haritasından = 25 "piksel".
Sistem k 1 ⋅ 3 ⋅ 3 + k 2 ⋅ 5 öğrenmek zorundadır parametrelerini.
Tip 2.1 evrişim
Daha önce olduğu gibi: İlk katman uygulanır. Ondan sonra özellik haritasına sahibim (her filtre için bir tane). Bunların her biri n × m boyutundadır . Her bir piksel, yastıklı giriş görüntüsünden 3 ~ 3 = 9 piksel alınarak oluşturulmuştur .
Daha önce farklı olarak: Sonra ikinci katman uygulanır. Her bir filtre aynı bölgeye uygulanır, ancak hepsinde önceleri harita bulunur . Bu, özellik haritalarının, ikinci katman yürütüldükten sonra toplamda sonuçlanır . Her yeni özellik haritasının her bir pikseli k 2 ⋅ 5 ⋅ 5 = 25 ⋅ k alınarak oluşturulmuşturönceden doldurulmuş özellik haritalarının 2 "piksel" değeri alınarak oluşturulmuştur.
Sistem parametrelerini öğrenmek zorundadır .
Tip 2.2 evrişim
Yukarıdaki gibi, ancak öğrenilmesi ve diğer giriş özelliği haritaları için basitçe kopyalanması gereken, filtre başına parametre olması yerine, k 1 ⋅ 3 ⋅ 3 + k 2 ⋅ k 1 ⋅ 5 ⋅ 5 paragraf öğrenilmesi gereken.
Soru
- Tip 1 mi yoksa tip 2 tipik olarak mı kullanılıyor?
- Alexnet'te hangi tip kullanılır ?
- GoogLeNet'te hangi tip kullanılır ?
- Tip 1 diyorsan: Neden konvolüsyonlar mantıklı geliyor? Verileri sadece sabitle çarpmazlar mı?
- Tip 2 diyorsanız: Lütfen ikinci dereceden maliyeti açıklayın ("Örneğin, derinlemesine bir ağda, iki katlanır zincir zincirlenmişse, filtrelerin sayısındaki herhangi bir eşit artış, ikinci dereceden bir hesaplama artışıyla sonuçlanır")
Tüm cevaplar için, lütfen cevabınızın doğru olduğuna dair bazı kanıtlar (belgeler, ders kitapları, çerçevelerin dokümantasyonu) verin.
Bonus sorusu 1
Havuzlama her zaman yalnızca özellik haritası için mi uygulanır yoksa birden fazla özellik haritası üzerinde de yapılır mı?
Bonus soru 2
Tip 1'in doğru olduğundan ve GoogLe makalesinde yanlış bir şey yaptığımdan eminim. Ancak bir de 3D konvolüsyonu var. boyutunda 1337 özellik haritanız olduğunu ve 3 × 4 × 5 filtreyeFiltreyi özellik haritaları üzerinde nasıl kaydırırsınız? (Soldan sağa, yukarıdan aşağıya, ilk özellik haritasına kadar ilk özellik haritası?) Tutarlı yaptığınız sürece önemli mi?
Araştırmam
- İki makaleyi yukarıdan okudum, fakat ne kullanıldığından hala emin değilim.
- Lazanya belgelerini okudum
- Bu belgeyi okudum
- Konvolüsyonel sinir ağlarını anlama konusundaki cevapları okudum (tüm bağlantıları takip etmeden)
- I've read Convolutional Neural Networks (LeNet). Especially figure 1 makes me relatively sure that Type 2.1 is the right one. This would also fit to the "quadratic cost" comment in GoogLe Net and to some practical experience I had with Caffee.