Bu yüzden evrişimsel ağları kullanarak insanların görüntülerini silmeye çalışıyorum. Kağıtları ( Paper1 ve Paper2 ) ve bu stackoverflow bağlantısını okudum , fakat ağların yapısını anladığımdan emin değilim (gazetelerde iyi tanımlanmamış).
Sorular:
Girişimi, ardından bir ses katmanı, ardından bir conv katmanı, ardından bir havuz katmanı izleyebilirim - sonra - çıktımı vermeden önce havuzun havuzunu düzeltir miyim (bu benim giriş resmimle aynıdır)?
Diyelim ki birkaç (135,240) görselim var. 32, (12,21) çekirdek ve ardından (2,2) havuz kullanırsam, 32 (62, 110) özellik haritası ile bitirdim. Şimdi 32 (124, 220) özellik haritası almak ve bunları düzeltmek için havuzdan ayrılıyor muyum? (135,240) çıkış katmanımı vermeden önce?
Bu tür çoklu havuz katları varsa, bunları yığılmış dengelenmiş otomatik kodlayıcılardaki gibi tek tek eğitmeli miyim? Veya - input-conv-pool-conv-pool-conv-pool-output (çıktı girdiyle aynı) gibi bir şey alabilir miyim? Bu durumda, havuzlama, depooling nasıl yönetilmeli? Çıktıdan önce sadece son havuz katmanındaki havuzdan ayrılmalı mıyım? Ve yine - bu havuzdan çıkarmanın boyutlandırma faktörü ne olmalıdır? Özellik haritalarını tekrar giriş şekline getirme niyeti var mı?
Her conv-pool-depool katmanından sonra gürültü katmanları oluşturmalı mıyım?
Ve sonra ince ayar yaparken - havuzdan çıkarma katmanlarını kaldırmam ve gerisini aynı bırakmam gerekir mi? Yoksa hem gürültü katmanlarını hem de biriktirme katmanlarını temizlemeli miyim
Herhangi biri beni, görüntüler üzerinde önceden eğitim yapmak için böyle bir evrişimli otomatik kodlayıcının mimarisini ayrıntılandıran bir url / kağıda işaret edebilir mi?