Gönderdiğiniz ikinci evrişimli sinir ağı (CNN) mimarisi bu makaleden alınmıştır . Makalede yazarlar, S2 ve C3 katmanları arasında ne olduğuna dair bir açıklama yapmaktadır. Ancak açıklamaları çok açık değil. Bu CNN mimarisinin 'standart' olmadığını söyleyebilirim ve CNN'ler için ilk örnek olarak oldukça kafa karıştırıcı olabilir.
28×285×5M×MN×NM≥N(M−N+1)×(M−N+1)
S2 katmanı ile C3 katmanı arasında olan şu. C3 katmanında, S2 katmanındaki 6 özellik haritasından üretilen 16 özellik haritası vardır. C3 katmanındaki filtre sayısı gerçekten açık değildir. Aslında, sadece mimari şemadan, bu 16 özellik haritasını üreten tam filtre sayısının ne olduğuna karar verilemez. Makalenin yazarları aşağıdaki tabloyu sunmaktadır (sayfa 8):
Tabloda aşağıdaki açıklamaları verilmektedir (sayfa 7'nin altında):
5 × 5
Tabloda yazarlar, C3 katmanındaki her özellik haritasının 3 veya daha fazla özellik haritasını birleştirerek oluşturulduğunu gösterir (sayfa 8):
İlk altı C3 özellik haritası, S2'deki üç özellik haritasının her bitişik alt kümesinden girdi alır. Sonraki altı, dördün her bitişik alt kümesinden girdi alır. Sonraki üçü, dörtlü süreksiz alt kümelerden girdi alır. Son olarak, sonuncusu tüm S2 özellik haritalarından girdi alır.
Şimdi, C3 katmanında kaç filtre var? Ne yazık ki, bunu açıklamıyorlar. En basit iki olasılık:
- Her C3 özellik haritası için S2 özellik haritası başına bir filtre vardır, yani aynı C3 özellik haritası ile ilişkili S2 özellik haritaları arasında filtre paylaşımı yoktur.
- C3 özellik haritası başına, birleştirilmiş S2 katmanının (3 veya daha fazla) özellik haritası boyunca paylaşılan bir filtre vardır.
Her iki durumda da, 'birleştirmek' S2 özellik harita grubu başına evrişim sonuçlarının üretilen C3 özellik haritalarıyla birleştirilmesi gerektiği anlamına gelir. Yazarlar bunun nasıl yapıldığını belirtmezler, ancak ekleme yaygın bir seçimdir (örneğin, bu sayfanın ortasına yakın olan hareketli gif'e bakın .
Yazarlar, mimariyi deşifre etmemize yardımcı olabilecek bazı ek bilgiler veriyorlar. 'C3 katmanının 1.516 eğitilebilir parametresi var' derler (sayfa 8). Bu bilgileri yukarıdaki (1) ve (2) vakaları arasında karar vermek için kullanabiliriz.
( 6 × 3 ) + ( 9 × 4 ) + ( 1 × 6 ) = 60( 14 - 10 + 1 ) x ( 14 - 10 + 1 ) = 5 x 55 x 5 x 60 = 1 , 5001 , 500 + 16 = 1 , 516( 5 × 5 × 16 ) + 16 = 416
Bu nedenle, yukarıdaki Tablo I'e tekrar bakarsak , her S2 özellik haritası ile ilişkili 10 farklı C3 filtresi vardır (bu nedenle toplamda 60 ayrı filtre).
Yazarlar bu tür bir seçimi açıklar:
Farklı katman haritaları [C3 katmanında] farklı girdi setleri elde ettikleri için farklı (umarım tamamlayıcı) özellikler çıkarmaya zorlanırlar.
Umarım bu durum netleşir.