CNN'de filtre boyutu, adım vb. Seçilmeli mi?

12

Stanford'un CS231N derslerine bakıyordum ve kafamı CNN mimarilerindeki bazı sorunların etrafına sarmaya çalışıyorum. Anlamaya çalıştığım şey, evrişim filtre boyutu ve adım gibi şeyler seçmek için bazı genel kurallar varsa veya bu bir bilimden daha fazla bir sanat mı?

Anladığım havuzlama esas olarak bir çeşit çeviri değişmezliğini bir modele sokmak için var. Öte yandan, adım boyutunun nasıl seçildiğine dair iyi bir sezgim yok. Geçerli katman boyutunu sıkıştırmaya çalışmak veya bir nörona daha geniş bir alıcı alan elde etmeye çalışmak dışında başka yönergeler var mı? Bunu tartışan iyi makaleler veya benzerleri bilen var mı?

neural-networks deep-learning conv-neural-network

— dst
kaynak

9

Adını verdiğiniz tüm konulara bir giriş metni olarak, derin öğrenme kitabını tavsiye ederim . Alan hakkında geniş bir genel bakış sağlar. Bu parametrelerin her birinin oynadığı rolü açıklar.

Bence en popüler mimarilerden bazılarını (resnet, başlangıç, alex-net) okumak ve tasarım kararlarına yol açan temel fikirleri çıkarmak çok yararlıdır. Yukarıda belirtilen kitabı okuduktan sonra.

Bahsettiğiniz derslerin müfredatında, evrişim katmanının nasıl çok sayıda parametre (ağırlık, önyargı) ve nöron eklediği ayrıntılı olarak açıklanmaktadır. Bu katman, bir kez eğitildikten sonra, görüntüden anlam kalıpları çıkarabilir. Alt katmanlar için bu filtreler kenar çıkarıcılara benzer. Daha yüksek katmanlar için, bu ilkel şekiller daha karmaşık formları tanımlamak için birleştirilir. Bu filtreler çok sayıda parametre içerir ve karmaşık ağların nasıl tanımlanabileceği ve yine de parametre sayısını azaltabileceği konusunda derin ağların tasarımında büyük bir sorun vardır.

Komşu pikseller güçlü bir şekilde ilişkilendirildiğinden (özellikle en alt katmanlarda), filtre yanıtını alt örnekleyerek (havuzlaştırarak) çıktının boyutunu küçültmek mantıklıdır. İki piksel birbirinden ne kadar uzak olursa, o kadar az ilişkilidir. Bu nedenle, havuzlama katmanında büyük bir adım yüksek bilgi kaybına yol açar. Bilinçsiz konuşma. Havuzlama katmanı için 2 adımlı bir adım ve 2x2 boyutunda bir çekirdek yaygın bir seçimdir.

Daha sofistike bir yaklaşım, daha geniş ağlar için bir başlangıç modülüne karşı evrişimsel bir katmandaki parametre sayısını alıp fikrin seyrekliği arttırmak, ancak daha yüksek bir doğruluk elde edebilmek olan Başlangıç ağıdır ( kıvrımlarla daha derine inmek ).

Mevcut mimariler ve tasarım boyutlarının bazılarının yapılandırılmış, sistematik bir şekilde rolü hakkında ipuçları veren güzel bir kağıt SqueezeNet: 50 kat daha az parametre ve <0,5 MB model boyutuyla AlexNet düzeyinde doğruluk . Daha önce bahsedilen modellerde tanıtılan fikirler üzerine kuruludur.

— jpmuc
kaynak

1

Öğrenme süresi boyunca daha iyi öğrenmeyi düşünüyorsanız, bu çekirdek ve adım boyutlarını önermek istiyorum;

Filtre boyutuyla ilgili olarak, görüntü özelliklerinize bağlı olduğunu düşünüyorum. Örneğin , ağın nesneyi tanıması için büyük miktarda piksel gerekir, diğer yandan nesneler biraz küçük veya yerel özellikler ise, giriş görüntü boyutunuza göre daha küçük filtreler uygulamayı düşünebilirsiniz.

Adım boyutu için, benim için, küçük adım girdi görüntüsünün daha ince ayrıntılarını yakalamada daha iyi olacaktır.

Benim için, havuzlamanın yararı , bir görüntünün en keskin özelliklerini çıkarmasıdır. Genel olarak, en keskin özellikler bir görüntünün en düşük seviyedeki temsili gibi görünür.

— Cloud Cho
kaynak