Sorularınıza kesin bir cevap olduğunu sanmıyorum. Ancak geleneksel bilgeliğin şu şekilde gittiğini düşünüyorum:
Temel olarak, bir öğrenme algoritmasının hipotez alanı büyüdükçe, algoritma daha zengin ve daha zengin yapıları öğrenebilir. Ancak, aynı zamanda, algoritma gereğinden fazla uydurma eğilimindedir ve genelleme hatasının artması muhtemeldir.
Sonuç olarak, herhangi bir veri seti için, verilerin gerçek yapısını öğrenmek için yeterli kapasiteye sahip minimal modelle birlikte çalışmanız önerilir. Ancak bu çok el dalgalı bir tavsiyedir, çünkü genellikle "verinin gerçek yapısı" bilinmemektedir ve çoğu zaman aday modellerin kapasiteleri bile yalnızca belirsiz bir şekilde anlaşılmaktadır.
Yapay sinir ağlarına gelince, hipotez boşluğunun büyüklüğü parametre sayısı ile kontrol edilir. Ve görünen o ki, sabit sayıda parametre (ya da sabit bir büyüklük sırası) için, daha derine inmek, modellerin daha zengin yapıları (örn. Bu kağıt ) yakalamasına izin veriyor .
Bu, daha az parametreli daha derin modellerin başarısını kısmen açıklayabilir: VGGNet (2014'ten itibaren) ~ 140M parametresiyle 16 katmana sahipken, ResNet (2015'ten itibaren) 152 katmanla ancak sadece ~ 2M parametrelerini geçti
(Bir taraf olarak, daha küçük modellerin eğitilmesi hesaplamalı olarak daha kolay olabilir - ancak bunun kendi başına büyük bir faktör olduğunu sanmıyorum - çünkü derinlik gerçekten eğitimi zorlaştırıyor)
Bu eğilimin (daha fazla derinlik, daha az parametre) çoğunlukla vizyonla ilgili görevlerde ve evrişimli ağlarda bulunduğunu ve bunun da alana özel bir açıklama gerektirdiğini unutmayın. İşte başka bir bakış açısı:
Evrişimli bir tabakadaki her "nöron", her çıktıyı etkileyen girdilerin boyutu ve şekli olan bir "alıcı alana" sahiptir. Sezgisel olarak, her bir çekirdek yakındaki girdiler arasında bir tür ilişki yakalar. Ve küçük taneler (yaygın olan ve tercih edilen) küçük bir alıcı alana sahiptir, bu yüzden sadece yerel ilişkiler hakkında bilgi sağlayabilirler.
Fakat daha derine indikçe, her nöronun önceki bazı katmanlara göre algılayıcı alanı büyür. Bu nedenle, derin katmanlar küresel anlamsal anlam ve soyut detaylar (nesneler arasındaki ilişkilerin ilişkileri ... nesneler arasındaki ilişkilerin) özelliklerini sunarken, sadece küçük çekirdeği kullanırken (ağın öğrendiği ilişkileri düzenler, bütünleşmesine ve genelleşmesine yardımcı olur).
Bu nedenle, derin evrimsel ağların bilgisayar vizyonundaki kullanışlılığı kısmen görüntülerin ve videoların mekansal yapısıyla açıklanabilir. Farklı türden problemler için veya evrimsel olmayan mimariler için derinliğin gerçekten işe yaramadığını zamanın söylemesi mümkündür.