Derin öğrenmede kare görüntülerin nedeni

VGG, ResNet gibi gelişmiş derin öğrenme modellerinin çoğu, genellikle $224x224$ piksel boyutunda giriş olarak kare görüntüler gerektirir .

Girişin eşit şekle sahip olması için bir neden var mı, yoksa $100x200$ diyelim ile bir konvnet modeli oluşturabilir miyim (örneğin yüz tanıma yapmak ve portre resimlerim varsa)?

$512x512$ daha büyük bir piksel boyutuyla daha fazla fayda var mı ?

deep-learning image-classification image-recognition

— spore234
kaynak

Evrişimli sinir ağlarının normal çalışması için belirli piksel boyutlarına gerek yoktur. Değerlerin pragmatik nedenlerle seçilmesi muhtemeldir - örneğin, görüntü ayrıntılarıyla parametre sayısı ve gerekli eğitim seti boyutu arasında bir uzlaşma gibi.

Buna ek olarak, kaynak verilerinde bir dizi farklı en-boy oranı varsa, bazı portre, bazı manzara, hedef nesne genellikle merkezde ise, o zaman ortadan kare bir kırpma almak makul bir uzlaşma olabilir.

Giriş görüntü boyutunu artırdığınızda, ağın bu girişi işlemek için uğraşması gereken gürültü ve sapma miktarını da artıracaksınız. Bu daha fazla katman anlamına gelebilir - hem evrişimsel hem de havuzlama. Ayrıca daha fazla eğitim örneğine ihtiyacınız olduğu anlamına gelebilir ve elbette her eğitim örneği daha büyük olacaktır. Bunlar birlikte, eğitimi tamamlamak için ihtiyacınız olan hesaplama kaynaklarını artırır. Bununla birlikte, bu gereksinimin üstesinden gelebilirseniz, ekstra piksellerin fark yaratabileceği herhangi bir görev için daha doğru bir model elde etmeniz mümkündür.

Daha yüksek çözünürlük isteyip istemediğinize dair olası bir temel kural, ağınızın hedefi için bir insan uzmanın ekstra çözünürlüğü kullanması ve görevde daha iyi performans göstermesidir. Bu, ağın görüntüden bazı sayısal miktarlar elde ettiği regresyon sistemlerinde olabilir - örneğin yüz özellikleri arasındaki mesafe gibi yüz tanıma çıkarıcı biyometri için. Otomatik maskeleme gibi görüntü işleme görevleri için de istenebilir - bu görevler için en son sonuçlar hala bunları pratikte uygulamak istediğimiz ticari görüntülerden daha düşük çözünürlük olabilir.

— Neil Slater
kaynak