Görüntü tanıma için bir evrişim ağı üzerinde çalışıyorum ve farklı boyutlarda görüntüler girip giremeyeceğimi merak ettim (çok farklı değil).
Bu projede: https://github.com/harvardnlp/im2markup
Onlar söylüyor:
and group images of similar sizes to facilitate batching
Bu nedenle, ön işlemden sonra bile, görüntüler hala farklı boyutlardadır, bu da formülün bir kısmını kesmeyecekleri için mantıklıdır.
Farklı boyutların kullanılmasında herhangi bir sorun var mı? Varsa, bu soruna nasıl yaklaşmalıyım (formüllerin hepsi aynı görüntü boyutuna sığmayacağından)?
Herhangi bir girdi çok takdir edilecektir