Sorunu anladığım kadarıyla şu şekildedir: Görüntü tanımada ağınıza girişler piksel olabilir (gri tonlamalı veya siyah beyaz için yalnızca 1 ve 0). Örneğin, el yazısı sayıları tanımak istiyorsanız, sadece sayının (yani siyah değerlerin) tam olarak nerede olacağını asla bilemeyeceğiniz değerlerle çalışmak çok zordur.
Piksel 140 siyah mı, yoksa 142 siyah mı? Her iki durumda da üç olabilir. Yaş / ağırlık örneğinde bu girdiler iyi tanımlanmıştır. Özellik 2 ağırlıktır. Özellik 3 yaştır. Bu "boyutlar" veri kümenizde "sıçramamalı".
Bu yüzden: Resim eğitiminizde "üçler" veya "arabalar" veya "evler", resimdeki konumlarından bağımsız olarak tanınmalıdır, yani piksel değerleri, yani özellik / giriş vektörü, yani açıkça tanımlanana göre boyutlar hasta verileri gibi girdiler.
Görüntü tanımada bunu nasıl çözersiniz? Ek numaralar kullanırsınız, örneğin evrişim.