Bir CNN uzaydaki kalıpları tanımayı öğrenir. Yani, söylediğiniz gibi, bir CNN bir görüntünün bileşenlerini (örneğin, çizgiler, eğriler vb.) Tanımayı öğrenecek ve daha sonra daha büyük yapıları (örneğin yüzler, nesneler vb.) Tanımak için bu bileşenleri birleştirmeyi öğrenecektir.
Genel olarak, bir RNN'in zaman içindeki kalıpları tanımayı benzer şekilde öğreneceğini söyleyebilirsiniz. Bu yüzden, metni çevirmek için eğitilmiş bir RNN, "sıcak" kelimesinden önce gelirse "köpeğin" farklı şekilde çevrilmesi gerektiğini öğrenebilir.
Bununla birlikte, iki tür NN'nin bu kalıpları temsil ettiği mekanizma farklıdır. Bir CNN durumunda , görüntünün tüm farklı alt alanlarında aynı kalıpları arıyorsunuz . Bir RNN durumunda (en basit durumda), gizli katmanları önceki adımdan sonraki adıma ilave bir girdi olarak besliyorsunuz. RNN bu süreçte bellek oluştururken, farklı zaman dilimlerinde aynı kalıpları aramaz, aynı şekilde bir CNN aynı alanın farklı bölgelerinde aynı kalıpları arar.
Ayrıca burada "zaman" ve "boşluk" derken, kelimenin tam anlamıyla alınmaması gerektiğini de unutmam gerekir. Örneğin, resim yazısı için tek bir resim üzerinde bir RNN çalıştırabilirsiniz ve "zamanın" anlamı, görüntünün farklı kısımlarının işlendiği sırada olacaktır. Bu nedenle başlangıçta işlenen nesneler daha sonra işlenen nesnelerin başlığını bildirir.