Örnek olarak, bir kişinin resmine dayanarak bir yaş tahmincisi oluşturduğumuzu varsayalım. Aşağıda takım elbiseli iki kişi var, ancak birincisi açıkça ikincisinden daha genç.
(kaynak: tinytux.com )
Bunu ima eden birçok özellik vardır, örneğin yüz yapısı. Bununla birlikte, en çarpıcı özellik kafa boyutunun vücut boyutuna oranıdır :
(kaynak: wikimedia.org )
Diyelim ki kişinin yaşını tahmin etmek için bir CNN gerilemesi eğitimi aldık. Denediğim yaş tahmincilerinin çoğunda, çocuğun yukarıdaki görüntüsü, takım elbise nedeniyle ve büyük olasılıkla esas olarak yüze güvendikleri için daha büyük olduğunu düşünmeye kandırıyor gibi görünüyor:
Bir vanilya CNN mimarisinin kafa gövdesine oranını ne kadar iyi çıkardığını merak ediyorum?
Vücut ve kafa üzerinde sınırlayıcı kutular alabilen bölgesel bir RCNN ile karşılaştırıldığında, vanilya CNN her zaman daha kötü performans gösterecek mi?
Vanilya CNN'deki küresel düzleşmeden hemen önce (yani, tüm kıvrımlardan hemen sonra), her çıkışın ölçek hissi olması gereken karşılık gelen bir alıcı alanı vardır. Daha hızlı RCNN'nin tam olarak bu aşamada sınırlayıcı kutu teklifleri yaparak bundan faydalandığını biliyorum, böylece önceki tüm evrişimli filtreler otomatik olarak tüm ölçeklere eğitim veriyor.
Yani, vanilya CNN'nin başın gövde boyutuna oranını çıkartabilmesi gerektiğini düşünürdüm? Bu doğru mu? Eğer öyleyse, insanları tespit etme konusunda önceden eğitilmiş olabilecek gerçeği kullanmak için daha hızlı bir RCNN çerçevesi kullanmanın tek yararı mıdır?