Derin bir sinir ağı ile sınıflandırmaya uygun hale getiren görüntülerin özellikleri, tonlarca özellik (muhtemelen RGB, yoğunluk vb. Milyarlarca piksel değilse milyonlarca) ve doğru etiketleriniz varsa, gürültülü veriler değildir. Bugünlerde kameralar çok iyi ve hiçbir şeyi yanlış ölçmüyorlar. İnternet sayesinde artık çok sayıda doğru etiketlenmiş görselimiz var. Derin bir ağ, gürültülü verilerle çok kolay bir şekilde geçebildiğiniz için gürültülü verilerle ilgili bir sorun olan keyfi olarak karmaşık işlevleri ifade edebilir, bu nedenle birçok öğrenme yöntemi neden karmaşık modelleri cezalandırma eğilimindedir. Ancak görüntü tanıma durumunda, gerçek işlev aslında çok karmaşık gibi görünüyor, fonksiyonel formun neye benzediğine dair hiçbir fikrimiz yok ve birçok durumda ilgili özelliklerin ne olduğunu bile bilmiyoruz.
Bu, görüntülerle ilgisi olmayan işlevleri öğrenmek için derin ağları kullanamayacağınız anlamına gelmez. Sadece olumsuzluklara karşı çok dikkatli olmanız gerekir, çoğunlukla aşırı takmaya çok eğilimlidir, ancak aynı zamanda hesaplama açısından pahalıdır ve eğitilmesi uzun zaman alabilir (bu günlerde paralel SGD ve GPU'larla ilgili bir sorun değil). Diğer dezavantajı, görüntü sınıflandırması için gerçekten önemli olmayan çok az model veya hiçbir yorumlanabilirliğe sahip olmanızdır. Biz sadece bilgisayarların bir şempanze ve bir orangutan arasındaki farkı tanımasını sağlamaya çalışıyoruz. İnsanların formülü anlaması önemli değil. Diğer alanlar için, özellikle tıbbi teşhis, politika araştırması vb. İçin, insan anlayışına ihtiyacınız olabilir veya hatta ihtiyacınız olabilir.