Buradaki anahtar kelimeler öncelikler ve ölçektir . Basit bir örnek olarak, bir kişinin yaşını bir fotoğraftan tahmin etmeye çalıştığınızı düşünün. Bir görüntü ve yaş veri kümesiyle, tahminleri yapmak için derin öğrenme modelini eğitebilirsiniz. Bu nesnel olarak gerçekten verimsizdir, çünkü görüntünün% 90'ı işe yaramaz ve sadece kişiyle birlikte bölge gerçekten yararlıdır. Özellikle kişinin yüzü, vücudu ve belki de giysileri.
Öte yandan, kişi için önce sınırlayıcı kutuları çıkarmak, görüntüyü kırpmak ve sonra ağdan geçirmek için önceden eğitilmiş bir nesne algılama ağı kullanabilirsiniz. Bu işlem, birkaç nedenden dolayı modelinizin doğruluğunu önemli ölçüde artıracaktır:
1) Tüm ağ kaynakları (yani ağırlıklar), önce kişiyi bulmak zorunda kalmanın aksine, yaş tahmininin gerçek görevine odaklanabilir. Bu özellikle önemlidir çünkü kişinin yüzünde faydalı özellikler vardır. Aksi takdirde, ihtiyacınız olan daha ince özellikler ilk birkaç katmanda kaybolabilir. Teorik olarak, yeterince büyük bir ağ bunu çözebilir, ancak acısız bir şekilde verimsiz olacaktır. Kırpılan görüntü de orijinal görüntüden önemli ölçüde daha düzenlidir. Orijinal görüntü bir ton gürültüye sahipken, kırpılan görüntüdeki tutarsızlıklar, hedefle çok daha fazla ilişkilidir.
2) Kırpılan görüntü aynı ölçeğe sahip olacak şekilde normalleştirilebilir . Bu, ikinci ağın ölçekleme sorunları ile başa çıkmasına yardımcı olur, çünkü orijinal görüntüde insanlar yakınlarda veya uzakta meydana gelebilir. Ölçeği önceden normalleştirmek, kırpılan görüntünün, kırpılan görüntünün tamamını dolduran bir kişiye sahip olmasını garanti eder (uzaktaysa piksellenmesine rağmen). Bunun ölçeklendirmeye nasıl yardımcı olabileceğini görmek için, orijinal görüntünün genişliğinin ve yüksekliğinin yarısı olan kırpılmış bir gövdede işlenecek 4x daha az piksel bulunur ve bu nedenle bu görüntüye uygulanan aynı ağ, her bir katmanda orijinal ağın alıcı alanının 4 katı olacaktır.
Örneğin, kaggle akciğer yarışmasında, en iyi çözümlerde ortak bir tema , akciğer görüntülerinde mümkün olduğunca kırpılan ve her bir akciğerin bileşenlerini izole eden bir tür ön işleme idi. Bu, 3D görüntülerde özellikle önemlidir, çünkü efekt kübiktir: her bir boyutun% 20'sini kaldırarak, piksellerin neredeyse yarısından kurtulursunuz!