Zaten söylenene, sorunuzun transfer öğrenmesi adı verilen makine öğrenmesinde önemli bir görüşe değindiğini söylemek isterim . Uygulamada, çok az sayıda insan bütün bir evrişimsel ağı sıfırdan eğitir (rastgele başlatma ile), çünkü yeterli büyüklükte bir veri kümesine sahip olmak zaman alıcı ve nispeten nadirdir.
Modern ConvNets, ImageNet'teki birden fazla GPU'da eğitim almak için 2-3 hafta sürüyor. Bu yüzden, insanların ince ayar yapmak için ağları kullanabilecek diğerlerinin yararına son ConvNet kontrol noktalarını bıraktıklarını görmek yaygındır. Örneğin, Caffe kütüphanesinde insanların ağ ağırlıklarını paylaştığı bir Model Hayvanat Bahçesi vardır .
Görüntü tanıma için bir ConvNet'e ihtiyacınız olduğunda, uygulama etki alanınız ne olursa olsun, mevcut bir ağ almayı düşünmelisiniz, örneğin VGGNet ortak bir seçimdir.
Transfer öğrenimi yaparken akılda tutulması gereken birkaç şey vardır :
Önceden belirlenmiş modellerin kısıtlamaları. Önceden belirlenmiş bir ağ kullanmak istiyorsanız, yeni veri kümeniz için kullanabileceğiniz mimari açısından biraz kısıtlı olabileceğinizi unutmayın. Örneğin, önceden belirlenmiş ağdaki Conv katmanlarını keyfi bir şekilde çıkaramazsınız. Bununla birlikte, bazı değişiklikler açıktır: parametre paylaşımı nedeniyle, farklı uzamsal boyutlardaki görüntüler üzerinde önceden tanımlanmış bir ağı kolayca çalıştırabilirsiniz. Bu, Conv / Pool katmanları için açıkça bellidir, çünkü ileri işlevleri giriş hacminin uzamsal boyutundan bağımsızdır (basamaklar “uygun” olduğu sürece).
Öğrenme oranları Yeni veri kümenizin sınıf puanlarını hesaplayan yeni lineer sınıflandırıcı için (rastgele başlatılan) ağırlıklara kıyasla, daha iyi ayarlanmış olan ConvNet ağırlıkları için daha küçük bir öğrenme oranı kullanmak yaygındır. Bunun nedeni, ConvNet ağırlıklarının nispeten iyi olmasını beklememizdir, bu yüzden onları çok hızlı ve çok fazla çarpıtmak istemiyoruz (özellikle üstlerindeki yeni Doğrusal Sınıflandırıcı rastgele başlatılmadan önce eğitim alırken).
Bu konuyla ilgileniyorsanız ek referans: Derin sinir ağlarındaki özellikler ne kadar aktarılabilir?