Oyuna çok geç kaldım, ancak konvolüsyonel sinir ağlarındaki mevcut gelişmeleri bağlantıların atlanmasıyla ilgili yansıtacak şekilde göndermek istedim .
Microsoft Araştırma ekibi kısa bir süre önce ImageNet 2015 yarışmasını kazandı ve ana fikirlerinden bazılarını tanımlayan Derin Artık Öğrenme için teknik bir rapor hazırladı .
Ana katkılarından biri, bu derin artık katmanlar kavramıdır . Bu derin artık katmanlar, atlama bağlantılarını kullanır . Bu derin artık katmanları kullanarak, ImageNet 2015 için 152 kat katlamalı bir ağ eğitmişlerdi. Hatta CIFAR-10 için 1000'den fazla kat katlamalı bir ağ da yetiştirmişlerdi.
Onları motive eden sorun şudur:
Daha derin ağlar birleşmeye başlayabildiğinde, bir bozulma sorunu ortaya çıkmıştır: ağ derinliği arttıkça, doğruluk doygun hale gelir (bu şaşırtıcı olmayabilir) ve sonra hızlı bir şekilde düşer. Beklenmedik bir şekilde, bu tür bir bozulmaya fazla uyuşma neden olmaz ve uygun şekilde derin bir modele daha fazla katman eklenmesi daha yüksek eğitim hatasına yol açar ...
Fikir, eğer "sığ" bir ağ alırsanız ve daha derin bir ağ oluşturmak için daha fazla katmana yığarsanız, daha derin bir ağın performansı, en azından derin ağın tam sığ öğrenebildiği kadar sığ ağ kadar iyi olmalıdır. Yeni yığılmış katmanları kimlik katmanlarına ayarlayarak ağ (gerçekte bunun mimari öncelikleri veya mevcut optimizasyon yöntemleri kullanmadan oluşması muhtemel olmadığını biliyoruz). Bunun böyle olmadığını ve daha sığ bir modelin üzerine daha fazla katman yığmaları durumunda eğitim hatasının bazen daha da kötüleştiğini gözlemlediler.
Bu, onları bağlantılarını atlamalarını ve ağlarının kimlik katmanından sapmaları öğrenmelerine izin vermek için derin artık katmanları kullanmalarını, dolayısıyla artık kimliğinden farklılığı ifade eden artık terim burada kullanmaları için motive etti .
Atlama bağlantılarını aşağıdaki şekilde uygularlar:
F( x ) : = H ( x ) - xF( x ) + x = H ( x )F( x )H (x)
Bu şekilde, derin artık katmanların atlama bağlantıları yoluyla kullanılması, derin ağlarının, eğer gerçekten optimal veya yerel olarak en uygun olanı ise, yaklaşık kimlik katmanlarını öğrenmelerini sağlar. Gerçekten de artık katmanlarının:
Deneylerle (Şekil 7) genel olarak öğrenilen artık fonksiyonların küçük tepkilere sahip olduğunu göstermektedir.
Neden bu işe yarıyorsa, kesin bir cevapları yok. Kimlik katmanlarının optimal olması pek olası değildir, ancak bu artık katmanları kullanmanın sorunun önkoşuluna yardımcı olduğuna ve kimlik eşlemesine kıyasla referans olarak referans / referans verildiğinde yeni bir işlev öğrenmenin, "sıfırdan bir" öğrenmek yerine daha kolay olduğunu düşünüyorlar. kimlik taban çizgisini kullanmadan. Kim bilir. Ama bunun sorunuza iyi bir cevap olacağını düşündüm.
Bu arada, rüzgârda: sashkello'nun cevabı daha da iyi değil mi?