Atlama katmanlı bağlantıları olan sinir ağı


26

Sinir ağları ile regresyon ilgileniyorum.

Sıfır gizli düğümlü + atlama katmanı bağlantılı sinir ağları doğrusal modellerdir.

Peki ya aynı sinir ağları ama gizli düğümleri var? Skip-layer bağlantılarının rolü ne olabilir merak ediyorum?

Sezgisel olarak, atlama tabakası bağlantılarını eklerseniz, son modelin bir doğrusal model + bazı doğrusal olmayan parçaların toplamı olacağını söyleyeceğim.

Sinir ağlarına atlama tabakası bağlantıları eklemenin herhangi bir avantajı veya dezavantajı var mı?

Yanıtlar:


38

Oyuna çok geç kaldım, ancak konvolüsyonel sinir ağlarındaki mevcut gelişmeleri bağlantıların atlanmasıyla ilgili yansıtacak şekilde göndermek istedim .

Microsoft Araştırma ekibi kısa bir süre önce ImageNet 2015 yarışmasını kazandı ve ana fikirlerinden bazılarını tanımlayan Derin Artık Öğrenme için teknik bir rapor hazırladı .

Ana katkılarından biri, bu derin artık katmanlar kavramıdır . Bu derin artık katmanlar, atlama bağlantılarını kullanır . Bu derin artık katmanları kullanarak, ImageNet 2015 için 152 kat katlamalı bir ağ eğitmişlerdi. Hatta CIFAR-10 için 1000'den fazla kat katlamalı bir ağ da yetiştirmişlerdi.

Onları motive eden sorun şudur:

Daha derin ağlar birleşmeye başlayabildiğinde, bir bozulma sorunu ortaya çıkmıştır: ağ derinliği arttıkça, doğruluk doygun hale gelir (bu şaşırtıcı olmayabilir) ve sonra hızlı bir şekilde düşer. Beklenmedik bir şekilde, bu tür bir bozulmaya fazla uyuşma neden olmaz ve uygun şekilde derin bir modele daha fazla katman eklenmesi daha yüksek eğitim hatasına yol açar ...

Fikir, eğer "sığ" bir ağ alırsanız ve daha derin bir ağ oluşturmak için daha fazla katmana yığarsanız, daha derin bir ağın performansı, en azından derin ağın tam sığ öğrenebildiği kadar sığ ağ kadar iyi olmalıdır. Yeni yığılmış katmanları kimlik katmanlarına ayarlayarak ağ (gerçekte bunun mimari öncelikleri veya mevcut optimizasyon yöntemleri kullanmadan oluşması muhtemel olmadığını biliyoruz). Bunun böyle olmadığını ve daha sığ bir modelin üzerine daha fazla katman yığmaları durumunda eğitim hatasının bazen daha da kötüleştiğini gözlemlediler.

Bu, onları bağlantılarını atlamalarını ve ağlarının kimlik katmanından sapmaları öğrenmelerine izin vermek için derin artık katmanları kullanmalarını, dolayısıyla artık kimliğinden farklılığı ifade eden artık terim burada kullanmaları için motive etti .

Atlama bağlantılarını aşağıdaki şekilde uygularlar: görüntü tanımını buraya girin

F(x): ='H(x)-xF(x)+x='H(x)F(x)'H(x)

Bu şekilde, derin artık katmanların atlama bağlantıları yoluyla kullanılması, derin ağlarının, eğer gerçekten optimal veya yerel olarak en uygun olanı ise, yaklaşık kimlik katmanlarını öğrenmelerini sağlar. Gerçekten de artık katmanlarının:

Deneylerle (Şekil 7) genel olarak öğrenilen artık fonksiyonların küçük tepkilere sahip olduğunu göstermektedir.

Neden bu işe yarıyorsa, kesin bir cevapları yok. Kimlik katmanlarının optimal olması pek olası değildir, ancak bu artık katmanları kullanmanın sorunun önkoşuluna yardımcı olduğuna ve kimlik eşlemesine kıyasla referans olarak referans / referans verildiğinde yeni bir işlev öğrenmenin, "sıfırdan bir" öğrenmek yerine daha kolay olduğunu düşünüyorlar. kimlik taban çizgisini kullanmadan. Kim bilir. Ama bunun sorunuza iyi bir cevap olacağını düşündüm.

Bu arada, rüzgârda: sashkello'nun cevabı daha da iyi değil mi?


Önkoşulla ne demek istiyorsun? (Ayrıca cevabınız sashkello'dan çok daha iyi. Ayrıca, sorun, atlama bağlantıları olmadan daha fazla katman eklemenin daha derin ağların kimlik eşlemesini bile bulmasını zorlaştırmasıdır. (nedense?)
Charlie Parker

20

Teoride, atlama katmanı bağlantıları ağ performansını geliştirmemelidir. Ancak, karmaşık ağların eğitilmesi zor ve fazladan donatılması kolay olduğundan, verilerinizin güçlü bir doğrusal bileşene sahip olduğunu bildiğiniz zaman, bunu açıkça doğrusal bir regresyon terimi olarak eklemek çok yararlı olabilir. Bu, modeli doğru bir yöne işaret ediyor ... Ek olarak, bu, modelinizi ağın arkasında genellikle kara bir kutu olarak görülen bir yapının bir kısmını çözen doğrusal + bozulmalar olarak sunduğundan daha fazla yorumlanabilir.


@sashkello 'teorik olarak' atla-katmanlı bağlantıların ağ performansını geliştirmemesi gerekiyor 'üzerinde yoğunlaşabilir misiniz? Bunu anlamak harika olurdu.
Önsezi

@ hunch Bunun nedeni, atlama katmanına ihtiyaç duymadan modelleyebilmenizdir. Skip-layer sadece doğrusal bir terimdir. Sigmoid işlevi 0 ° civarında doğrusaldır. Dolayısıyla, bir atlama katmanı bağlantısı çok küçük giriş ağırlıklarına sahip gizli bir düğüm gibi davranacaktır.
sashkello

5

Eski sinir ağımın araç kutusu (bugünlerde çoğunlukla çekirdek makineleri kullanıyorum), gereksiz ağırlıkları ve gizli birimleri budamak için L1 düzenlileştirmeyi kullandı ve ayrıca atlama katman bağlantıları vardı. Bu, eğer problem esasen lineer ise, gizli birimlerin budanma eğiliminde olmaları ve size problemin lineer olduğunu açıkça söyleyen lineer bir modelde bırakılma avantajına sahiptir.

Sashkello'nun (+1) belirttiği gibi, MLP'ler evrensel yaklaşımlardır, bu nedenle katman bağlantılarını atlamak, sınırsız veri ve sınırsız sayıda gizli birim sınırındaki sonuçları iyileştirmez (ancak bu sınıra ne zaman yaklaşırız?). Gerçek avantaj, eğer ağ mimarisi soruna uygunsa, ağırlıklar için iyi değerleri tahmin etmeyi kolaylaştırır ve daha küçük bir ağ kullanabilir ve daha iyi genelleme performansı elde edebilirsiniz.

Bununla birlikte, çoğu sinir ağı sorununda olduğu gibi, genellikle belirli bir veri kümesi için yararlı veya zararlı olup olmadığını anlamanın tek yolu, onu denemek ve görmektir (güvenilir bir performans değerlendirme prosedürü kullanarak).


3
"dene ve gör" - golden words :)
sashkello

0

Piskopos 5.1'e göre. İleri Beslemeli Ağ İşlevleri: Ağ mimarisini genelleştirmenin bir yolu, her biri ilgili bir uyarlamalı parametre ile ilişkilendirilmiş atlama katmanı bağlantılarını eklemektir. Örneğin, iki katmanlı (iki gizli katman) ağda bunlar doğrudan girdilerden çıktılara gider. Prensip olarak, sigmoidal gizli birimlere sahip bir ağ, çalışma aralığı boyunca gizli birimin etkili bir şekilde lineer olduğu ve daha sonra büyük bir değerle telafi eden, yeterince küçük bir birinci-tabaka ağırlığı kullanarak her zaman atlama bağlantılarını (sınırlı giriş değerleri için) atlayabilir. Gizli birimden çıktıya olan ağırlık değeri.

Bununla birlikte, pratikte, atlama katmanı bağlantılarının açıkça dahil edilmesi avantajlı olabilir.görüntü tanımını buraya girin

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.