Kalan Ağlar Gradyan Arttırmayla mı ilgili?


11

Son zamanlarda, Artık Sinir ortaya çıktığını gördük, burada, her kat, bir hesaplama modülü ve katmanın girişini koruyan katmanın çıktısı gibi bir kısayol bağlantısından oluşur : ci

yi+1=ci+yi
Ağ, kalan özelliklerin izin verir ve kaybolan gradyan sorununa karşı daha sağlam olmasının yanı sıra son teknoloji performansa ulaşarak daha derin derinliğe izin verir.

Gradyan artırımına girmiş olmak , ayrıca kayıp kalıntı üzerinde gradyan optimizasyon formu gerçekleştirmek gibi görünüyor makine öğrenme dünyasında çok güçlü asamblesi tekniği, Onun sert benzerlik çeşit görmemek.

Benzer olduklarını biliyorum ama aynı değil - fark büyük bir fark, artan net, tüm ağ optimize ederken, ek terim optimizasyon yapar olmasıdır.

He ve ark. Bunu orijinal gazetelerindeki motivasyonlarının bir parçası olarak görmedim . Bu yüzden bu konuyla ilgili görüşlerinizin neler olduğunu merak ediyordum ve sahip olduğunuz ilginç kaynakları paylaşmanızı rica ediyorum.

Teşekkür ederim.

Yanıtlar:


7

Potansiyel olarak Langford ve Shapire ekibinden daha fazlasını ele almaya çalışan yeni bir makale: Arttırma Teorisini Kullanarak Sırasıyla Derin ResNet Bloklarını Öğrenme

İlgilenilen kısımlar (Bkz. Bölüm 3):

Önemli fark, artırmanın tahmini bir hipotez topluluğu olması, ResNet ise tahmini özellik gösterimlerinin bir toplamıdır . Bu sorunu çözmek için, bir hipotez modülü oluşturmak üzere her kalan bloğun üstüne bir yardımcı doğrusal sınıflandırıcı . Resmi olarak bir hipotez modülü olarak tanımlanırt=0Tft(gt(x))wto t ( x ) : = W , T , T g t ( x ) R

ot(x):=wtTgt(x)R

...

(burada)ot(x)=t=0t1wtTft(gt(x))

Makale, zayıf modül sınıflandırıcı ve bunun BoostResNet algoritmalarıyla nasıl bütünleştiği hakkında daha ayrıntılı olarak ele alınmaktadır .ht(x)


Bu cevaba biraz daha ayrıntı ekleyerek, tüm güçlendirici algoritmalar bir çeşit [1] şeklinde yazılabilir (p 5, 180, 185 ...):

FT(x):=t=0Tαtht(x)

Burada , zayıf hipotezidir, bazı seçimi için . Farklı yükseltme algoritmalarının farklı yollarla ve .httthαtαtht

Örneğin AdaBoost [1] (s 5.), ile ağırlıklı hatasını en aza indirmek için kullanır.htϵtαt=12log1ϵtϵt

Öte yandan, gradyan artırma ayarında [1] (s 190.), ve en üst düzeye çıkaran seçilir. seçilir (öğrenme oranı vb. olarak)htL(Ft1(x))htαt>0

Lemma 3.2 altındaki [2] 'de olduğu gibi, derinlik- ResNet'in çıktısının olduğu gösterilmiştir.TF(x)

F(x)t=0Tht(x)

bu, artırma ve yeniden başlatma arasındaki ilişkiyi tamamlar. Makale [2], formuna girmek için yardımcı doğrusal katman eklemeyi önermektedir , bu da BoostResNet algoritmasına ve bununla ilgili bazı tartışmalara yol açarFT(x):=t=0Tαtht(x)

[1] Robert E. Schapire ve Yoav Freund. 2012. Artırma: Temeller ve Algoritmalar. MIT tuşuna basın. p 5, 180, 189
[2] Furong Huang, Ürdün Kül, John Langford, Robert Schapire: Artırıcı Teori kullanarak Sırasıyla Derin ResNet Bloklarını Öğrenme, ICML 2018


4

Kendi sorumu cevaplıyorum: Deep Residual Networks'ün gerçekten de sığ ağlar topluluğu olduğunu araştıran ve kanıtlayan önemli bir makale buldum .

BAŞKA BİR DÜZENLEME, bu sorunu anladıktan sonra daha çok abit: Resnets'e 'Özellik Artırma' öğrenmenin bir yolu olarak bakıyorum. Kalan bağlantı güçlendirmeyi gerçekleştirir, ancak objektif üzerinde değil, aslında bir sonraki katmanın çıkış özellikleri üzerinde çalışır. Yani aslında birbirleriyle bağlantılıdırlar, ama klasik gradyan arttırıcı değil, aslında 'Gradient Feature Boosting'.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.