Derin evrimsel sinir ağında ön eğitim?


Yanıtlar:


39

Bunun, sorunuzu tam olarak cevaplayıp cevaplamadığından emin değilim, ama insanların önünü kibirlememe nedenini anladığımı anladığımdan ( bunu denetlenmeyen bir önleme anlamında kastediyorum) kabul ediyorum . denetimsiz bir şekilde gereksiz rol oynamaya neden oldu (şimdilik, geleceğin hangi sorunları ve meseleleri olacağını kim bilebilir?).

Başlıca yeniliklerden biri, yakın düz eğriliğe sahip bölgeleri doyuran / alabilen ve dolayısıyla çok az degrade geri yayılan sigmoidal (sigmoid, tanh) aktivasyon birimlerinden uzaklaşmaktı, bu nedenle, tüm pratik niyetler için tamamen durmazsa öğrenme inanılmaz derecede yavaş ve amaçlar. Glorot, Bordes ve Bengio makalesi Derin Seyrek Doğrultucu Sinir Ağları , geleneksel sigmoidal üniteler yerine aktivasyon işlevi olarak rektifiye doğrusal üniteler (ReLU) kullandı. ReLU'ler aşağıdaki forma sahiptir: . Bunların sınırsız olduğuna ve pozitif kısım için, sabit gradyan 1'e sahip olduğuna dikkat edin.f(x)=maksimum(0,x)

Glorot, Bordes ve Bengio makalesi, Relu'ları Conv Nets değil, çok katmanlı algılayıcılar için kullandı. Önceki bir makale Jarret ve Yann LeCun'un NYU grubundan diğerleri tarafından Nesne Tanıma için En Çok Aşamalı Mimari Nedir? Lineer olmayanları düzeltmek için kullandılar, ancak sigmoidal birimler için f (x) = | \ tanh (x formunun aktivasyon fonksiyonlarını kullandılar. ) | f(x)=|tanh(x)|, vb. Her iki makale de, doğrultucu olmayan doğrusallaştırıcıları kullanmanın tamamen denetlenmiş yöntemler ile denetlenmemiş önceden denetlenmiş yöntemler arasındaki boşluğu kapattığı görülmektedir.

Diğer bir yenilik ise, derin ağlar için daha iyi bir başlangıç ​​bulduk. Bir ağın katmanları arasındaki varyansı standartlaştırma fikrini kullanarak, yıllar boyunca iyi kurallar oluşturulmuştur. Bunlardan ilki, en popüler olanlarından biri Glorot ve Bengio'ydu. Derin ağları doğrusal bir aktivasyon hipotezi altında ve daha sonra Doğrultuculara Derinlemesine Silme konusunda derin ağları başlatmak için bir yol sağlayan Derin Beslenme Ağlarının Eğitimini Zorlaştırmanın Zorluğunu Anlamakdoğrusal olmayanları düzeltmek için Glorot ve Bengio ağırlık başlatmasını değiştiren bir grup Microsoft Araştırma ekibi üyesi tarafından. Ağırlık başlatma, son derece derin ağlar için çok önemlidir. 30 katmanlı bir konveks ağı için, MSR ağırlık başlatması Glorot ağırlık başlatmasından çok daha iyi bir performans gösterdi. Glorot gazetesinin 2010'da, MSR gazetesinin ise 2015 yılında çıktığını unutmayın.

Derin Konvolüsyonel Sinir Ağları ile yapılan ImageNet Sınıflandırmasının Alex Krizhevsky, Ilya Sutskever ve Geoff Hinton tarafından yayınlanan makalesinde ilk olarak ReLU'ları conv ağları için kullanan kişi olup olmadığından emin değilim . Bu yazıda, konvansiyon ağları için ReLU'lerin, ReLU konvansiyon ağlarının ReLU olmayan ağlara göre daha düşük eğitim hata oranlarına ulaşabileceğini gösteren CIFAR-10 grafiklerinden birinin gösterdiği gibi öğrenmeyi hızlandırdığını görüyoruz. Bu ReLU'ler ufuk degrade / doygunluk gösteren sigmoidal sorunlardan muzdarip değildir ve daha derin ağları eğitmek için kullanılabilir. Diğer büyük yeniliklerden biri, Bırakma eğitimi, stokastik bir gürültü enjeksiyonu veya model ortalama tekniğinin (bakış açınıza bağlı olarak) daha fazla, daha fazla sinir bozmadan daha derin, daha büyük sinir ağları yetiştirmemize olanak vermesidir.

Conv net inovasyonu, ReLU'leri (veya Microsoft Araştırma'dan PReLU'lar gibi bazı değişiklikler), Bırakma ve tamamen denetimli eğitimi (SGD + Momentum, muhtemelen RMSProp veya ADAGrad gibi bazı uyarlanabilir öğrenme hızı teknikleri) kullanan yöntemlerin neredeyse tümünü hızla arttıran bir hızla devam etti. ).

Bu yüzden, şimdiye kadar, en iyi performans gösteren ev ağlarının çoğu tamamen denetimli bir yapıya sahip gibi görünüyor. Bu, denetlenmemiş ön eğitim uygulamasının veya denetlenmemiş teknikleri kullanmanın gelecekte önemli olamayacağı anlamına gelmez. Ancak, inanılmaz derecede derin bazı ev ağları, sadece denetimli eğitim kullanarak, çok zengin veri setlerinde insan seviyesi performansını eşleştirdi ya da aştı. Aslında ImageNet 2015 yarışmasına en yeni Microsoft Research başvurusunun 150 katmanı olduğuna inanıyorum. Bu bir yazım hatası değil. 150.

Eğer convet ağları için denetimsiz bir ön eğitim kullanmak istiyorsanız, "standart" denetimli conv eğitim eğitiminin bu kadar iyi performans göstermediği ve denetlenmemiş bir ön eğitim almayı denediği bir iş bulacağınızı düşünüyorum.

Doğal dil modellemesinden farklı olarak, görüntü verileri söz konusu olduğunda ilgili bir denetlenen göreve yardımcı olan denetimsiz bir görev bulmak zor görünmektedir. Ancak internete yeterince bakarsanız, derin öğrenmenin öncülerinden bazılarının (Yoshua Bengio, Yann LeCun'un bir kaç isim verdiğini) denetlenmemiş öğrenmenin ne kadar önemli olduğunu düşündüklerini görürsünüz.


1
Stanford'un ConvNet'teki öğreticisinde konvolüsyonel sinir ağlarında rol oynadığını gördüm. işte link: cs231n.github.io/transfer-learning Bunlar farklı mı? Çünkü aslında aynı şeyi yapıyorlar mı?
Rika

2
Hey geç cevap için özür dilerim. Transfer öğrenmesi çok yapılır. Eğitimin sıkıcı bir şekilde çalışmasını önlemek ve ImageNet gibi büyük bir veri setinde eğitilmiş özellikleri kullanmak için kullanılır ve bunun yerine sadece bu özelliklerin üzerine bir sınıflandırıcı yetiştiririz. Bu günlerde , transfer öğrenimi ile aynı olmayan denetlenmemiş bir ön eğitim göremediğinizi belirtmek için cevabımı güncelledim . Yorum için teşekkürler.
Indie AI

+1. Çok iyi cevap. Kaybettiğim şey, söylediklerinizin (yani, tren öncesi eğitime gerek yok) özellikle konvolüsyonel sinir ağlarına (öyleyse neden? evrimsel olanlar.
amip diyor Reinstate Monica

14

Yukarıdaki cevaplardan da anlaşılacağı gibi, ön eğitim çok şey gerçekleştiğinde 'moda olmuştur'. Bununla birlikte, benim anlayışımı damıtmak istiyorum:

  1. Uzun zaman önce 2010'da herkes ön eğitime önem verdi. İşte göremediğim konu hakkında harika bir makale çıktı.
  2. Alex Krizhevsky'den biraz önce, Ilya Sutskever ve Geoff Hinton kendi görüntü kağıtlarını yayınladılar, insanlar hala özelliklerin önemli olduğuna inanıyorlardı, ancak çoğunlukla denetlenmemiş öğrenmeye ve hatta bu özellikleri üretmeyi öğrenmeye odaklanmışlardı.
  3. Nedenini görmek zor değil - o zamanlar sinir ağlarının yapı taşları o kadar sağlam değildi ve çok yavaş kullanışlı özelliklere yakınlaştı. Çoğu zaman bile muhteşem bir şekilde başarısız oldular. Önceden eğitim, yeterli miktarda veriye sahip olduğunuzda, SGD için iyi bir başlangıç ​​elde etmenizde faydalı oldu.
  4. Relu büyüdüğünde, ağlar daha hızlı birleşiyordu. Sızdıran relu ve daha yeni çözümler ortaya çıktığında, sinir ağları uygulanabilir bir sonuca yaklaşma konusunda daha güçlü makineler haline geldi. Bu yetenekli Google çalışanının yazdığı mükemmel sinir ağları demosu ile oynamanızı şiddetle tavsiye ediyorum , neden bahsettiğimi göreceksiniz.
  5. Asıl noktaya gelmek, bir tür ön eğitimin derin öğrenme için önemli olmadığını söylemek değildir. En son teknoloji sonuçları elde etmek istiyorsanız, verilerin ön işlemesini yapmanız (örneğin ZCA) ve ilk ağırlıkları uygun şekilde seçmeniz gerekir - bu konuyla ilgili çok iyi bir yazıdır .

Gördüğünüz gibi, ön eğitim ön işleme biçiminde değişti ve başlangıçları hafifletti, ancak işlevini sürdürdü ve daha şık hale geldi.

Son bir not olarak, makine öğrenmesi çok modadır. Şahsen Andrew Ng gibi, denetlenmeyen ve kendi kendine öğretilen öğrenmenin ileride baskın olacağına bahse giriyorum, bu yüzden bunu bir din haline getirmeyin :)


13

Bazı kağıtlar var ancak oto kodlayıcılar veya RBM'ler kadar değil. Bence sebep NN'nin zaman çizgisi. Yığılmış RBM ve otomatik kodlayıcı sırasıyla 2006 ve 2007'de tanıtıldı . ReLU’nun 2009’da istihdam edilmesinden sonra denetimsiz öğrenme kısmen terk edilmiştir (doğrudan denetimli öğrenmede öğrenilecek yeterli veri olduğunda). Convolution net (veya LeNet) 1989'da icat edilse de, ReLU ile doğrudan denetimli öğrenmenin popülerleşmesinden sonra 2012 yılına kadar derin bir yapı olarak eğitilemedi. Bu yüzden araştırmacılar, en çok doğrudan denetimli öğrenme kullanarak eğitmişlerdir.


Öyleyse, derin evrimsel sinir ağında henüz ön eğitim olmadığına katılıyorsunuz?
RockTheStar

4
@RoTheStar hayır, önceki iki kadar değil ama var. research.microsoft.com/pubs/200804/CNN-Interspeech2013_pub.pdf bu araştırmada bunu kullandı. İşte kısa bir alıntı; “Ön eğitimin, ön hazırlamanın yardımcı olmadığı TIMIT'teki CNN hariç, DNN ve CNN'yi geliştirdiğini gözlemliyoruz. Genel olarak, CNN için ön hazırlık kullanmanın göreceli gelişimi, DNN'den daha azdır.”
yasin.yazici
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.