Önemsizce başlayalım: Derin sinir ağı, pek çok gizli katmanı olan basit bir ağdır.
Bu tanım hakkında söylenecek tek şey, az ya da çok. Yapay sinir ağları tekrarlayan veya ileriye dönük olabilir; feedforward olanlar grafiklerinde ilmek yapmazlar ve katmanlar halinde düzenlenebilirler. Eğer "birçok" katman varsa, o zaman ağın derin olduğunu söyleriz .
Nasıl birçok tabakalar bir ağ olarak derin hak kazanmak için var zorunda? Bunun kesin bir cevabı yoktur (bir kaç tane tanenin bir yığın oluşturduğunu sormak gibidir ), ancak genellikle iki veya daha fazla gizli katmana sahip olmak derin sayılır. Buna karşılık, sadece tek bir gizli katmana sahip bir ağ geleneksel olarak "sığ" olarak adlandırılmaktadır. Burada bir miktar enflasyon olacağından şüpheleniyorum ve on yıl içinde insanlar, 10 kattan az olan her şeyin sadece anaokulu çalışmaları için sığ ve uygun olduğunu düşünebilirler. Gayrı resmi olarak, "derin" ağın ele alınması zor olduğunu göstermektedir.
Burada uyarlanmış bir gösterimidir buradan :
Fakat sorduğunuz asıl soru, elbette, Neden birçok katmana sahip olmak faydalı olsun?
Bence biraz şaşırtıcı cevap, kimsenin bilmediği. Orada aşağıda kısaca gözden geçirecek bazı ortak açıklamalar vardır, ama bunların hiçbiri ikna edici gerçek olamayacak gösterilmiştir ve bir hatta birçok tabakalara sahip olduğundan emin olamaz olduğu gerçekten faydalıdır.
Bunun şaşırtıcı olduğunu söylüyorum, çünkü derin öğrenme kitlesel olarak popüler, her yıl (görüntü tanıma, Go oynamaya, otomatik çeviriye, vb.) Tüm rekorları kırıyor sanayi tarafından kullanılıyor. Neden bu kadar iyi çalıştığını hala tam olarak bilmiyoruz.
Ben benim tartışma dayandırmak Derin Öğrenme 2017 yılında çıktı ve yaygın olarak kabul edilir Goodfellow, Bengio ve Courville kitabından derin öğrenme kitap. (İnternetten ücretsiz olarak erişilebilir.) İlgili bölüm 6.4.1 Genel Yaklaşım Özellikleri ve Derinliktir .
Sen yazdın
10 yıl önce sınıfta, birkaç katmana ya da bir katmana sahip olmanın (giriş ve çıkış katmanlarını saymamaya) bir sinir ağının temsil edebileceği fonksiyonlar açısından eşdeğer olduğunu öğrendim [...]
1989'da Cybenko tarafından kanıtlanan ve 1990'lı yıllarda çeşitli insanlar tarafından genelleştirilen sözde Evrensel yaklaşım teoremine atıfta bulunmalısınız . Temel olarak, sığ bir sinir ağının (1 gizli katmanı olan) herhangi bir işlevi yerine getirebileceğini, yani prensipte her şeyi öğrenebileceğini söylüyor . Bu, çoğu sinir ağının bugün kullandığı rektifiye edilmiş doğrusal birimler de dahil olmak üzere, çeşitli doğrusal olmayan aktivasyon fonksiyonları için geçerlidir (ders kitabı bu sonuç için Leshno ve ark. 1993'e atıfta bulunur ).
Öyleyse, neden herkes derin ağlar kullanıyor?
Saf bir cevap, daha iyi çalıştıkları için. İşte Derin Öğrenme kitabından, belirli bir görevde daha fazla katmana sahip olmanın yardımcı olduğunu gösteren bir rakam , ancak aynı fenomen, çeşitli görevlerde ve alanlarda sıklıkla gözlemlenir:
Sığ bir ağın daha derin ağlar kadar iyi performans gösterebileceğini biliyoruz . Ama öyle değil; ve genellikle yapmazlar. Soru --- neden? Olası cevaplar:
- Belki sığ bir ağ derin olandan daha fazla nörona ihtiyaç duyar?
- Belki de sığ bir ağın mevcut algoritmalarımızla eğitilmesi daha zordur (örneğin, daha kötü bir yerel minimaya sahipse ya da yakınsama oranı daha yavaş ya da her neyse)?
- Belki sığ bir mimari, genellikle çözmeye çalıştığımız sorunlara uymaz (örneğin, nesne tanıma özünde "derin", hiyerarşik bir süreçtir)?
- Başka bir şey?
Derin Öğrenme kitabı mermi noktaları 1. ve 3. savunmaktadır. İlk olarak, sığ bir ağdaki birim sayısının görev karmaşıklığı ile katlanarak arttığını savunuyor. Bu yüzden yararlı olması için sığ bir ağın çok büyük olması gerekebilir; Muhtemelen derin bir ağdan çok daha büyük. Bu, sığ ağların bazı durumlarda üssel olarak birçok nörona ihtiyaç duyacağını kanıtlayan birkaç makaleye dayanmaktadır ; Ancak, örneğin MNIST sınıflandırması veya Go oynama gibi durumlar bu kadar net değildir. İkincisi, kitap şöyle diyor:
Derin bir model seçmek, öğrenmek istediğimiz işlevin birkaç basit işlevin bileşimini içermesi gerektiğine dair çok genel bir inancı kodlar. Bu, bir öğrenme öğrenme bakış açısıyla, öğrenme probleminin, diğer, daha basit olan varyasyon faktörleri açısından açıklanabilecek bir dizi varyasyon faktörü keşfetmekten oluştuğuna inandığımız anlamına geldiği şeklinde yorumlanabilir.
Bence şu anki "fikir birliği" bunun # 1 ve # 3 noktalarının bir birleşimi olduğudur: gerçek dünyadaki görevler için derin mimari genellikle faydalıdır ve sığ mimari verimsizdir ve aynı performans için daha fazla nöron gerektirir.
Ama kanıtlanmış olmaktan uzak. Örneğin, Zagoruyko ve Komodakis, 2016, Geniş Artık Ağları düşünün . 150'den fazla katmana sahip kalıcı ağlar 2015'te ortaya çıktı ve çeşitli görüntü tanıma yarışmaları kazandı. Bu büyük bir başarıydı ve derinliğin lehine zorlayıcı bir argüman gibiydi; Buradaki ilk yazarın artık ağ kağıdındaki sunumundan bir rakamdır (zamanın kafa karıştırıcı bir şekilde sola doğru gittiğini unutmayın):
Ancak, yukarıda bağlanan kağıt, "yalnızca" 16 katmanı olan "geniş" bir artık ağın, 150+ katmanı olan "derin" olanlardan daha iyi performans gösterdiğini göstermektedir. Bu doğruysa, yukarıdaki rakamın bütün noktası bozuluyor.
Veya Ba ve Caruana'yı düşünün , 2014, Derin Ağların Gerçekten Derin Olması Gerekiyor mu? :
Bu yazıda sığ ağların derin ağlarla aynı işlevi ve bazı durumlarda derin ağlarla aynı sayıda parametreyi öğrenebildiğine dair deneysel kanıtlar sunuyoruz. Bunu önce modern bir derin modeli eğiterek, sonra derin modeli taklit etmek için sığ bir modeli eğiterek yapıyoruz. Mimik model, bir sonraki bölümde açıklanan model sıkıştırma şeması kullanılarak eğitilmiştir. Dikkate değer bir şekilde, model sıkıştırma ile sığ ağları bazı derin modellerde olduğu kadar hassas olacak şekilde eğitebiliriz, bu sığ ağları doğrudan sığ ağlar doğrudan orijinal üzerinde eğitildiğinde derin ağlar kadar hassas olacak şekilde eğitmemize rağmen etiketli eğitim verileri. Derin bir ağla aynı sayıda parametreye sahip sığ bir ağ, yüksek kalitede bir derin ağ taklit etmeyi öğrenebilirse,
Eğer doğruysa, bu doğru açıklamanın # 2 veya # 3 değil, benim # 2 mermim olduğu anlamına gelir.
Dediğim gibi --- kimse henüz kesin olarak bilmiyor.
son sözler
Geçen ~ 10 yılda derin öğrenmede kaydedilen ilerleme miktarı gerçekten şaşırtıcı, ama bu ilerlemenin en deneme yanılma yoluyla elde edildi ve biz hala konusunda çok temel bir anlayış eksikliği tam olarak derin ağlar öylesine iyi iş yapar. İnsanların etkili bir derin ağ kurmak için çok önemli olduğunu düşündüğü şeylerin listesi bile her iki yılda bir değişiyor gibi görünüyor.
Derin öğrenme rönesansı, 2006'da Geoffrey Hinton'un (hiç kimsenin ilgisini çekmeden sinir ağları üzerinde çalışan), derin ağları eğitmek için etkili bir yol sunan birkaç yeni makale yayınladığında başladı ( Bilim kağıdı , Sinirsel hesaplama kağıdı ) . İşin püf noktası , gradyan inişine başlamadan önce denetimsiz ön eğitim kullanmaktı . Bu makaleler alanda devrim yarattı ve birkaç yıl boyunca insanlar denetimsiz ön eğitimin anahtar olduğunu düşünüyorlardı.
Daha sonra 2010'da Martens, derin sinir ağlarının ikinci dereceden yöntemlerle (yani Hessian içermeyen yöntemler) eğitilebileceğini ve ön eğitim ile eğitilmiş ağlardan daha iyi bir performans gösterebildiğini gösterdi: Hessen ücretsiz optimizasyonu ile derin öğrenme . Sonra 2013 yılında Sutskever ve ark. Bazı çok zekice hilelerle stokastik eğim inişinin Hessian içermeyen yöntemleri geride bırakabileceğini göstermiştir: Derin öğrenmede başlangıç ve momentumun önemi . Ayrıca, 2010 civarında insanlar sigmoid birimleri yerine rektifiye edilmiş lineer birimler kullanmanın gradyan inişi için büyük bir fark yarattığını fark ettiler. Bırakma ağları 2014 yılında ortaya çıktı. Artık ağlar 2015 yılında ortaya çıktı. İnsanlar derin ağları eğitmek için daha etkili yollar bulmaya devam ediyorlar ve10 yıl önce önemli bir içgörü gibi görünen şey, bugün sık sık sıkıntı verici olarak kabul edilir. Bunların hepsi büyük ölçüde deneme yanılma ile tahrik edilir ve az var anlayış bazı şeyler o kadar iyi çalışmaz ve bazı diğer şeyler değil kılan ait. Derin ağları eğitmek büyük bir püf noktası gibidir. Başarılı hileler, genellikle gerçeğe göre rasyonelleştirilir.
Derin ağların neden bir performans platosuna ulaştığını bile bilmiyoruz; Sadece 10 yıl boyunca insanlar yerel minimayı suçluyorlardı, ama şu anki düşüncemiz bu mesele değil. Bu derin ağlarıyla ilgili böyle bir temel sorudur ve biz bile bilmiyoruz bu .
Güncelleme: Bu, Ali Rahimi'nin NIPS 2017'nin makine öğrenmesiyle ilgili simya olarak konuşmasına konu oluyor: https://www.youtube.com/watch?v=Qi1Yry33TQE .
[Bu cevap Nisan 2017'de tamamen yeniden yazıldı, bu nedenle aşağıdaki yorumlardan bazıları geçerli değil.]