Derin öğrenme konusunda temel bir teori eksikliği var mı?


10

Derin öğrenmenin temel / açık sorunlarından birinin üzerinde "genel teori" nin olmaması olduğunu birkaç kez duydum çünkü aslında derin öğrenmenin neden bu kadar iyi çalıştığını bilmiyoruz. Derin öğrenme hakkındaki Wikipedia sayfasında bile benzer yorumlar var . Bu tür ifadeler güvenilir ve alanın durumunu temsil ediyor mu?

Yanıtlar:


5

Derin Öğrenme neden bu kadar iyi çalışıyor? Adlı bir makale var. .

"Bununla birlikte, derin öğrenmenin neden bu kadar iyi çalıştığı hala tam olarak anlaşılamamıştır. El yapımı ve analitik olarak tam olarak anlaşılan GOFAI (" eski moda AI ") algoritmalarının aksine, yapay sinir ağları kullanan birçok algoritma sadece deneysel olarak, büyük veri kümeleri kullanan bazı eğitim protokollerinin mükemmel performansla sonuçlanacağını ampirik olarak bildiğimiz sezgisel bir seviye.Bu, insan beyni ile durumu anımsatır: bir çocuğu belirli bir müfredata göre eğitirsek, ama beyninin bunu nasıl başardığını bilmiyoruz. "


3

Durum böyledir. Derin öğrenme modelleri, yığılmış oto-kodlayıcılar ve sinir ağları gibi sığ modelleri bile tam olarak anlaşılamamıştır. Böyle karmaşık bir değişken yoğun işlev için optimizasyon sürecine ne olduğunu anlama çabaları vardır. Ancak, bu zor bir görevdir.

Araştırmacıların derin öğrenmenin nasıl çalıştığını keşfetmek için kullandıkları yollardan biri de üretken modeller kullanmaktır. İlk önce bir öğrenme algoritması geliştirir ve örnek oluşturmasını isterken sistematik olarak engelleriz. Elde edilen oluşturulan örnekleri gözlemleyerek, algoritmada neler olduğunu daha anlamlı bir seviyede çıkarabiliriz. Bu, beynin farklı bileşenlerinin ne için kullanıldığını anlamak için nörobilimdeki inhibitörleri kullanmak gibidir. Örneğin, görsel korteksin olduğu yerde olduğunu biliyoruz çünkü ona zarar verirsek kör olacağız.


2

Muhtemelen "temel teori" ile ne anlama geldiğine bağlıdır, ancak tam tersine iddialara rağmen, bazıları çok genel olan derin öğrenmede titiz nicel teori eksikliği yoktur.

Bunun iyi bir örneği, enerjiye dayalı öğrenme yöntemleri üzerine çalışmaktır. Örneğin, Neal & Hinton'un varyasyonsal çıkarım ve serbest enerji konusundaki çalışmaları: http://www.cs.toronto.edu/~fritz/absps/emk.pdf

Ayrıca Yann LeCun ve meslektaşları tarafından "birçok öğrenme modeli için ortak teorik çerçeve" olarak enerji minimizasyonu kılavuzu: http://yann.lecun.com/exdb/publis/pdf/lecun-06.pdf

Ve Scellier ve Bengio'nun enerji tabanlı modeller için genel bir çerçevesi: https://arxiv.org/pdf/1602.05179.pdf

Hinton ve Sejnowski'nin belirli bir Hopfield'den ilham alan ağ + denetimsiz öğrenme algoritmasının Bayes-optimal çıkarımını yaklaşık olarak tahmin edebileceğini analitik olarak gösteren daha önceki çalışmaları da var: https://papers.cnl.salk.edu/PDFs/Optimal%20Perceptual%20Inference%201983 -646.pdf

Derin öğrenmeyi teorik sinirbilim ile ilişkilendiren birçok makale vardır, örneğin aşağıdakiler, geri yayılımın etkilerinin biyolojik olarak makul sinir mimarilerinde elde edilebileceğini gösterir: https://arxiv.org/pdf/1411.0247.pdf

Tabii ki birçok açık soru var ve tartışmasız tek bir birleşik teori yok, ama hemen hemen her alanda aynı şey söylenebilir.


1

Vikipedi teklifiniz sorgulanabilir çünkü derin öğrenme iyi gelişmiştir. Aslında, [citation needed]Wikipedia sayfasında bir var.

Https://github.com/terryum/awesome-deep-learning-papers adresine bakın . Bağlantıda 100 makale var, hala derin öğrenme "genel teori" eksik mi düşünüyorsunuz?

Evet. Derin öğrenmeyi anlamak zordur çünkü çok karmaşık bir modeldir. Ancak bu, teorilerimizin olmadığı anlamına gelmez.

Belki limepaket ve kağıt: "Size Neden Güveneyim?": Herhangi bir Sınıflandırıcının Tahminlerini açıklamak size yardımcı olacaktır. Bu makale, karmaşık bir modeli (derin öğrenme dahil) yerel olarak çok daha basit bir modelle yaklaşık olarak tahmin edebilmemizi önermektedir.


3
Birçok ilginç uygulama, bu uygulamaların bazı zorlu süreçlerden sonra geliştirildiği anlamına gelmez. “Hımm ... belki 8 katmanı denemeliyim? Ah .. işe yarıyor! Harika, hadi sonuçları yayınlayalım.”
Chris Anderson

2
"Derin öğrenmeyi anlamak zordur çünkü çok karmaşık bir modeldir. Ama bu, teorilere sahip olmadığımız anlamına gelmez." Doğru, ama aynı zamanda teorilerimiz de yok. Literatürdeki tekniklerin matematiksel olarak çok az anlaşılması vardır. Derin öğrenmenin nasıl veya neden işe yaradığına dair açıklamaların çoğu sezgi ve ampirizme dayanır, ki bu tamamdır, ancak bir teori imo oluşturmaz.
user27182

0

Derin öğrenme teorisinde kalan kilit bir soru, bu kadar büyük modellerin (veri noktalarından çok daha fazla parametreye sahip) neden kullandığımız veri kümelerinde fazla uymamalarıdır.

Karmaşıklık ölçütlerine dayanan klasik teori, pratik sinir ağlarının davranışını açıklamaz. Örneğin, VC boyutu tahminleri boş genelleme sınırları verir. Bildiğim kadarıyla, VC boyutu üzerindeki en sıkı (üst ve alt) sınırlar [1] 'de verilmiştir ve ağdaki ağırlık sayısı sırasına göre verilmiştir. Açıkçası bu en kötü durum karmaşıklığı, örneğin büyük bir yeniden ağın CIFAR veya MNIST üzerinde nasıl genelleştiğini açıklayamaz.

Son zamanlarda, örneğin sinirsel tanjant çekirdeği ile ilişkili olarak veya ağırlıklar üzerindeki çeşitli norm önlemleri ile sinir ağları için genelleme sağlama yönünde başka girişimler olmuştur. Sırasıyla, bunların pratik olarak boyutlandırılmış ağlar için geçerli olmadığı ve diğer tatmin edici özelliklere sahip olmadığı bulunmuştur [2].

PAC Bayes çerçevesinde boş olmayan sınırlar için bazı çalışmalar vardır, örneğin [3]. Bununla birlikte, bu kurulumlar eğitimli ağ hakkında biraz bilgi gerektirir ve bu nedenle klasik PAC analizinden farklıdır.

Diğer bazı yönler:

  • optimizasyonu: nasıl böyle bir dışbükey olmayan problem üzerinde gradyan kökenli 'iyi' çözümler elde ediyoruz? (Son literatürde buna bazı cevaplar vardır)

  • yorumlanabilirlik: Sezgisel düzeyde ağın 'düşünce' ne olduğunu açıklayabilir miyiz? (Benim bölgem değil)

(eksik) referanslar:


0

Genel olarak makine öğrenmesinin neden işe yaradığına dair iyi bir teori olmadığını belirtmek isterim. VC sınırları hala bir model alır, ancak gerçeklik bu matematiksel ideallerin hiçbirine uymaz. Nihayetinde uygulama söz konusu olduğunda her şey duygusal sonuçlara ulaşır. İnsanların sezgisel anlayışıyla tutarlı bir algoritma kullanarak görüntüler arasındaki benzerliği ölçmek bile çok zor

Her neyse, NN tamamen bağlı formlarında iyi çalışmıyor. Tüm başarılı ağlar, ağ mimarisi (CNN, LSTM, vb.) İçine yerleştirilmiş bir çeşit düzenlileştirmeye sahiptir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.