TCS “Sinir ağları neden bu kadar iyi çalışıyor?” Sorusuna ne tür bir cevap istiyor?


52

Doktora saf matematikte ve teorik CS hakkında fazla bir şey bilmediğimi itiraf ediyorum. Bununla birlikte, kariyerim için akademik olmayan seçenekleri araştırmaya ve kendimi makine öğrenimi ile tanıştırmaya başladım, "Hiç kimse sinir ağlarının neden iyi çalıştığını anlamıyor" gibi ilginç bulgular getirdi.

Benim sorum, esasen, araştırmacılar ne tür cevaplar istiyor? İşte konuyla ilgili kısa araştırmamda ne buldum:

  • Basit sinir ağlarını uygulayan algoritmalar oldukça basittir.
  • SGD süreci, istatistiksel teoride olduğu gibi matematiksel olarak iyi anlaşılmıştır.
  • Evrensel yaklaşım teoremi güçlü ve kanıtlanmıştır.
  • Çok yakın zamanda yayınlanan bir makale https://arxiv.org/abs/1608.08225 esasen evrensel yaklaşımın pratikte ihtiyaç duyduğumuzdan çok daha fazla olduğu cevabını veriyor çünkü uygulamada modellemeye çalıştığımız fonksiyonlarla ilgili basitleştirici varsayımlar yapabiliriz. sinir ağı.

Yukarıda sözü edilen makalede, "Fıkra" ifadesi "" GOFAI algoritmaları analitik olarak tam olarak anlaşılmıştır, fakat çoğu YSA algoritması sadece sezgisel olarak anlaşılmaktadır. " Uygulanan algoritmalar için yakınsaklık teoremleri, sinir ağları hakkında sahip olduğumuzu düşündüğümüz analitik anlayışın bir örneğidir, bu nedenle, bu genel düzeydeki bir ifade bana neyin bilindiği ya da ne bilindiği ya da neyin kabul edilebileceği hakkında bir cevap vermez. ."

Yazarlar, sonuç olarak, belirli bir polinomu yaklaştırmak için ihtiyaç duyulan sinir ağının boyutunda etkili sınırlar gibi soruların açık ve ilginç olduğunu öne sürmektedir. Yapay sinir ağlarını "anladığımızı" söylemek için cevaplanması gereken matematiksel olarak spesifik analitik soruların diğer örnekleri nelerdir? Daha saf matematik dilinde cevaplanabilecek sorular var mı?

(Özellikle bu makalede fiziğin kullanılmasından dolayı temsil teorisindeki yöntemleri düşünüyorum - ve bencilce, çünkü bu benim çalışma alanım. Ancak, birleştirici / grafik teorisi, cebirsel geometri gibi alanları da hayal edebiliyorum. ve uygulanabilir araçlar sağlayan topoloji.)


3
GOFAI gerçekten bu kadar iyi anlaşıldı mı? Bir çok GOFAI, arketipik NP-tamamlayıcı problemi olan SAT çözümüne kadar düşüyor. Modern SAT çözücüler, mevcut teoriye göre olmasalar da pratikte oldukça iyi çalışırlar. Neden?
Martin Berger

Bu alanda gerçekten derinlemesine önce öğrenme ve derinlemesine öğrenme çalışması / değişim / tarih var ve bu alanda önemli bir paradigma kayması var. derin öğrenme sadece son on yıl içinde başladı. basit cevap, sinir ağlarının keyfi karmaşık işlevleri temsil edebilmesi ve karmaşıklığın şimdi derin sinir ağları ile çok ileri seviyelerde olmasıdır. Başka bir cevap, incelenen sorunların ve belki de "genel olarak gerçekliğin" bile "özelliklerin dışında" olduğu ve YSA'ların artık çok karmaşık özellikleri öğrenmekte usta olduklarıdır.
vzn

İnsanların burada "cevap" aradıklarını sanmıyorum. Problemleri çözmek için sinir ağları kullanmaya çalışırlar ve eğer problem gerçekten çözülürse sorun olmaz. Ağların bu çözüme nasıl ulaştığını bilmek, burada mutlaka ilgi çekici değildir. Sorunu çözdüğü sürece siyah / opak bir kutu olup olmadığını kimse umursamıyor.
xji

Yanıtlar:


38

Makine öğreniminde bir grup "bedava öğle yemeği yok" teoremi vardır, kabaca diğer tüm algoritmalardan aynı derecede daha iyi performans gösteren tek bir ana öğrenme algoritması olamayacağını belirtir (bkz. Örneğin, burada http: //www.no-free-). lunch.org/ ). Tabii ki, derin öğrenme çok zorlanmadan "kırılabilir": http://www.evolvingai.org/fooling

Bu nedenle, kanıtlanabilir şekilde etkili olması için, bir öğrencinin endüktif önyargıya ihtiyacı vardır — yani verilerle ilgili bazı önceki varsayımlara. Endüktif önyargı örnekleri arasında veri azlığı veya düşük boyutluluk varsayımları ya da dağıtımın iyi bir şekilde faktoring olduğu ya da büyük bir marjı olduğu, vb. Sayılabilir. Çeşitli başarılı öğrenme algoritmaları bu varsayımları genelleme garantilerini kanıtlamak için kullanır. Örneğin, (doğrusal) SVM, veriler uzayda iyi ayrıldığında iyi çalışır; Aksi takdirde - çok değil.

Bence derin öğrenme konusundaki asıl zorluk, endüktif önyargının ne olduğunu anlamak. Başka bir deyişle, bu tür teoremleri ispatlamaktır: Eğer eğitim verileri bu varsayımları yerine getirirse, genelleme performansı hakkında bir şeyler garanti edebilirim. (Aksi takdirde, tüm bahisler kapalıdır.)

Güncelleme (Eylül-2019): Gönderdiğim cevabımdan bu yana iki yıl içinde, çeşitli DL ve ilgili algoritmalardaki endüktif önyargıyı anlama konusunda büyük ilerleme kaydedildi. Anahtar kavrayışlardan biri, kullanılan gerçek optimizasyon algoritmasının önemli olduğudur, çünkü tek tip yakınsama, büyük bir YSA gibi kitlesel olarak aşırı parametrelenmiş bir sistemin neden öğrenmeyi başardığını açıklayamaz. Çeşitli optimizasyon yöntemlerinin (SGD gibi) çeşitli normlara göre ( gibi) dolaylı olarak düzenleyici olduğu ortaya . Diğer örnekler ve daha fazlası için bu mükemmel dersi görün: https://www.youtube.com/watch?v=zK84N6ST9sM2


Farklı örneklerin derin sinir ağlarına özgü olmadığı unutulmamalıdır. Ayrıca doğrusal ve lojistik regresyon için kolayca oluşturulabilirler, örneğin: arxiv.org/pdf/1412.6572.pdf
Lenar Hoyt

1
Evet, fakat doğrusal ve lojistik regresyon teorik olarak daha iyi anlaşılır.
Aryeh

2
Ayrıca, NFL teoremlerinin pratik makine öğreniminde büyük bir rol oynayamayacağına da dikkat edilmelidir, çünkü NFL tüm fonksiyonların sınıfıyla ilgilenirken , gerçek dünya problemleri tipik olarak örneğin düzgün fonksiyonlarla veya daha özel fonksiyonlarla sınırlıdır. makalede Lin ve Tegmark tarafından ele alınanlar. İlgilendiğimiz tüm öğrenme problemlerini kapsayan endüktif önyargılar bulmak mümkün olabilir.
Lenar Hoyt

4
Öyleyse önce "ilgilendiğimiz tüm öğrenme problemleri" nin bu alanını resmileştirmeliyiz.
Aryeh

1
Bu, özellikle AI güvenliği konusunda kesinlikle faydalı görünmektedir. Bir makine öğrenme algoritmasının ne öğrenmesi gerektiğini güvenilir bir şekilde belirleyebilmemiz gerekir.
Lenar Hoyt

26

Sinir ağları anlayışımızda iki ana boşluk vardır: optimizasyon sertliği ve genelleme performansı.

Bir sinir ağını eğitmek, dışbükey olmayan bir optimizasyon problemini yüksek boyutlarda çözmeyi gerektirir. Mevcut eğitim algoritmalarının tümü, yalnızca kritik bir noktaya (yerel minimum veya eyer) yakınlaşmayı garanti eden gradyan inişine dayanır. Aslında, Anandkumar ve Ge 2016 geçenlerde yerel bir asgari bulmanın bile NP-zor olduğunu kanıtladı; bu, (P! = NP varsayarsak) hata yüzeyinde "kötü", kaçması zor, eyer noktaları olduğunu gösteriyor.
Ancak, bu eğitim algoritmaları birçok pratik problem için ampirik olarak etkilidir ve bunun nedenini bilmiyoruz.
Gibi kuramsal makaleler bulunmaktadır Choromanska ve arkadaşları. 2016 ve Kawaguchi 2016Bu, belirli varsayımlar altında, yerel minimumun temelde küresel minimumun kadar iyi olduğunu, ancak yaptıkları varsayımların biraz gerçekçi olmadığını ve kötü eyer noktalarının konusunu ele almadıklarını kanıtladı.

Anlayışımızdaki diğer ana boşluk genelleştirme performansıdır: model eğitim sırasında görülmeyen yeni örnekler üzerinde ne kadar iyi performans gösteriyor? Sınırsız sayıda eğitim örneği sınırında (sabit bir dağılıma göre örneklenmiş), eğitim hatasının yeni örneklerde beklenen hataya yakınlaştığını (global optimumda eğitim alabilmeniz şartıyla) göstermek kolaydır. Sonsuz eğitim örneklerine sahip değiliz, eğitim ve genelleme hatası arasında belirli bir farkın elde edilmesi için kaç örnek gerektiğiyle ilgileniyoruz. İstatistiksel öğrenme teorisi bu genelleme sınırlarını inceler.
Ampirik olarak, büyük ve modern bir sinir ağını eğitmek çok sayıda eğitim örneği gerektirir (zahmetli sözcüklerden hoşlanıyorsanız Büyük Veri), ancak pratik olarak olanaksız olması için anıtsal olarak büyük değildir. Ancak, istatistiksel öğrenme teorisinden en iyi bilinen sınırları uygularsanız (örneğin Gao ve Zhou 2014 ), genellikle bu inanılmaz derecede büyük sayılar elde edersiniz. Bu nedenle, bu sınırlar en azından pratik problemler için sıkı olmaktan çok uzaktır.
Sebeplerden biri, bu sınırların veri üreten dağılım hakkında çok az varsayma eğiliminde olmaları olabilir; bu nedenle, "doğal" ortamlar daha "öğrenilebilir" olma eğilimi gösterirken, olumsuz ortamlara karşı en kötü durum performansını yansıtıyorlar.
Dağıtıma bağlı genelleme sınırları yazmak mümkündür, ancak "doğal" ortamlar üzerindeki bir dağılımın resmen nasıl tanımlanacağını bilmiyoruz. Algoritmik bilgi teorisi gibi yaklaşımlar hala yetersiz.
Bu nedenle sinir ağlarının neden fazla donatılmadan eğitilebileceğini hala bilmiyoruz.

Ayrıca, bu iki ana konunun hala yeterince anlaşılmayan bir şekilde ilişkili olduğu belirtilmelidir: genelleştirme, istatistiksel öğrenme teorisinden gelen sınırlar, modelin eğitim seti üzerinde küresel optimum olarak eğitilmiş olduğunu, ancak pratik bir ortamda olduğunu varsaymaktadır. Bir sinir ağını hiçbir zaman bir eyer noktasına bile yakınlaşmadıkça, yani aşırı ısınmaya neden olacak şekilde eğitmeyecekti. Bunun yerine, bir uzatılmış doğrulama setindeki (genelleme hatasının bir proxy'si olan) hata iyileştirmeyi bıraktığında eğitimi durdurursunuz. Bu "erken durma" olarak bilinir.
Bu nedenle, bir anlamda, küresel optimumun genelleştirme hatasını sınırlama konusundaki bu teorik araştırma oldukça önemsiz olabilir: sadece onu etkili bir şekilde bulamıyoruz, ancak yapsak bile, daha kötü bir performans göstereceğinden istemeyeceğiz birçok "alt-optimal" çözümden daha yeni örnekler.
Optimizasyon sertliğinin sinir ağının bir kusuru olmadığı, aksine sinir ağlarının en iyi şekilde çalışabildikleri için çalışabilir.
Tüm bu gözlemler ampiriktir ve onları açıklayan iyi bir teori yoktur. Ayrıca sinir ağlarının hiperparametrelerinin (gizli katman genişliği ve derinliği, öğrenme oranları, mimari detaylar, vb.) Nasıl ayarlanacağını açıklayan hiçbir teori yoktur. Uygulayıcılar sezgilerini deneyimle ve etkin değerlerle karşılaşmak için çok fazla deneme yanılma ile kullanırlar; teorik olarak sinir ağları daha sistematik bir şekilde tasarlanabilir.


11

Bu soruyu başka ele alan, @ Aryeh'in sözlerine eklemek için: Diğer birçok öğrenme modeli için, hipotez alanının "şeklini" biliyoruz. SVM'ler bunun en iyi örneğidir, bu nedenle bulduğunuz şey (muhtemelen yüksek boyutlu) bir Hilbert uzayında doğrusal bir ayırıcıdır.

Genel olarak sinir ağları için, bu kadar net bir tanımımız ya da bir yaklaşımımız bile yok. Ve böyle bir açıklama bizim için bir sinir ağının tam olarak ne bulduğunu anlamamız için önemlidir.


Hipotez alanının "şekli" olarak ne adlandırırsınız? :) Teorem 2.1 (sayfa 3), sizin sorunuzun bir kısmını cevaplıyor mu : eccc.weizmann.ac.il/report/2017/098 ? : D
Anirbit

4

Derin sinir ağlarının başarısını açıklamak için Bilgi Darboğazı ilkesi önerilmiştir.

İşte Quanta dergisinden bir alıntı

Geçtiğimiz ay, yapay zeka araştırıcıları arasında geniş çapta paylaşılan Berlin'deki bir konferans görüşmesinin bir YouTube videosu olası bir cevap verdi. Konuşmada, Kudüs İbrani Üniversitesi'nden bir bilgisayar bilimcisi ve sinir bilimci olan Naftali Tishby, derin öğrenmenin nasıl çalıştığını açıklayan yeni bir teoriyi destekleyen kanıtlar sundu. Tishby, derin sinir ağlarının, kendisi ve iki ortak çalışanının 1999'da tamamen teorik terimlerle tanımladığı “bilgi darboğazı” olarak adlandırılan bir prosedüre göre öğrendiklerini savunuyor. darboğazdan geçen bilgiler, yalnızca genel kavramlarla en alakalı özellikleri koruyarak.

Referanslar:

1- Derin öğrenme ve bilgi darboğaz prensibi , Naftali Tishby ve Noga Zaslavsky

2- Bilgi , Ravid Shwartz-Ziv ve Naftali Tishby ile Kara Sinir Ağlarının Kara Kutusunu Açma

3- Konferans tartışma videosu: Naftali Tishby'den Derin Öğrenme Bilgi Kuramı


1

Derin sinir ağlarını eğitmek için hala etkili bir algoritma keşfetmemiz gerektiğini söyleyebilirim. Evet, SGD pratikte iyi çalışıyor ancak küresel minimuma yakınlaşma garantisi veren daha iyi bir algoritma bulmak çok iyi olurdu.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.