Yapay Sinir Ağlarının Arkasındaki Teorik Sonuçlar

13

Coursera'nın Makine Öğrenimi kursunda Yapay Sinir Ağları'nı yeni ele aldım ve arkalarında daha fazla teori bilmek istiyorum. Biyolojiyi taklit etme motivasyonunu biraz tatmin edici buluyorum.

Yüzeyde, her seviyede ortak değişkenleri doğrusal bir kombinasyonla değiştirdiğimiz görülüyor. Bunu tekrar tekrar yaparak doğrusal olmayan model montajına izin veriyoruz. Bu şu soruyu akla getiriyor: sinir ağlarının bazen sadece doğrusal olmayan bir model takmak için tercih edilmeleri.

Daha genel olarak, Yapay Sinir Ağlarının ET Jaynes'in "Olasılık Teorisi: Bilimin Mantığı" kitabında ayrıntılı olarak açıklanan Bayesci çıkarım çerçevesine nasıl uyduğunu bilmek istiyorum. Ya da, basitçe söylemek gerekirse, yapay sinir ağları neden çalışırlar? Ve elbette, başarılı tahminlerde bulunmaları, yukarıda belirtilen çerçeveyi takip ettikleri anlamına gelir.

machine-learning neural-networks theory

— Tom Artiom Fiodorov
kaynak

16

İşte ET Jaynes tarafından " Geleceğe Geriye Bakış " adlı bir alıntı .

Yeni Adhockeries

Son yıllarda, herhangi bir bağlantılı teorik ilkeye başvurmak yerine sezgisel cihazlar icat etme ortodoks alışkanlığı, ilk başta birkaç yeni bilim alanının yaratılmasını sağlayacak şekilde yeni sorunlara genişletildi. Ancak hepsi eksik bilgiden muhakeme yapmakla ilgileniyor; ve mantık olarak olasılık teorisinin bu tür sorunlarla başa çıkmanın genel yolu olduğunu belirleyen teoremlere sahip olduğumuza inanıyoruz . Üç örneği not ediyoruz.

Bulanık Kümeler - oldukça açık bir şekilde, Bayes çıkarımında eğitim almış herkes için - Bayesci önceki olasılıklara kaba yaklaşımlardır. Onlar sadece uygulayıcıları Doğada var olması beklenen fakat asla iyi tanımlanmamış bir "rastgelelik" açısından olasılık düşünmeye devam ettikleri için yaratıldılar; ve böylece olasılık teorisinin bu tür problemler için geçerli olmadığı sonucuna varılmıştır. Olasılık eksik bilgileri belirtmenin genel yolu olarak kabul edilir edilmez , Bulanık Kümelerin kullanılmasının nedeni ortadan kalkar.

Benzer şekilde, Yapay Zeka'nın (AI) çoğu, ortodoks istatistiklerin eskileri gibi Bayes yöntemlerine yaklaşık olan ve bazı sınırlı sınıf sınıflarında kullanılabilen eksik bilgilerden mantık yürütmek için sezgisel cihazların bir koleksiyonudur; ancak bunları sınıf dışındaki sorunlara uygulamaya çalıştığımızda saçma sonuçlar doğurur. Yine, uygulayıcıları buna ancak olasılıkları eksik bilgi yerine fiziksel bir "rastgelelik" temsil ettiğini düşünmeye devam ettikleri için yakalanmışlardır. Bayesci çıkarımda tüm bu sonuçlar, sınırlı bir sınıf problemiyle herhangi bir sınırlama olmaksızın otomatik olarak - ve önemsiz bir şekilde - dahil edilir.

Büyük yeni gelişme, Neural Nets'tir, yani insan beyni gibi, geçmiş hatalardan öğrenebilecekleri ve kendilerini otomatik olarak düzeltebilmeleri için uyarlanabilir oldukları harika yeni özelliğe sahip bir algoritma sistemi anlamına gelir (WOW! Ne harika bir fikir!) . Gerçekten de, Sinir Ağlarının aslında birçok uygulamada oldukça yararlı olduğunu görünce şaşırmıyoruz; Bulanık Setler veya AI'dan daha fazla. Bununla birlikte, mevcut sinir ağlarının iki pratik eksikliği vardır; (a) Mevcut girdi artı geçmiş eğitim bilgileri tarafından belirlenen bir çıktı sağlarlar. Bu çıktı gerçekten bir tahmindireldeki tüm bilgilere dayanarak uygun tepkinin sağlanması, ancak doğruluğunun bir göstergesi değildir ve bu nedenle bize hedefe ne kadar yakın olduğumuzu söylemez (yani, ne kadar daha fazla eğitime ihtiyaç duyulduğu); (b) Doğrusal olmayan tepki çağrıldığında, dahili olarak depolanan standart "sigmoid" doğrusal olmayan fonksiyona başvurulur; bu, çeşitli amplifikasyonlar ve lineer karışımlar ile bir dereceye kadar gerçek doğrusal olmayan fonksiyonun yaklaşık bir dereceye kadar yapılabilmesini sağlar. (Not: benimkini vurgulayın.)

Ancak, şunu belirtmemiz gerekir: (1) Uyarlanabilir olan herhangi bir prosedür, tanım gereği, eksik bilgileri dikkate almanın bir aracıdır; (2) Bayes teoremi tam olarak tüm uyarlanabilir prosedürlerin annesidir; yeni bilgileri dikkate almak için herhangi bir bilgi durumunu güncellemek için genel kural; (3) Bu sorunlar Bayesci terimlerle formüle edildiğinde, tek bir hesaplama otomatik olarak hem en iyi tahmini hem de doğruluğunu verir; (4) Doğrusal olmayanlık çağrılırsa, Bayes teoremi, başka bir ad hoc cihaz tarafından kendisine bir yaklaşım oluşturmaya çalışmak yerine, sorunun çağırdığı tam doğrusal olmayan işlevi otomatik olarak oluşturur .

Başka bir deyişle, bunların hiç yeni alan olmadığını; sadece yanlış başlar. Bu tür problemlerin tümü standart Bayesian reçetesi ile formüle edilirse, otomatik olarak tüm yararlı sonuçları geliştirilmiş formda olur. İnsanların bunu anlamada karşılaştıkları zorluklar, soyut matematik ile gerçek dünya arasındaki ilişkiyi kavramsallaştırmada aynı başarısızlığın örnekleridir. Olasılıkların gerçeği tarif etmediğini fark ettiğimiz anda - sadece gerçeklik hakkındaki bilgilerimiz - kapılar bu bilgilerden akıl yürütme sorunlarının optimal çözümüne açıktır.

Birkaç yorum:

(A) noktası seksenlerin sonlarında ve doksanların başlarında başlayan Bayesian Sinir Ağlarındaki gelişmeleri görmezden gelir (ancak Jaynes'in makalesinin 1993'te yazıldığına dikkat edin). Bu bir göz atın yazı . Ayrıca, Yarin Gal'in güzel doktora tezini okumayı ve Zoubin Ghahramani'nin bu muhteşem sunumunu izlemeyi düşünün.
(B) noktasının nasıl "eksiklik" olabileceğini anlamıyorum. Aslında, sinir ağlarının neden büyük bir fonksiyon sınıfına iyi yaklaşabilmesinin özüdür. Son zamanlarda başarılı mimarilerin sigmoidden iç katmanlardaki ReLU aktivasyonlarına geçtiğine ve "genişlik" üzerinde "derinlik" i tercih ettiğine dikkat edin. ReLU ağları için yakın zamanda teoremler kanıtlanmıştır .

— Zen
kaynak

2

+1 Hiçbir şey, bir cevap için tam olarak doğru referansı nerede bulabileceğini bilmekten daha tatmin edici değildir.

— Sycorax, Reinstate Monica

5

Geçici cihazların birçok durumda çalıştıklarını gösterdikleri göz önüne alındığında, Bayes çerçevesine uyduklarını göstermek (veya çürütmek) ve böylece, bu kadar yaygın bir şekilde konuşlandırılan adhockeries hakkında daha derin bir anlayış kazanmaları verimli olacaktır. günler. Bu, ilgilendiğim türden bir çalışma.

— Tom Artiom Fiodorov

1

Her şeyden önce, doğrusal olmayan bir işlev elde etmek için doğrusal işlevleri birbirimize istiflemiyoruz. NN'lerin hiçbir zaman böyle çalışmamasının açık bir nedeni vardır: Doğrusal işlevlerin birbiri içine istiflenmesi yine doğrusal bir işlev verecektir.

NN'leri doğrusal olmayan yapan , doğrusal fonksiyonun arkasındaki aktivasyon fonksiyonudur! Bununla birlikte, prensipte haklısınız: Birbirimize çok sayıda lojistik regresyonu (doğrusal olmayanları değil) bir araya getiriyoruz ve ... tadaa: bundan iyi bir şey alıyoruz ... bu adil mi? (Teorik açıdan) aslında adil olduğu ortaya çıkıyor. Daha da kötüsü: ünlü ve iyi bilinen kullanma Taş Weierstrass ait Teoremi biz sadece tek bir gizli katmanı ve son düğümde hiçbir çıkış fonksiyonu ile o sinir ağları kanıtlamak olduğunu approximize için yeterli herhangi me sürekli fonksiyonlar (ve inanmak, sürekli fonksiyonlar çirkin olabilir canavarlar, "şeytan merdiven" bakın: https://en.wikipedia.org/wiki/Cantor_distribution $[a,b]$ $x \mapsto = b + a_1\phi_1(x) + ... + a_l\phi_l(x)$ $l$

O zaman neden derin NN'ler kullanıyoruz? Bunun nedeni, yukarıdaki SW-teoreminin, sadece (umarım sürekli) hedef fonksiyonumuza yaklaşabilmemiz için yeterince büyük bir katman boyutu olduğunu garanti etmesidir. Ancak, gereken katman boyutu o kadar büyük olabilir ki, hiçbir bilgisayar bu boyuttaki ağırlık matrislerini işleyemez. Daha gizli katmanlara sahip NN'ler, 'doğruluk' ve hesaplanabilirlik arasında iyi bir uzlaşma gibi görünüyor. Sadece tek gizli katmanın boyutunu artırmakla karşılaştırıldığında, daha gizli katmanlar koyarken NN'lerin hızının büyüdüğü 'ne kadar' yönüne işaret eden herhangi bir teorik sonuç bilmiyorum ama belki de web'de bazı kaynaklar var ...

Derin NN'leri gerçekten anlayabilir miyiz? Örnek sorular: NN, bu davayı neden FALSE olarak öngörürken neden tam olarak TRUE olduğunu tahmin ediyor? Neden bu müşteriyi diğerinden daha değerli olarak değerlendiriyor? Gerçekten inanmıyorum. Modelin karmaşıklığıyla birlikte artık makul olarak iyi açıklayamazsınız ... Sadece bunun hala aktif bir araştırma alanı olduğunu duyuyorum, ancak herhangi bir kaynak bilmiyorum ...

NN'leri tüm modeller arasında bu kadar eşsiz yapan nedir? Bugünlerde NN'leri bu kadar çok kullanmamızın gerçek nedeni aşağıdaki iki nedenden kaynaklanmaktadır:

Doğal bir 'akış' özelliği ile gelirler.
Onları birçok yöne çevirebiliriz.

$T$ $f$ $T$ $T'$ $T'$ , vb.) bu mülke dayanmaktadır. İnsanlar bu akış özelliğini diğer modellere (örneğin Gradient Boosting) aşılamaya çalıştılar, ancak doğal olarak gelmiyor ve NN kurulumundaki kadar ucuz değil.

Demek istediğim, insanlar NN'leri en tuhaf şeyleri yapmak için eğitmişler ama prensipte sadece aynı çerçeveyi kullandılar: pürüzsüz fonksiyonları birbirine istifleme ve sonra bilgisayarın (yani PyTorch / Tensorflow) bilgisayar gibi sizin için kirli matematiği yapmasına izin verin Kayıp fonksiyonunun türevi ağırlıkları içermez. Bir örnek bu çalışmadırburada insanlar RL yaklaşımını kullandılar ve ayrıca kimyasal maddelerin karmaşık dilini bir bellek yığını (!) üzerinde nasıl çalışacaklarını öğreterek öğrenmek için NN mimarisini pimişlediler. Bunu gradyan artırımı ile yapmaya çalışın ;-) Bunu yapmaları gerekmesinin nedeni, kimyasalların dilinin en azından parantez dili kadar 'öğrenmesi zor' olmasıdır (yani her açılış parantezinin daha sonra kelimesi kapanır ) çünkü molekülleri tanımlamak için kullanılan SMILES dili '(' ve ')' sembollerini içerir. Teorik bilgisayar bilimlerinden (Chomsky hiyerarşisi) kişi bu dili düzenli bir otomata ile tanımlayamayacağını bilir, ancak aşağı itmeli bir otomata (yani yığın hafızalı bir otomata) ihtiyaç duyar. Bu garip şeyi NN'ye öğretme motivasyonuydu (sanırım).

— Fabian Werner
kaynak

-1

"Neden çalışırken işe yarıyor?"

$n$

Yani, tüm makine öğrenimi de benzerdir.

Makine Öğrenimi simyaya benzer: bol miktarda esrarengiz tarif var, bir tane uyguluyorsunuz ve altın alabilirsiniz. Değilse, başka bir tarif uygulayın.

Kimse sorduğunuz soruyu sormuyor, en azından bildiğim yayınlarda değil.

Bunun da ötesinde, istatistiksel öğrenme teorisi var. İstatistiksel öğrenme teorisi, eğitim setinin boyutunun sonsuzluğa gittiğini varsayar. Bildiğim sonuçların çoğu şu şekildedir: "belirli koşullar altında, yeterince büyük bir eğitim setiniz varsa, bu prosedürü kullanarak mümkün olduğunca iyi sonuç alabilirsiniz". "Yeterince büyük" olanın tahminleri hayal gücünün ötesindedir.

Tabii ki, sorun şu ki, eğitim seti boyutu sonsuza dek bir yere gitmiyor.

Yani, bence, (1) bu soruyu sormak, (2) tüm olası makine öğrenme algoritmaları hakkındaki soruyu cevaplamak için bir matematiksel cihaz geliştirmek ve (3) bu soruyu cevaplamak için iyi bir zamandır.

— yat Limanı
kaynak