Makine (Derin) Öğrenmede temel teoremler nelerdir?


45

Al Rahimi, NIPS 2017'de şu anki Makine Öğrenmesini Simya ile karşılaştırarak çok kışkırtıcı bir konuşma yaptı . İddialarından biri, temel sonuçları ispatlayan basit teoremlere sahip olmak için teorik gelişmelere geri dönmemiz gerektiğidir.

Bunu söylediğinde, ML için ana teoremleri aramaya başladım, ancak ana sonuçları anlatan iyi bir referans bulamadım. Öyleyse benim sorum şu: ML / DL'deki mevcut ana matematik teoremleri (teorisi) nelerdir ve neyi ispatlar? Vapnik'in çalışmalarının burada bir yerlere gideceğini tahmin ediyorum. Ek olarak, temel teorik açık problemler nelerdir?


3
@Tim Bu durum, istatistik.stackexchange.com/questions/2379/… ("İstatistiklerdeki büyük sorunlar nelerdir?") İle bir tür .
whuber

2
Biraz geniş. En azından bir Makine Öğrenmesi alt kümesi belirleyebilir misiniz? Kendimizi Derin Öğrenmeyle veya en azından denetlenen öğrenmeyle sınırlarsak, biri bir cevap vermeye çalışabilir. Ancak "Makine Öğrenimi Matematiği" gibi bir konuda ısrar ediyorsanız, cevap yazmanız uzun zaman alacak.
DeltaIV

3
@ Whuber'in örnek analoğunun ışığında, bunun CW olarak açık kalması gerektiğini, özellikle DeltaV'nin talep ettiği gibi denetimli öğrenme gibi belirli bir ML alt kümesiyle sınırlı olabileceğini söylemeye meyilliyim .
dediklerinin - Eski Monica

3
@DeltaIV "Derin" başlığında olduğunu unutmayın.
amip diyor Reinstate Monica

4
Bu soruyu anlamak, David Donoho'nun ev sahipliği yaptığı yeni bir dizi dersin konusuydu : bkz. Stats385.github.io .
user795305,

Yanıtlar:


43

Yorumlarda yazdığım gibi, bu soru benim için çok geniş görünüyor, ama bir cevap vermeye çalışacağım. Bazı sınırları belirlemek için, ML'nin çoğunun altında yatan küçük bir matematikle başlayacağım ve daha sonra DL için son sonuçlara odaklanacağım.


Önyargı-varyans değiş tokuş onu bahsetmeden başlayamaz böylece, ML vs. sayısız kitaplar, kurs, MOOCs, bloglar, tweet içinde anılır:

E[(Yf^(X))2|X=x0]=σϵ2+(Ef^(x0)f(x0))2+E[(f^(x0)Ef^(x0))2]=Irreducible error + Bias2 + Variance

Burada kanıtı: https://web.stanford.edu/~hastie/ElemStatLearn/


Gauss-Markov Teoremi (evet, lineer regresyon Makine Öğrenmesi önemli bir parçası olarak kalacaktır, hiçbir ne önemi: onunla anlaşma) doğrusal model doğrudur ve hata teriminin bazı varsayımlar, EKK geçerli olduğunda minimum vardır, açıklık getirmektedir Doğrusal modelin yansız doğrusal tahmin ediciler arasında ortalama kare hatası (yukarıdaki ifadede sadece ) . Bu nedenle, daha iyi bir ortalama kare hatasına sahip olan önyargılı (veya doğrusal olmayan tahmin edicilere) sahip doğrusal tahmin ediciler ve dolayısıyla OLS'den daha iyi beklenen bir tahmin hatası olabilir. Ve bu, ML'nin bir işgücü olan tüm normalleştirme cephaneliğine (sırt regresyonu, LASSO, ağırlık azalması vb.) Yol açmaktadır. Burada bir kanıt (ve sayısız başka kitapta) verilmiştir: Bias2 + Variancehttps://www.amazon.com/Linear-Statistical-Models-James-Stapleton/dp/0470231467

James Cin-Stein teoremi , yorumlarda Carlos Cinelli tarafından belirtildiği gibi, muhtemelen yorumlamada kesinlikle daha eğlenceli ve düzenli hale getirme yaklaşımlarının patlamasıyla daha alakalı . Düşünün bağımsız, aynı varyansa ama değil aynı ortalama Gauss rastgele değişkenleri:n

Xi|μiN(θi,σ2),i=1,,n

Başka bir deyişle, bir bileşen Gauss rastgele vektörü var . Biz bir örnek var dan ve biz tahmin etmek istiyoruz . MLE (ve ayrıca UMVUE) tahmincisi açıkça . James-Stein tahmincisini düşününnXN(θ,σ2I)xXθθ^MLE=x

θ^JS=(1(n2)σ2||x||2)x

Açıkça, eğer , MLE tahminini sıfıra doğru küçültürse . James-Stein teoremi için belirtmektedir , kesinlikle hakim , yani sahip olduğu düşük MSE . Pheraps, şaşırtıcı bir şekilde, başka herhangi bir sabite doğru daraltsak bile , hala hakimdir. . beri(n2)σ2||x||2θ^JS n4θ^JS θ^MLE θc0θ^JSθ^MLEXibağımsız olduklarından, İspanya'da üretilen elma sayısından bir örnek de dahil olmak üzere, ilgisiz üç kişinin boyunu tahmin etmeye çalışırken, tahminimizi ortalama olarak geliştirmemiz garip görünebilir . Buradaki kilit nokta "ortalama" dır: parametre vektörünün tüm bileşenlerinin eşzamanlı tahmini için ortalama kare hatası daha küçüktür, ancak bir veya daha fazla bileşen için kare hatası daha büyük olabilir ve aslında çoğu zaman "aşırı" gözlemleriniz var.

Tek değişkenli tahmin durumu için gerçekten de "en uygun" tahmin edici olan MLE'nin, çok değişkenli tahmin için reddedildiğini tespit etmek, o zamanlar oldukça şok oldu ve ML Parlance'de daha iyi düzenlenmesi olarak bilinen büzülmeye büyük ilgi duymasına neden oldu. Biri karışık modellerle bazı benzerliklere ve “borçlanma gücü” kavramına dikkat çekebilir: burada tartışıldığı gibi gerçekten bir bağlantı var.

Büzülmeyle ilgili birleşik bakış: Stein'in paradoksu, ridge regresyonu ve karışık modellerde rastgele etkiler arasındaki ilişki nedir?

Kaynak: James, W., Stein, C., Kuadratik Kayıp Tahmini . Dördüncü Berkeley Sempozyumu'nun Matematiksel İstatistik ve Olasılık Üzerine Bildirileri, Cilt 1: İstatistik Teorisine Katkıları, 361-379, California Press Üniversitesi, Berkeley, Kaliforniya, 1961


Temel Bileşen Analizi, boyut küçültme konusunun anahtarıdır ve Tekil Değer Ayrışımına dayanır : Her bir gerçek matris (teorem karmaşık matrislere kolayca genelleşse de) yazabiliriz.N×pX

X=UDVT

burada boyutu dik olan, a, negatif olmayan çapraz elemanları ve diyagonal matris boyutu daha diktir. Nasıl hesaplanacağına dair kanıtlar ve algoritmalar için bakınız: Golub, G. ve Van Loan, C. (1983), Matrix hesaplamaları , John Hopkins Üniversitesi basını, Baltimore.UN×pDp×pUp×p


Mercer teoremi ince levha spline, destek vektör makineleri, bir Gauss rastgele sürecin Kriging tahmin vb Temelde, sözde arkasında iki teoremleri biridir: Farklı ML yöntemlerin bir çok kurucu taş çekirdek hile . Let , bir symmmetric sürekli fonksiyon veya çekirdek olabilir. Eğer pozitif yarı yarı-sınırlı ise, negatif olmayan özdeğerlere karşılık gelen öz fonksiyonların ortonormal bir temelini kabul eder:K(x,y):[a,b]×[a,b]RK

K(x,y)=i=1γiϕi(x)ϕi(y)

Bu teorinin ML teorisi için önemi, örneğin Gauss süreçleri üzerine Rasmussen & Williams'ın metinleri gibi ünlü metinlerde aldığı referansların sayısıyla kanıtlanmaktadır .

Referans: J. Mercer, Pozitif ve negatif tip fonksiyonlar ve integral denklem teorisi ile bağlantıları. Londra Kraliyet Topluluğu'nun Felsefi İşlemleri. Matematiksel veya Fiziksel Karakterli Kağıtlar İçeren A Serisi, 209: 415-446, 1909

Ayrıca Konrad Jörgens, Lineer integral operatörleri , Pitman, Boston, 1982'de daha basit bir sunum var .


Mercer teoremiyle birlikte, çekirdek numarasının teorik temelini ortaya koyan diğer teorem, temsilci teoremidir . Örnek bir boşluk ve simetrik bir pozitif yarı-yarı çekirdekli olduğunu varsayalım . Ayrıca, , ile ilişkili RKHS olsun . Son olarak, bir eğitim örneği olsun. Teorem, fonksiyonlarının hepsinin özfonksiyonları açısından sonsuz bir temsil olduğunu kabul .XK:X×XRHKKS={xi,yi}i=1nfHKKMercer teoremi nedeniyle, düzenli riski en aza indiren, eğitim noktalarında değerlendirilen çekirdeğin oluşturduğu temelde daima sınırlı bir temsilidir;n

minfHKi=1nL(yi,f(xi))+λ||f||HK2=min{cj}1i=1nL(yi,jcjϕj(xi))+λjcj2γj=i=1nαiK(x,xi)

(teorem son eşitliktir). Kaynaklar: Wahba, G. 1990, Gözlemsel Veriler için Spline Modelleri , SIAM, Philadelphia.


Evrensel yaklaşım teoremi zaten kullanıcı Tobias Windisch bahsettiği ve fonksiyonel analize olandan bir ilk bakışta o kadar görünmeyebilir bile, çok daha az alakalı Makine Öğrenmesi için değil. Sorun şu ki teorem sadece böyle bir ağın var olduğunu söylüyor, fakat:

  • Gizli Katmanın büyüklüğü ile hedef fonksiyonunun karmaşıklık ölçüsü arasında , örneğin Toplam Varyasyon gibi herhangi bir korelasyon vermez . Eğer ve sabit bir hata için gerekli Growed ile katlanarak , daha sonra tek bir gizli katman nöral ağlar işe yaramaz.Nf(x)f(x)=sin(ωx):[0,2π][1,1]Nϵω
  • ağ eğer demiyor olduğu öğrenilebilir . Başka bir deyişle, ve verildiğinde , NN boyutunun hiper küpte gerekli tolerans ile yaklaşık olarak olacağını tahmin edersiniz. O zaman beden eğitim setlerini ve örneğin back-prop gibi bir öğrenme prosedürünü kullanarak , yükselterek geri kazanabileceğimize dair bir garantimiz var mı?F(x)fϵNfMMF
  • Sonunda, ve hepsinden kötüsü, sinir ağlarının tahmin hatası hakkında bir şey söylemiyor. Gerçekten ilgi duyduğumuz şey, en azından bedenindeki tüm antrenman setleri üzerinden ortalama tahmin hatasıdır . Teorem bu konuda yardımcı olmuyor.M

Hornik'in bu teorem versiyonuyla ilgili daha küçük bir acı noktası, ReLU aktivasyon işlevleri için geçerli olmadığıdır. Ancak, Bartlett o zamandan beri bu açığı kapsayan genişletilmiş bir versiyonunu kanıtladı.


Şu ana kadar, düşündüğüm tüm teoremlerin herkes tarafından iyi bilindiğini tahmin ediyorum. Şimdi eğlenceli şeyler zamanı geldi :-) Hadi birkaç Derin Öğrenme teoremini görelim :

Varsayımlar:

  • Derin sinir ağı (sabit, , ve düzenlilestirme kaybı olan çıkışları ile sinir ağının giriş ilişkilendiren fonksiyonudur) her iki toplamlarıdır olumlu aynı derecede homojen fonksiyonlarΦ(X,W)WΦW(X)Θ(W)
  • kayıp fonksiyonu dışbükeydir ve , kompakt bir setinde farklılaştırılabilir.L(Y,Φ(X,W)XS

Sonra:

  • herhangi bir lokal minimum bir alt ağ böyle , (a global minimum sıfır ağırlıkları olan teoremi 1 )L(Y,Φ(X,W))+λΘ(W)Φ(X,W)
  • Kritik bir ağ boyutunun üstünde, yerel iniş her zaman herhangi bir başlangıçtan itibaren küresel bir asgariye dönüşür ( Teorem 2 ).

Bu çok ilginç: Sadece konvolüsyonlu katmanlar, ReLU, max-pooling, tamamen bağlanmış ReLU ve lineer katmanlardan yapılan CNN'ler pozitif homojen fonksiyonlar iken, sigmoid aktivasyon fonksiyonlarını dahil edersek, bu daha doğrusu kısmen açıklanabilir. Bazı ReLU + max havuzlama uygulamalarında sigmoidlere göre performans. Dahası, teoremler yalnızca , aynı derecede homojen olduğunda da geçerlidir . Şimdi, eğlenceli bir gerçektir ki veya regularisation olumlu homojen olmasına rağmen, aynı derecede yok (derecesiΘWΦl1l2ΦΦ, daha önce bahsedilen basit CNN durumunda, katman sayısı ile artar). Bunun yerine, parti normalizasyonu ve yol-SGD gibi daha modern düzenlileştirme yöntemleri, aynı derecede pozitif homojen bir normalleştirme fonksiyonuna tekabül eder ve bu çerçeveye tam olarak uymamakla birlikte bırakma, buna benzer şekilde güçlü benzerliklere sahiptir. Bu, yüksek doğruluk elde etmek için, ve düzenlemelerinin neden yeterli olmadığını ; Bildiğim kadarıyla, bu, Al Rahimi'nin konuşmasında doğru bir şekilde belirtildiği gibi, toplu normalleşmenin etkinliğini açıklayan en yakın şey, aksi halde çok belirsiz.Φl1l2

Bazı insanların Teorem 1'e dayanarak yaptıkları bir başka gözlem, ReLU'nun neden ölü nöronlar problemiyle bile iyi çalıştığını açıklayabildiğidir . Bu sezgiye göre, bazı ReLU nöronlarının “ölmesi” (sıfır aktivasyona gitmesi ve daha sonra asla iyileşmemesi, çünkü için ReLU'nun derecesi sıfır olduğu için) bir özellik değil, bir özelliktir. ", eğer asgari seviyeye ulaştıysak ve tam bir alt ağ ölmüşse, o zaman kesinlikle küresel bir asgari seviyeye ulaştık ( Teorem 1 hipotezi altındax<0). Bir şeyleri özlüyorum, ama bu yorumun çok zor olduğunu düşünüyorum. Her şeyden önce, eğitim sırasında ReLU'lar yerel bir asgariye ulaşmadan çok önce "ölebilir". İkincisi, ReLU birimleri "öldüğünde", her zaman tam bir alt ağ üzerinde yaptıkları kanıtlanmalıdır: bunun gerçekten doğru olduğu tek durum, sadece bir gizli katmana sahip olduğunuz zaman , tabii ki her bir nöron bir alt ağ. Fakat genel olarak “ölü nöronları” iyi bir şey olarak görmekte çok dikkatli olurdum.

Referanslar:

B. Haeffele ve R. Vidal, Yapay Sinir Ağı Eğitiminde Global İyilik , IEEE Bilgisayarla Görme ve Örüntü Tanıma Konferansı, 2017.

B. Haeffele ve R. Vidal. Tensör faktoringinde derin iyimserlik, derin öğrenme ve ötesi , arXiv, abs / 1506.07540, 2015.


Görüntü sınıflandırması, doğal görüntülerde yaygın olarak bulunan ancak bilgi içermeyen konum, poz, bakış açısı, ışıklandırma, ifade vb. Gibi çeşitli dönüşümlerde değişmez (veya en azından sağlam, yani çok zayıf bir şekilde duyarlı) olan öğrenme gösterimleri gerektirir. sınıflandırma görevi için. Konuşma tanıma için de aynı şey: perde, ses seviyesi, hız, aksandaki değişiklikler. vb., kelimenin sınıflandırmasında bir değişikliğe yol açmamalıdır. CNN'lerde kullanılan evrişim, maksimum havuz, ortalama havuz vb. İşlemler tam da bu amaca sahiptir, bu yüzden sezgisel olarak bu uygulamalar için çalışacaklarını umuyoruz. Fakat bu sezgiyi destekleyen teoremlerimiz var mı? Bir yoktur dikey çeviri değişmezliği teoremiadı ne olursa olsun, dikey yönde çeviri ile ilgisi yoktur, ancak temelde, takip eden katmanlarda öğrenilen özelliklerin katman sayısı arttıkça değişmez hale geldiğini söyleyen bir sonuçtur. Bu eski bir karşıdır yatay çeviri değişmezliği teoremi ama ancak saçılma ağları tutan değil cnns için. Bununla birlikte teorem çok tekniktir:

  • (giriş resminizin) kare-bütünleştirilebilir olduğunu varsayalımf
  • , girdi görüntüsünü çevrilmiş bir kopyasına çeviri operatörü ile çalıştığını varsayalım . Öğrenilmiş bir evrişim çekirdeği (filtre) bu hipotezi yerine getirir.TtfTtf
  • ağınızdaki tüm filtrelerin, doğrusal olmayanların ve havuzlamanın , temelde bir tür zayıf düzenlilik ve sınırlılık koşulları olan zayıf bir kabul edilebilirlik koşulunu sağladığını varsayalım . Bu koşullar, öğrenilmiş konvolüsyon çekirdeği (her bir tabaka üzerinde bazı normalizasyon işlemleri yapıldığı sürece), ReLU, sigmoid, tanh, vb. Doğrusal olmayanlar ve ortalama havuzlama ile yerine getirilir; Bu yüzden bazı (hepsi değil) gerçek dünya CNN mimarilerini kapsar.
  • Son olarak, her bir katmanın bir havuzlama faktörü olduğunu varsayalım, yani her bir katmana bir havuzlama uygulanmış ve bilgileri etkili bir şekilde atar. koşulu ayrıca teoremin daha zayıf bir sürümü için de yeterli olacaktır.nSn>1Sn1

İle gösterir tabaka çıkış girişi CNN, . Sonunda:Φn(f)nf

limn|||Φn(Tff)Φn(f)|||=0

(üçlü çubuklar bir hata değildir) temel olarak her katmanın gittikçe daha değişken hale gelen özellikleri öğrendiği ve sonsuz derinlikte bir ağ sınırında mükemmel bir değişmez mimariye sahip olduğumuz anlamına gelir. CNN'ler sınırlı sayıda katmana sahip olduklarından, uygulayıcılar tarafından iyi bilinen bir çeviri değişmezi değildir.

Kaynak: T. Wiatowski ve H. Bolcskei, Özellik Ekstraksiyonuna Yönelik Derin Döngüsel Sinir Ağlarının Matematiksel Teorisi , arXiv: 1512.06293v3 .


Sonuç olarak, Derin Sinir Ağı'nın Vapnik-Chervonkensis boyutuna veya Rademacher karmaşıklığına bağlı olarak genelleme hatası için sayısız sınır, bazı DNN'lerin neden bu kadar iyi çalıştıklarını açıklayamayacakları anlamına gelen parametrelerin sayısıyla birlikte büyüyor. Uygulamada, parametre sayısı, eğitim örneklerinden daha büyük olsa bile. Nitekim, VC teorisi Derin Öğrenmede çok kullanışlı değildir.

Tersine, geçen yılın bazı sonuçları, bir DNN sınıflandırıcısının genelleme hatasını sinir ağının derinliğinden ve boyutundan bağımsız bir miktarla sınırladı, ancak yalnızca eğitim setinin yapısına ve giriş alanına bağlı. Öğrenme prosedürü ve eğitim seti ve giriş alanı ile ilgili bazı teknik varsayımlar altında, ancak DNN (özellikle CNN'ler tamamen kaplanmıştır) hakkında çok az varsayımla (özellikle CNN'ler tamamen kaplanmıştır), daha sonra olasılık en az ,1δ

GE2log2NyNγm+2log(1/δ)m

nerede:

  • GE , beklenen kayıp (olası tüm test noktalarında öğrenilen sınıflandırıcının ortalama kaybı) ve ampirik kayıp (sadece iyi eğitim alıştırma seti hatası) arasındaki fark olarak tanımlanan genelleme hatasıdır.
  • Ny sınıfların sayısıdır
  • m eğitim setinin büyüklüğüdür
  • Nγ , veriyi kapsayan , girdi alanının yapısına ve eğitim setindeki farklı sınıfların noktaları arasındaki minimum ayrıştırmaya ilişkin bir miktarın kapsayan sayısıdır . Referans:

J. Sokolic, R. Giryes, G. Sapiro ve M. Rodrigues. Değişmeyen sınıflandırıcıların genelleme hatası . AISTATS'ta, 2017


2
+1. Harika cevap, son kısım çok merak uyandırıcı. İlk bölümde, Mercer teoremi aynen yukarıda sunduğunuz SVD'ye benziyor.
amip diyor Reinstate Monica

1
@amoeba, haklısın, ama 1) tüm okuyucular sizin kadar matematikten hoşlanmıyor, SVD, Karhunen-Loeve genişlemesi ve Mercer teoremi arasındaki benzerliği hemen anlayacaklar. Ayrıca 2) Çekirdek numarasına "güç veren" ve dahil etmemeyi seçtiğim, İşlevsel Analiz'den diğer teorem Mercer teoreminden daha açıklamak daha zor ve Cumartesi günleri yakaladım :-) Belki yarın ekleyeceğim!
DeltaIV

1
Gauss Markov'un yeri yok gibi görünüyor, ML topluluğunda BLUE'yu önemseyen birini hiç görmedim.
Carlos Cinelli,

2
Genel bir kural olarak, orijinal (arkaik) referansın genellikle sıkıcı gösterime sahip olduğuna katılıyorum. Bu, Mercer'in makalesinin aslında bu açıdan şaşırtıcı bir şekilde modern olduğunu ve ben de tam da bu yüzden ekledim. :) (Başlangıçta, bu çok iyi bir cevap dedim, bu sadece en son oylamadan sonra bir yorumdur)
usεr11852 Reinstate Monic adlı kullanıcının 14:18

2
Mercer teoremini burada seviyorum, kaldırma. Ve neden iki bağlantınız da yok? Sadece See [here] for a modern exposition"orijinal kağıt için" gibi bir ifade ekleyin veya tam tersi.
amip diyor Reinstate Monica

11

Bence sizin aldatmayacağınız teorem, istatistiksel öğrenmede oldukça temel olarak kabul edilir.

Teoremi (Vapnik ve Chervonenkis, 1971) Let etki alanı ile ilgili fonksiyonların bir hipotez sınıf olmak için ve kayıp fonksiyonu olsun kaybı. Sonra, aşağıdakiler eşdeğerdir:HX{0,1}01

  1. H düzgün yakınsaklık özelliğine sahiptir.
  2. H , PAC öğrenilebilirdir.
  3. H sınırlı bir VC boyutuna sahiptir.

Burada nicel bir sürümde kanıtlanmıştır:

VN Vapnik ve AY Chervonenkis: Olayların göreceli sıklıklarının olasılıklarına eşit yakınsaması üzerine. Olasılık Teorisi ve Uygulamaları, 16 (2): 264-280, 1971.

Yukarıda formüle edilmiş olan versiyon, öğrenme teorisinden elde edilen diğer sonuçların hoş bir ifadesiyle birlikte burada bulunabilir :

Shalev-Shwartz, Shai ve Shai Ben-David. Makine öğrenmeyi anlama: Teoriden algoritmaya. Cambridge üniversitesi basını, 2014.



4

En sevdiğim, Kraft eşitsizliği.

Teoremi: herhangi bir açıklama yöntemi için sonlu Alfabe için , uzunlukları kod sözcüğü eşitsizliği tatmin gerekir .CA={1,,m}LC(1),,LC(2)xA2LC(x)1

Bu eşitsizlik , olasılık yoğunlukları ile sıkıştırma ile ilgilidir : bir kod verildiğinde, bu kod tarafından temsil edilen sonucun uzunluğu, kod tarafından tanımlanan bir modelin negatif log olasılığıdır.

Ayrıca, makine öğrenmesi için bedava öğle yemeği teoremi, tüm sekansların sıkıştırılamayacağını belirten hiper sıkıştırma teoremi olmayan daha az bilinen bir kardeşe sahiptir.


4

Bunu ana teorem olarak adlandırmazdım, ama ileriye dönük (bazen Evrensel yaklaşım teoremi olarak da adlandırılır), ileri beslemeli sinir ağlarının yaklaşık güçlerini belirttiği için ilginç (ve en azından benim için şaşırtıcı olanı) olduğunu düşünüyorum.

Teorem: Let sabit olmayan bir ve monotinically artan sürekli bir fonksiyon olsun. Herhangi bir süren bir için işlev ve herhangi bir , bir integern orada mevcut ve algılayıcı, bir çok katmanlı bir gizli katmanlı sahip sahip Nöronlar aktivasyon işlev öyleσf:[0,1]mRϵ>0NFNσ

|F(x)f(x)|ϵ
tümü için .x[0,1]m

Elbette, bu bir varoluş ifadesi olduğundan, uygulayıcılar için etkisi ihmal edilebilir düzeydedir.

Bir kontrol bulunabilir Hornik, Muitilayer İleri besleme Networks yaklaşım Özellikleri, sinir ağları 4 (2), 1991,


5
Bu teorem, sinir ağlarına özgü olmadığı için biraz ilginçtir. Diğer birçok fonksiyon sınıfı, benzer (ve bazen daha güçlü) yaklaşım özelliklerini paylaşır. Örneğin, Stone-Weierstrass teoremine bakınız. Daha ilginç bir sonuç, nöral net regresyonun genel bir çerçevedeki tutarlılığı olacaktır. Ayrıca, ağın karmaşıklığı ve eğitim numunesinin boyutu açısından ortalama genelleme hatası konusunda bilinen sınırlar bulunmalıdır.
Olivier

1
@ Oliver: Tamamen katılıyorum. Ancak bu teorem sadece sinir ağlarına ayrılmamış olsa da, yine de ifadesini, kesin kanıtını ve sonuçlarını ilginç buluyorum. Örneğin, yukarıda belirtilen özelliklere sahip bir aktivasyon işlevi kullandığınız sürece, ağın yaklaşık kabiliyetinin aynı olduğunu (kabaca konuşur) söyler. Veya, sinir ağlarının zaten bir gizli katmanla çok şey öğrenebileceğiniz için fazladan donanıma sahip olduğunu söylüyor.
Tobias Windisch

1
Tam olarak öyle demiyor. Sadece orada söylüyor var temsil edebilir bir gizli katmana sahip bir sinir ağı , ama size nasıl hakkında bir şey söylemez ile büyür karmaşıklığının bazı tedbir ile, örneğin, ya da (örneğin, toplam varyasyon için ). Veri verilen ağınızın ağırlığını size söylemez . Çok ilginç durumlarda , bir gizli katman ağı için katlanarak (derin) ağlardan çok daha büyük olduğunu göreceksiniz . Bu yüzden hiç kimse ImageNet veya Kaggle için bir gizli katman ağı kullanmıyor. fNmflearnN
DeltaIV

@DeltaIV: Önceki yorumumun son cümlesinde bir yazım hatası var: "öğren" kelimesi aslında "yaklaşık" olmalı (aksi halde "fazla uydurma" ile ilgili açıklamamın bir anlamı olmaz). İpucu için teşekkür ederim!
Tobias Windisch

Evet, "yaklaşmak" anlamında yorum yaptım. Demek istediğim, teoride teorik olarak herhangi bir işlevi (sınırlı bir küp üzerinde) bir gizli NN katmanına yaklaştırabileceğinizi bilseniz bile, pratikte çoğu durumda işe yaramaz. Başka bir örnek: Kare üstel çekirdekli Gauss İşlemleri, evrensel yaklaşım özelliğine sahiptir, ancak bazı problemler için doğru yaklaşım için gerekli olan örneklerin sayısının üssel olarak artması nedeniyle, diğer tüm regresyon yöntemlerini de ortadan kaldırmamıştır.
DeltaIV

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.