Yorumlarda yazdığım gibi, bu soru benim için çok geniş görünüyor, ama bir cevap vermeye çalışacağım. Bazı sınırları belirlemek için, ML'nin çoğunun altında yatan küçük bir matematikle başlayacağım ve daha sonra DL için son sonuçlara odaklanacağım.
Önyargı-varyans değiş tokuş onu bahsetmeden başlayamaz böylece, ML vs. sayısız kitaplar, kurs, MOOCs, bloglar, tweet içinde anılır:
E[(Y−f^(X))2|X=x0]=σ2ϵ+(Ef^(x0)−f(x0))2+E[(f^(x0)−Ef^(x0))2]=Irreducible error + Bias2 + Variance
Burada kanıtı: https://web.stanford.edu/~hastie/ElemStatLearn/
Gauss-Markov Teoremi (evet, lineer regresyon Makine Öğrenmesi önemli bir parçası olarak kalacaktır, hiçbir ne önemi: onunla anlaşma) doğrusal model doğrudur ve hata teriminin bazı varsayımlar, EKK geçerli olduğunda minimum vardır, açıklık getirmektedir Doğrusal modelin yansız doğrusal tahmin ediciler arasında ortalama kare hatası (yukarıdaki ifadede sadece ) . Bu nedenle, daha iyi bir ortalama kare hatasına sahip olan önyargılı (veya doğrusal olmayan tahmin edicilere) sahip doğrusal tahmin ediciler ve dolayısıyla OLS'den daha iyi beklenen bir tahmin hatası olabilir. Ve bu, ML'nin bir işgücü olan tüm normalleştirme cephaneliğine (sırt regresyonu, LASSO, ağırlık azalması vb.) Yol açmaktadır. Burada bir kanıt (ve sayısız başka kitapta) verilmiştir:
Bias2 + Variancehttps://www.amazon.com/Linear-Statistical-Models-James-Stapleton/dp/0470231467
James Cin-Stein teoremi , yorumlarda Carlos Cinelli tarafından belirtildiği gibi, muhtemelen yorumlamada kesinlikle daha eğlenceli ve düzenli hale getirme yaklaşımlarının patlamasıyla daha alakalı . Düşünün bağımsız, aynı varyansa ama değil aynı ortalama Gauss rastgele değişkenleri:n
Xi|μi∼N(θi,σ2),i=1,…,n
Başka bir deyişle, bir bileşen Gauss rastgele vektörü var . Biz bir örnek var dan ve biz tahmin etmek istiyoruz . MLE (ve ayrıca UMVUE) tahmincisi açıkça . James-Stein tahmincisini düşününn−X∼N(θ,σ2I)xXθθ^MLE=x
θ^JS=(1−(n−2)σ2||x||2)x
Açıkça, eğer , MLE tahminini sıfıra doğru küçültürse . James-Stein teoremi için belirtmektedir , kesinlikle hakim , yani sahip olduğu düşük MSE . Pheraps, şaşırtıcı bir şekilde, başka herhangi bir sabite doğru daraltsak bile , hala hakimdir. . beri(n−2)σ2≤||x||2θ^JS n≥4θ^JS θ^MLE∀ θc≠0θ^JSθ^MLEXibağımsız olduklarından, İspanya'da üretilen elma sayısından bir örnek de dahil olmak üzere, ilgisiz üç kişinin boyunu tahmin etmeye çalışırken, tahminimizi ortalama olarak geliştirmemiz garip görünebilir . Buradaki kilit nokta "ortalama" dır: parametre vektörünün tüm bileşenlerinin eşzamanlı tahmini için ortalama kare hatası daha küçüktür, ancak bir veya daha fazla bileşen için kare hatası daha büyük olabilir ve aslında çoğu zaman "aşırı" gözlemleriniz var.
Tek değişkenli tahmin durumu için gerçekten de "en uygun" tahmin edici olan MLE'nin, çok değişkenli tahmin için reddedildiğini tespit etmek, o zamanlar oldukça şok oldu ve ML Parlance'de daha iyi düzenlenmesi olarak bilinen büzülmeye büyük ilgi duymasına neden oldu. Biri karışık modellerle bazı benzerliklere ve “borçlanma gücü” kavramına dikkat çekebilir: burada tartışıldığı gibi gerçekten bir bağlantı var.
Büzülmeyle ilgili birleşik bakış: Stein'in paradoksu, ridge regresyonu ve karışık modellerde rastgele etkiler arasındaki ilişki nedir?
Kaynak: James, W., Stein, C., Kuadratik Kayıp Tahmini . Dördüncü Berkeley Sempozyumu'nun Matematiksel İstatistik ve Olasılık Üzerine Bildirileri, Cilt 1: İstatistik Teorisine Katkıları, 361-379, California Press Üniversitesi, Berkeley, Kaliforniya, 1961
Temel Bileşen Analizi, boyut küçültme konusunun anahtarıdır ve Tekil Değer Ayrışımına dayanır : Her bir gerçek matris (teorem karmaşık matrislere kolayca genelleşse de) yazabiliriz.N×pX
X=UDVT
burada boyutu dik olan, a, negatif olmayan çapraz elemanları ve diyagonal matris boyutu daha diktir. Nasıl hesaplanacağına dair kanıtlar ve algoritmalar için bakınız: Golub, G. ve Van Loan, C. (1983), Matrix hesaplamaları , John Hopkins Üniversitesi basını, Baltimore.UN×pDp×pUp×p
Mercer teoremi ince levha spline, destek vektör makineleri, bir Gauss rastgele sürecin Kriging tahmin vb Temelde, sözde arkasında iki teoremleri biridir: Farklı ML yöntemlerin bir çok kurucu taş çekirdek hile . Let , bir symmmetric sürekli fonksiyon veya çekirdek olabilir. Eğer pozitif yarı yarı-sınırlı ise, negatif olmayan özdeğerlere karşılık gelen öz fonksiyonların ortonormal bir temelini kabul eder:K(x,y):[a,b]×[a,b]→RK
K(x,y)=∑i=1∞γiϕi(x)ϕi(y)
Bu teorinin ML teorisi için önemi, örneğin Gauss süreçleri üzerine Rasmussen & Williams'ın metinleri gibi ünlü metinlerde aldığı referansların sayısıyla kanıtlanmaktadır .
Referans: J. Mercer, Pozitif ve negatif tip fonksiyonlar ve integral denklem teorisi ile bağlantıları. Londra Kraliyet Topluluğu'nun Felsefi İşlemleri. Matematiksel veya Fiziksel Karakterli Kağıtlar İçeren A Serisi, 209: 415-446, 1909
Ayrıca Konrad Jörgens, Lineer integral operatörleri , Pitman, Boston, 1982'de daha basit bir sunum var .
Mercer teoremiyle birlikte, çekirdek numarasının teorik temelini ortaya koyan diğer teorem, temsilci teoremidir . Örnek bir boşluk ve simetrik bir pozitif yarı-yarı çekirdekli olduğunu varsayalım . Ayrıca, , ile ilişkili RKHS olsun . Son olarak, bir eğitim örneği olsun. Teorem, fonksiyonlarının hepsinin özfonksiyonları açısından sonsuz bir temsil olduğunu kabul .XK:X×X→RHKKS={xi,yi}ni=1f∈HKKMercer teoremi nedeniyle, düzenli riski en aza indiren, eğitim noktalarında değerlendirilen çekirdeğin oluşturduğu temelde daima sınırlı bir temsilidir;n
minf∈HK∑i=1nL(yi,f(xi))+λ||f||2HK=min{cj}∞1∑i=1nL(yi,∑j∞cjϕj(xi))+λ∑j∞c2jγj=∑i=1nαiK(x,xi)
(teorem son eşitliktir). Kaynaklar: Wahba, G. 1990, Gözlemsel Veriler için Spline Modelleri , SIAM, Philadelphia.
Evrensel yaklaşım teoremi zaten kullanıcı Tobias Windisch bahsettiği ve fonksiyonel analize olandan bir ilk bakışta o kadar görünmeyebilir bile, çok daha az alakalı Makine Öğrenmesi için değil. Sorun şu ki teorem sadece böyle bir ağın var olduğunu söylüyor, fakat:
- Gizli Katmanın büyüklüğü ile hedef fonksiyonunun karmaşıklık ölçüsü arasında , örneğin Toplam Varyasyon gibi herhangi bir korelasyon vermez . Eğer ve sabit bir hata için gerekli Growed ile katlanarak , daha sonra tek bir gizli katman nöral ağlar işe yaramaz.Nf(x)f(x)=sin(ωx):[0,2π]→[−1,1]Nϵω
- ağ eğer demiyor olduğu öğrenilebilir . Başka bir deyişle, ve verildiğinde , NN boyutunun hiper küpte gerekli tolerans ile yaklaşık olarak olacağını tahmin edersiniz. O zaman beden eğitim setlerini ve örneğin back-prop gibi bir öğrenme prosedürünü kullanarak , yükselterek geri kazanabileceğimize dair bir garantimiz var mı?F(x)fϵNfMMF
- Sonunda, ve hepsinden kötüsü, sinir ağlarının tahmin hatası hakkında bir şey söylemiyor. Gerçekten ilgi duyduğumuz şey, en azından bedenindeki tüm antrenman setleri üzerinden ortalama tahmin hatasıdır . Teorem bu konuda yardımcı olmuyor.M
Hornik'in bu teorem versiyonuyla ilgili daha küçük bir acı noktası, ReLU aktivasyon işlevleri için geçerli olmadığıdır. Ancak, Bartlett o zamandan beri bu açığı kapsayan genişletilmiş bir versiyonunu kanıtladı.
Şu ana kadar, düşündüğüm tüm teoremlerin herkes tarafından iyi bilindiğini tahmin ediyorum. Şimdi eğlenceli şeyler zamanı geldi :-) Hadi birkaç Derin Öğrenme teoremini görelim :
Varsayımlar:
- Derin sinir ağı (sabit, , ve düzenlilestirme kaybı olan çıkışları ile sinir ağının giriş ilişkilendiren fonksiyonudur) her iki toplamlarıdır olumlu aynı derecede homojen fonksiyonlarΦ(X,W)WΦW(X)Θ(W)
- kayıp fonksiyonu dışbükeydir ve , kompakt bir setinde farklılaştırılabilir.L(Y,Φ(X,W)XS
Sonra:
- herhangi bir lokal minimum bir alt ağ böyle , (a global minimum sıfır ağırlıkları olan teoremi 1 )L(Y,Φ(X,W))+λΘ(W)Φ(X,W)
- Kritik bir ağ boyutunun üstünde, yerel iniş her zaman herhangi bir başlangıçtan itibaren küresel bir asgariye dönüşür ( Teorem 2 ).
Bu çok ilginç: Sadece konvolüsyonlu katmanlar, ReLU, max-pooling, tamamen bağlanmış ReLU ve lineer katmanlardan yapılan CNN'ler pozitif homojen fonksiyonlar iken, sigmoid aktivasyon fonksiyonlarını dahil edersek, bu daha doğrusu kısmen açıklanabilir. Bazı ReLU + max havuzlama uygulamalarında sigmoidlere göre performans. Dahası, teoremler yalnızca , aynı derecede homojen olduğunda da geçerlidir . Şimdi, eğlenceli bir gerçektir ki veya regularisation olumlu homojen olmasına rağmen, aynı derecede yok (derecesiΘWΦl1l2ΦΦ, daha önce bahsedilen basit CNN durumunda, katman sayısı ile artar). Bunun yerine, parti normalizasyonu ve yol-SGD gibi daha modern düzenlileştirme yöntemleri, aynı derecede pozitif homojen bir normalleştirme fonksiyonuna tekabül eder ve bu çerçeveye tam olarak uymamakla birlikte bırakma, buna benzer şekilde güçlü benzerliklere sahiptir. Bu, yüksek doğruluk elde etmek için, ve düzenlemelerinin neden yeterli olmadığını ; Bildiğim kadarıyla, bu, Al Rahimi'nin konuşmasında doğru bir şekilde belirtildiği gibi, toplu normalleşmenin etkinliğini açıklayan en yakın şey, aksi halde çok belirsiz.Φl1l2
Bazı insanların Teorem 1'e dayanarak yaptıkları bir başka gözlem, ReLU'nun neden ölü nöronlar problemiyle bile iyi çalıştığını açıklayabildiğidir . Bu sezgiye göre, bazı ReLU nöronlarının “ölmesi” (sıfır aktivasyona gitmesi ve daha sonra asla iyileşmemesi, çünkü için ReLU'nun derecesi sıfır olduğu için) bir özellik değil, bir özelliktir. ", eğer asgari seviyeye ulaştıysak ve tam bir alt ağ ölmüşse, o zaman kesinlikle küresel bir asgari seviyeye ulaştık ( Teorem 1 hipotezi altındax<0). Bir şeyleri özlüyorum, ama bu yorumun çok zor olduğunu düşünüyorum. Her şeyden önce, eğitim sırasında ReLU'lar yerel bir asgariye ulaşmadan çok önce "ölebilir". İkincisi, ReLU birimleri "öldüğünde", her zaman tam bir alt ağ üzerinde yaptıkları kanıtlanmalıdır: bunun gerçekten doğru olduğu tek durum, sadece bir gizli katmana sahip olduğunuz zaman , tabii ki her bir nöron bir alt ağ. Fakat genel olarak “ölü nöronları” iyi bir şey olarak görmekte çok dikkatli olurdum.
Referanslar:
B. Haeffele ve R. Vidal, Yapay Sinir Ağı Eğitiminde Global İyilik , IEEE Bilgisayarla Görme ve Örüntü Tanıma Konferansı, 2017.
B. Haeffele ve R. Vidal. Tensör faktoringinde derin iyimserlik, derin öğrenme ve ötesi , arXiv, abs / 1506.07540, 2015.
Görüntü sınıflandırması, doğal görüntülerde yaygın olarak bulunan ancak bilgi içermeyen konum, poz, bakış açısı, ışıklandırma, ifade vb. Gibi çeşitli dönüşümlerde değişmez (veya en azından sağlam, yani çok zayıf bir şekilde duyarlı) olan öğrenme gösterimleri gerektirir. sınıflandırma görevi için. Konuşma tanıma için de aynı şey: perde, ses seviyesi, hız, aksandaki değişiklikler. vb., kelimenin sınıflandırmasında bir değişikliğe yol açmamalıdır. CNN'lerde kullanılan evrişim, maksimum havuz, ortalama havuz vb. İşlemler tam da bu amaca sahiptir, bu yüzden sezgisel olarak bu uygulamalar için çalışacaklarını umuyoruz. Fakat bu sezgiyi destekleyen teoremlerimiz var mı? Bir yoktur dikey çeviri değişmezliği teoremiadı ne olursa olsun, dikey yönde çeviri ile ilgisi yoktur, ancak temelde, takip eden katmanlarda öğrenilen özelliklerin katman sayısı arttıkça değişmez hale geldiğini söyleyen bir sonuçtur. Bu eski bir karşıdır yatay çeviri değişmezliği teoremi ama ancak saçılma ağları tutan değil cnns için. Bununla birlikte teorem çok tekniktir:
- (giriş resminizin) kare-bütünleştirilebilir olduğunu varsayalımf
- , girdi görüntüsünü çevrilmiş bir kopyasına çeviri operatörü ile çalıştığını varsayalım . Öğrenilmiş bir evrişim çekirdeği (filtre) bu hipotezi yerine getirir.TtfTtf
- ağınızdaki tüm filtrelerin, doğrusal olmayanların ve havuzlamanın , temelde bir tür zayıf düzenlilik ve sınırlılık koşulları olan zayıf bir kabul edilebilirlik koşulunu sağladığını varsayalım . Bu koşullar, öğrenilmiş konvolüsyon çekirdeği (her bir tabaka üzerinde bazı normalizasyon işlemleri yapıldığı sürece), ReLU, sigmoid, tanh, vb. Doğrusal olmayanlar ve ortalama havuzlama ile yerine getirilir; Bu yüzden bazı (hepsi değil) gerçek dünya CNN mimarilerini kapsar.
- Son olarak, her bir katmanın bir havuzlama faktörü olduğunu varsayalım, yani her bir katmana bir havuzlama uygulanmış ve bilgileri etkili bir şekilde atar. koşulu ayrıca teoremin daha zayıf bir sürümü için de yeterli olacaktır.nSn>1Sn≥1
İle gösterir tabaka çıkış girişi CNN, . Sonunda:Φn(f)nf
limn→∞|||Φn(Tff)−Φn(f)|||=0
(üçlü çubuklar bir hata değildir) temel olarak her katmanın gittikçe daha değişken hale gelen özellikleri öğrendiği ve sonsuz derinlikte bir ağ sınırında mükemmel bir değişmez mimariye sahip olduğumuz anlamına gelir. CNN'ler sınırlı sayıda katmana sahip olduklarından, uygulayıcılar tarafından iyi bilinen bir çeviri değişmezi değildir.
Kaynak: T. Wiatowski ve H. Bolcskei, Özellik Ekstraksiyonuna Yönelik Derin Döngüsel Sinir Ağlarının Matematiksel Teorisi , arXiv: 1512.06293v3 .
Sonuç olarak, Derin Sinir Ağı'nın Vapnik-Chervonkensis boyutuna veya Rademacher karmaşıklığına bağlı olarak genelleme hatası için sayısız sınır, bazı DNN'lerin neden bu kadar iyi çalıştıklarını açıklayamayacakları anlamına gelen parametrelerin sayısıyla birlikte büyüyor. Uygulamada, parametre sayısı, eğitim örneklerinden daha büyük olsa bile. Nitekim, VC teorisi Derin Öğrenmede çok kullanışlı değildir.
Tersine, geçen yılın bazı sonuçları, bir DNN sınıflandırıcısının genelleme hatasını sinir ağının derinliğinden ve boyutundan bağımsız bir miktarla sınırladı, ancak yalnızca eğitim setinin yapısına ve giriş alanına bağlı. Öğrenme prosedürü ve eğitim seti ve giriş alanı ile ilgili bazı teknik varsayımlar altında, ancak DNN (özellikle CNN'ler tamamen kaplanmıştır) hakkında çok az varsayımla (özellikle CNN'ler tamamen kaplanmıştır), daha sonra olasılık en az ,1−δ
GE≤2log2NyNγm−−−−−−−−−−√+2log(1/δ)m−−−−−−−−−√
nerede:
- GE , beklenen kayıp (olası tüm test noktalarında öğrenilen sınıflandırıcının ortalama kaybı) ve ampirik kayıp (sadece iyi eğitim alıştırma seti hatası) arasındaki fark olarak tanımlanan genelleme hatasıdır.
- Ny sınıfların sayısıdır
- m eğitim setinin büyüklüğüdür
- Nγ , veriyi kapsayan , girdi alanının yapısına ve eğitim setindeki farklı sınıfların noktaları arasındaki minimum ayrıştırmaya ilişkin bir miktarın kapsayan sayısıdır . Referans:
J. Sokolic, R. Giryes, G. Sapiro ve M. Rodrigues. Değişmeyen sınıflandırıcıların genelleme hatası . AISTATS'ta, 2017