Neden sadece sinir ağlarını ve derin öğrenmeyi terk etmiyorsun? [kapalı]


25

Genel olarak derin öğrenme ve sinir ağları ile ilgili temel problem.

  1. Eğitim verilerine uygun çözümler sonsuzdur. Sadece bir tanesinin tatmin ettiği ve en iyi şekilde genelleştirebileceğini söyleyebileceğimiz kesin bir matematik denklemimiz yoktur. Basitçe söylemek gerekirse, hangisinin en iyi şekilde genelleştiğini bilmiyoruz.

  2. Ağırlıkları optimize etmek dışbükey bir sorun değildir, bu yüzden küresel veya yerel bir asgari düzeyde olduğumuzu asla bilemeyiz.

Öyleyse neden sinir ağlarını atıp, daha iyi bir ML modeli aramıyorsunuz? Anladığımız ve bir dizi matematiksel denklemle tutarlı olan bir şey mi? Lineer ve SVM bu matematiksel dezavantajlara sahip değildir ve bir matematiksel denklem grubuyla tamamen tutarlıdır. Neden sadece aynı çizgileri düşünmüyorsun (yine de lineer olmak zorunda değilsin) ve Linear ve SVM ve sinir ağları ve derin öğrenmeden daha iyi bir ML modeli ile gelmedin?


37
Onu bulursan insanlar alır.
Matthew Drury

23
“Neden ... ile gelmiyorsun?” Tam olarak bunu yapmak için kaç araştırmacının meşgul olduğuna inanmazsın ! Sadece şimdiye kadar başarı elde etmediler.
Kilian Foth

31
"Tüm modeller yanlış ama bazıları kullanışlı" ve nns kesinlikle faydalı.
josh

15
@ RajeshDachiraju - eski bir deyim, ama belki biraz belirsizdim. NN'leri neden atmadıklarını sordunuz, çünkü mükemmel değiller. Benim suçum, mükemmel olmadıkları, ancak FAYDALI oldukları. İnsanlar, arabaları otomatik olarak sürmek, yabancı dilleri çevirmek, videoları etiketlemek, balinaların korunmasında ve hatta köpek kulaklı bu çöplük çıtçıtlı filtrelerini fotoğraflarınıza uygulamak için kullanıyorlar! örneğin çalışıyorlar, bu yüzden onları kullanmaya devam ediyoruz :)
josh

13
Sen de yanlış olduğunu biliyorsun: Newton mekaniği. Kuantum mekaniği. Görelilik. Tüm fizik yanlıştır (her şeyi tanımlayan tek bir model yoktur, hepsinin kusurları vardır). Kimya pek çok şeyde tamamen yanlıştır (bir atomu tanımlamak her zaman sadece iyi bir yaklaşımdır ancak asla kesin değildir). Dünyadaki tek gerçek şey matematik. Saf matematik. Geriye kalan her şey doğru cevaba yaklaşıyor. Gerisini atmalı mıyız? (bilgisayarınızdan başlayarak yanlış yasalarla inşa edilmiş?). Hayır. Yine: tüm modeller yanlış, ancak bazıları kullanışlıdır.
Mayou36

Yanıtlar:


48
  1. Hangi çözümün en iyi şekilde genelleştiğini bilmemek bir konudur, ancak bizi iyi bir çözüm kullanmaktan alıkoymamalıdır. İnsanların kendileri çoğu zaman en iyi neyin genel olduğunu (örneğin, birleştirici fizik teorileriyle yarışmayı düşünür) bilmezler, ancak bu bize çok fazla soruna neden olmaz.

  2. Yerel minimumlar nedeniyle eğitimin başarısız olması son derece nadirdir. Derin bir sinir ağındaki yerel minimumların çoğu, küresel minimumun değerine yakın, bu yüzden bu bir sorun değil. kaynak

Ancak daha geniş cevap, bütün gün konveksilik ve model seçimi hakkında konuşabilmenizdir ve insanlar sinir ağlarını hala her şeyden daha iyi çalıştıkları için kullanırlar (en azından görüntü sınıflandırma gibi şeyler).

Elbette, topluluk birkaç yıl önce SVM'lere odaklanmış gibi CNN'lere fazla odaklanmamamız gerektiğini ve bunun yerine bir sonraki büyük şeyi aramaya devam etmemiz gerektiğini savunan insanlar da var. Özellikle, Hinton'u CNN'lerin etkililiğini araştırmayı engelleyebilecek bir şey olarak pişman ettiğini hatırladığımı düşünüyorum. ilgili posta


1
Özellikle son paragrafı seviyorum.
Rajesh Dachiraju,

10
# 2 için bir alıntı yaptın mı?
DrMcCleod

@DrMcCleod: Bana göre 2. nokta jingoizme benziyor. Sadece hafif bir anlamda.
Rajesh Dachiraju

6
@DrMcCleod, yerel minimanın küresel minimaya çok yakın olduğunu ve bunun yerine mesele noktalarını öne sürdüğünü gösteren çok sayıda çalışma var. Bkz bu eyer noktaları tartışma ve için kağıt bu yerel minimum mutlaka kötü değildir niçin kağıt.
jld

1
Sadece bir tiyatroyu tercih ederdim, umarım Ancak, gerçekten izlemek istediğim bir film kadar, herhangi bir filmden hoşlanacağımı bildiğimi varsayalım. O zaman 10 tiyatro varken hayal kırıklığına uğramayacağım ve rastgele birini seçmem gerekiyor, çünkü herhangi bir tiyatro ve filmin beni tatmin edeceğini biliyorum.
shimao

14

Sorunuzun yorumlarına göre, daha iyi bir şeyler bulmak için çalışan birçok insan var. Ben bu soruyu yanıtlamak istiyorum ancak @josh tarafından bırakılan yorumu genişleterek


Tüm modeller yanlış, ancak bazıları kullanışlıdır (Wiki)

Yukarıdaki ifade, istatistiksel modellerin doğasını tanımlamak için kullanılan genel bir gerçektir. Elimizdeki verileri kullanarak, yaklaşık bir tahmin değeri gibi yararlı şeyler yapmamıza izin veren modeller oluşturabiliriz.

Örneğin Doğrusal Regresyon

Bir dizi gözlem kullanarak, bağımsız değişken (ler) için herhangi bir değer (ler) verilen bağımlı değişken için yaklaşık bir değer verecek bir modele uyabiliriz.

Burnham, KP; Anderson, DR (2002), Model Seçimi ve Multimodel> Çıkarım: Pratik Bir Bilgi-Teorik Yaklaşım (2. baskı.):

“Bir model gerçekliğin basitleştirilmesi ya da yaklaşımıdır ve bu nedenle tüm gerçekliği yansıtmayacaktır.” “Tüm modellerin yanlış, ancak bazılarının faydalı olduğunu” belirtti. çok faydalı, yararlı, biraz yararlı, nihayetinde faydasız olarak sıralanabilir. "

Modelimizden sapmalar (yukarıdaki resimde görüldüğü gibi) rastgele görünür, bazı gözlemler çizginin altında ve bazıları yukarıdadır, ancak regresyon çizgimiz genel bir korelasyon gösterir. Modelimizdeki sapmalar rastgele görünse de, gerçekçi senaryolarda oyunda bu sapmaya neden olan diğer faktörler olacaktır. Örneğin, arabaları devam etmek için sola veya sağa dönmeleri gereken bir kavşaktan geçerken izlediklerini hayal edin, arabalar belirli bir düzende dönmezler. Otomobillerin dönüş yönünün tamamen rastgele olduğunu söyleyebilsek de, her sürücü kavşağa varıyor ve bu noktada hangi yöne döneceğine rastgele bir karar veriyor mu? Gerçekte, muhtemelen belirli bir sebepten dolayı belirli bir yere gidiyorlar ve her arabayı kendi sebeplerini sormalarını engellemeye çalışmadan, eylemlerini sadece rastgele olarak tanımlayabiliriz.

Minimal sapma ile bir modele uyabildiğimizde, bir noktada bilinmeyen, farkedilmeyen veya ölçülemeyen bir değişkenin modelimizi atması ne kadar kesin olabilir? Brezilya'da bir kelebeğin kanatlarının kanatları Teksas'ta bir kasırga patlatıyor mu?

Yalnız bahsettiğiniz Lineer ve SVN modellerini kullanmadaki sorun, değişkenlerimizi ve birbirlerinin birbirlerini nasıl etkilediklerini manuel olarak gözlemlememiz gerektiğidir. Daha sonra hangi değişkenlerin önemli olduğuna karar vermemiz ve göreve özgü bir algoritma yazmamız gerekiyor. Eğer sadece birkaç değişkenimiz varsa, bu basit olabilir, fakat ya binlerce olsaydı? Genelleştirilmiş bir görüntü tanıma modeli oluşturmak istiyorsak, bu gerçekçi bir şekilde bu yaklaşımla başarılabilir mi?

Derin Öğrenme ve Yapay Sinir Ağları (YSA), büyük miktarlarda değişken içeren büyük veri kümeleri için yararlı modeller oluşturmamıza yardımcı olabilir (örn. Görüntü kütüphaneleri). Bahsettiğiniz gibi, YSA'lar kullanarak verilere uyabilecek anlaşılmaz sayıda çözüm var, ancak bu sayı gerçekten deneme yanılma yoluyla kendimizi geliştirmek için ihtiyaç duyduğumuz çözüm miktarından farklı mı?

YSA'ların uygulanması bizim için işin çoğunu yapar, girdilerimizi ve istenen çıktılarımızı belirleyebilir (ve iyileştirmeler yapmak için daha sonra ince ayarlayabiliriz) ve çözümü bulmak için YSA'ya bırakabiliriz. Bu nedenle YSA'ların sıklıkla "kara kutu" olarak tanımlanması . Belirli bir girişten bir yaklaşım çıkarırlar, ancak (genel anlamda) bu yaklaşımlar nasıl yaklaştırıldıkları ile ilgili ayrıntıları içermez.

Ve bu, gerçekten hangi problemi çözmeye çalıştığınıza bağlı olarak ortaya çıkıyor, çünkü problem hangi model yaklaşımının daha faydalı olduğunu belirleyecektir. Modeller kesinlikle doğru değildir ve bu nedenle her zaman 'yanlış' olmanın bir unsuru vardır, ancak sonuçlarınız ne kadar doğru olursa, o kadar faydalı olurlar. Yaklaşımın nasıl yapıldığına dair sonuçlarda daha fazla ayrıntıya sahip olmak da faydalı olabilir, soruna bağlı olarak, artan hassasiyetten daha faydalı olabilir.

Örneğin, bir kişinin kredi puanını hesaplıyorsanız, regresyon ve SVM'leri kullanmak daha iyi araştırılabilecek hesaplamalar sunar. Her iki modeli de doğrudan ayarlayabilmek ve müşterilere ayrı bağımsız değişkenlerin toplam puan üzerindeki etkisini açıklamak çok faydalıdır. Bir YSA, daha kesin bir puan elde etmek için daha büyük miktarlarda değişkenleri işlemede yardımcı olabilir, ancak bu doğruluk daha yararlı olur mu?


6
Bazı iyi noktalara değiniyorsunuz, ancak "çoğu durumda gözlemlerimizin ve tahminlerimizin tam olarak doğru çizgiye oturmayacağı" gerçeğinin "tüm modeller yanlış" sloganının uygun bir kanıtı olmadığı gerçeği. Doğrusal regresyonda, E (Y | X) modelini yapıyoruz ve bu yüzden tam olarak çizgide bulunmayan noktalar modelimizde bir eksiklik göstermiyor. Rastgele önceden belirlenmiş ve beklenir; Model takılan çizgiden sapma gözlemlediğimizde "yanlış" değildir.
klumbard

@klumbard Yorumunuz için teşekkür ederiz. Cevabımı daha ayrıntılı bir şekilde güncelledim, bu da bunun bir örnek olarak kullanılmasının arkasındaki nedenimi açıklıyor. Cevabımda daha felsefi bir yaklaşım izledim ve özellikleri yerine, daha genel terimlerle konuştum, bu topluluktaki ilk görevim bu, eğer böyle bir yer değilse özür dilerim. Özellikleri hakkında bilgili görünüyorsun, yorumunuzu biraz daha detaylandırabilir misiniz? Saptığım noksanlığın eksiklik göstermediği yerde, 0.01 kareye sahip bir regresyon modeli de 0.01 "yanlış" değil midir?
Carrosive

2
Görevinizle ilgili tek sorunum, "... çoğu durumda gözlemlerimiz ve tahminlerimiz tam olarak aynı çizgide kalmayacağından, ifade etme şeklinizdir . Bu, modelimizin genellikle" yanlış "olduğu bir yoldur . " Ben sadece modelin spesifikasyonunun bir hata terimi içerdiğini söylüyorum ve bu nedenle gözlemlenen verilerin takılan hatta düşmemesi gerçeği, “yanlış” modelini göstermiyor. Bu, ince bir anlamsal ayrım gibi görünebilir ama bence önemli
klumbard

1
Ele aldığınız önemli nokta, tüm modellerin, işlevsel biçimin yanlış tanımlanmasının yanı sıra, atlanan değişken önyargı nedeniyle yanlış olmasıdır. Ne zaman bir regresyon modeli yazıp tahminlere ilişkin çıkarımlar gerçekleştirirseniz, modeli asla doğru şekilde belirlemediğinizi varsayıyorsunuz.
klumbard

1
@klumbard Oh Nereden geldiğini görebiliyorum. Bu nedenle, model tamamen kesin olması muhtemel olmayan tahminler üretse de, hata terimini gerçek değerlerin tahminlerden ne kadar sapabileceğini belirtmek için ölçebiliriz ve bu nedenle modelin doğal olarak yanlış olduğunu söylemek yanlış olur. Cevabımın bu kısmını alacağım, sanırım daha sonra eklediğim kısımda amacım daha iyi açıklanmış.
Açıkladığınız

8

Küresel minimum, işe yaramayacak kadar iyi olabilir, bu yüzden bulup bulmamak gerçekten umrumda değil. Bunun nedeni derin ağlar içinAğ boyutu arttıkça yalnızca onu bulma süresi katlanarak artar, ama aynı zamanda genel minimum da genellikle eğitim setinin üzerine konulmasına karşılık gelir. Böylece DNN'nin genelleme yeteneği (ki bizim gerçekten önemsediğimiz) acı çekecektir. Ayrıca, çoğu zaman, kayıp fonksiyonunun daha düşük bir değerine karşılık gelen daha net minimadan ziyade, kayıp fonksiyonunun daha düşük bir değerine karşılık gelen daha düşük minimayı tercih ederiz, çünkü ikincisi girdilerde belirsizlikle çok kötü bir şekilde ilgilenecektir. Bu, Bayesian Derin Öğrenmenin gelişmesiyle daha da belirginleşiyor. Sağlam Optimizasyon, belirsizliğin önemli olduğu gerçek dünya sorunlarına uygulandığında, çok sıklıkla Determinist Optimizasyonu yener.

Son olarak, DNN'lerin görüntü sınıflandırma ve NLP'deki XGBoost gibi yöntemlerin kıçına tekmeyi attığı bir gerçektir. Görüntü sınıflandırmadan kâr elde etmesi gereken bir şirket bunları doğru şekilde üretimde kullanılacak modeller olarak seçecektir ( ve özellik mühendisliği, veri hattı vb. Üzerine önemli miktarda para yatırıyor, ancak kullanıyorum). Bu, tüm ML ortamlarına hükmettiği anlamına gelmez: örneğin, yapısal verilerde XGBoost'tan daha kötü durumdalar (Kaggle yarışmalarının son kazananlarına bakın) ve zaman serisi modellemesinde partikül filtrelerinin yanı sıra hala yapmıyor gibi görünüyorlar. Bununla birlikte, RNN'ler üzerindeki son zamanlardaki bazı yenilikler bu durumu değiştirebilir.


2
Gerçekten mi? Bir oy? Bunun için biraz çağrılmamış. Bu makul bir cevaptır (+1).
usεr11852, Reinstate Monic’in

5
@RajeshDachiraju görünüşte ne olduğumu ya da farkında olmayacağımı çıkarmaya çalıştığınız için, muhtemelen sinir ağları ve rutin olarak hakkında konuşmuş gibi göründüğünüz dışbükey olmayan optimizasyon hakkında daha fazla bilgiye sahip insanların olduğunu öğrenmekle ilgileneceksiniz. sinir ağları için tek bir küresel minimum. Bu terminolojiyi kullanarak gazetelerin büyük kazık arasında, okumayı deneyebilirsin bu bir ve nerede sen yanlış anlama bakın.
DeltaIV,

2
@ RajeshDachiraju: Sebeplerinizi açıkladığınız için teşekkür ederiz, birçok insan rahatsız olmaz. Söyleniyor, bence bunun sebebi hatalı ve çok özel bir cümleyi yanlış yorumlamaktan kaynaklanıyor. DeltaIV ile bu standart terminolojiye katılıyorum.
usεr11852, Reinstate Monic’in

1
@DeltaIV: Demek istediğim, eğitim verilerinde (mimariyi sabit tutan elbette) 0 kaybı olan birden fazla ağırlık vektörü olabilir. Eğitimin asıl amacı ağırlık vektörünü elde etmek mi? Bu yüzden sana katılmıyorum. Bu ağırlık vektörlerinden biri çok faydalıdır. Ancak, bu konuşmayı burada kabul etmemeyi ve sonlandırmayı kabul etmemi istiyorum. Saygılarımızla Rajesh
Rajesh Dachiraju

1

7

Bence bu soruyu düşünmenin en iyi yolu rekabetçi pazar yeridir. Eğer derinlemesine öğrenmeye devam ederseniz ve rakipleriniz bunu kullanırsa, VE kullandığınızdan daha iyi çalışırsa, o zaman pazarda yenilirsiniz.

Sanırım bugün olan şey, kısmen, yani derin öğrenme pazardaki tüm problemler için her şeyden daha iyi çalışıyor gibi görünüyor. Örneğin, derin öğrenme kullanan çevrimiçi dil tercümanları , daha önce kullanılan tamamen dilsel yaklaşımlardan daha iyidir. Sadece birkaç yıl önce durum böyle değildi, fakat derin öğrenmedeki ilerlemeler pazarda liderlik pozisyonlarına alışanlar getirdi.

"Pazarı" tekrarlamaya devam ediyorum, çünkü derin öğrenmedeki mevcut dalgalanmayı tetikleyen şey bu. İş dünyası yararlı bir şey bulduğunda, bir şeyin geniş çapta yayılması bekleniyor. Komite, derin öğrenmenin popüler olması gerektiğine karar veren biz değiliz . Bu iş ve rekabet.

İkinci bölüm, ML'nin gerçek başarısına ek olarak, aynı zamanda tekneyi özlemekten korkmaktır. Birçok işletme paranoyaktır ki AI'yı kaçırırlarsa, işletmeler olarak başarısız olurlar. Bu korku, tüm bu danışmanlık evleri, Gartners vb. Tarafından besleniyor , CEO'lara yarın AI yapmaları veya ölmeleri gerektiğini fısıldayarak fısıldıyor.

Kimse işletmeleri derin öğrenmeye zorlamaz. IT ve Ar-Ge yeni bir oyuncakla heyecanlı. Akademi'nin tezahürat yaptığı için bu parti müzik duruncaya kadar devam edecek, yani derin öğrenmeyi bırakana kadar. Bu süre zarfında, onu bırakıp daha iyi bir çözüm bulabilirsin.


Peki ya akademik araştırma finansmanı? Lütfen biraz ışık tutabilir misin?
Rajesh Dachiraju

2
Sektörden çok fazla fon geliyor. Sektörden en çok para alan profesörler, akademi'de en etkili olanlardır. Üniversiteler, firmalardan elde ettikleri çok miktarda parayı alıp bu profesörleri seviyorlar. Bu NYT makalesini okursanız , hem akademi hem de sektördeki çılgınlık hakkında bir fikir edinebilirsiniz
Aksakal

piyasaya çok iyi bir referans (+1): Ben de aynısını söyledim ("Görüntü sınıflandırmadan kâr elde etmesi gereken bir şirket bunları doğru şekilde üretimde kullanılacak modeller olarak seçecektir"). Ancak, paranoya konusunda hafifçe aynı fikirde olmazdım. Waymo'nun Tesla'yı, Audi'yi ve adını şimdi hatırlayamadığım bir başka otomobil üreticisini yenmeye hazır olduğu bir gerçektir ve bunun büyük kısmı Google'ın Derin Öğrenmeye yaptığı büyük yatırımlardan kaynaklanmaktadır. Audi, eğer SIFT ve SURF'yi (Derin Öğrenme ile hiçbir şekilde alakası olmayan iyi test edilmiş bilgisayarlı görüntü teknolojileri) kullanabilirdi ...
DeltaIV

...aranan. DL'in SIFT, SURF ve diğer geometri temelli yöntemlere göre üstünlüğü, görüntü sınıflandırması söz konusu olduğunda, beş yıllık sağlam akademik ve endüstriyel araştırmaların kanıtladığı bir gerçektir. Kesinlikle her derde deva değil (bkz. IBM Watson'ın başarısızlıkları) ve bazı yutturmaca var, ama aynı zamanda sert ve soğuk gerçekler de var.
DeltaIV

2
@DeltaIV ML kesinlikle bazı uygulamalarda çalışır, ancak bugünün geniş yayılmasının benimsenmesinin paranoya ve büyük ölçüde yutturmaca yüzünden olduğunu düşünüyorum. Çalışıp çalışmadığı CTO'lar sadece bunun için gidiyor. Sadece bir yıl önce neden bahsettiğim hakkında hiçbir fikri olmayan arkadaşlarım var, şimdi AI'nın geleceği olduğunu söylüyorlar, uygulamalara başlayacaklar vs.
Aksakal

4

Çoğunlukla DL ve YSA'nın yararına ağırlık veren mükemmel cevaplar vardır. Fakat OP'yi daha temel bir şekilde itiraz etmek istiyorum, çünkü soru zaten sinir ağlarının matematiksel tutarsızlığını ortaya koydu.

Her şeyden önce, orada olduğu arkasında matematiksel bir teori (çoğu modeller) Sinir Ağları. Aynı şekilde, lineer regresyonun, altta yatan model lineer olmadığı sürece genellemediğini iddia edebilirsiniz. Sinir algoritmalarında, bir model varsayılır (açıkça olmasa da) ve uydurma hatası hesaplanır. Algoritmaların çeşitli buluşsal yöntemlerle değiştirilmiş olması, orijinal matematik desteğini geçersiz kılmaz. BTW, lokal optimizasyon da yararlı bir teori, matematiksel olarak tutarlı.

Bu çizgi boyunca, Sinir Ağları sadece bilim insanlarının tüm araç kutusunda bir yöntem sınıfı oluşturuyorsa, Sinir Ağlarını diğer tekniklerden ayıran çizgi hangisidir? Aslında, SVM'ler bir zamanlar bir NN sınıfı olarak kabul edildi ve aynı kitaplarda görünmeye devam ediyorlar. Öte yandan, NN'ler belki de basitleştirmelerle (doğrusal olmayan) bir regresyon tekniği olarak görülebilir. OP’yi, NN olarak etiketlemenizden bağımsız olarak daha iyi, iyi kurulmuş, etkili algoritmalar aramamız gerektiğine katılıyorum.


Tutarsız olmakla ilgili sorun şu ki, kişi eğitimi ne zaman bırakmalı ve ne zaman bırakmalı? Ayrıca 'Dropot', 'kilo kaybı', 'ReLu' ve çeşitli aktivasyonlar, parti normalizasyonu, maksimum havuzlama, softmax, erken durma, çeşitli öğrenme oranı programları ve bunların tüm izinleri ve kombinasyonları gibi söylentiler tasarımcıyı her zaman şüphede tutar Bir noktada pes edip etmemek.
Rajesh Dachiraju

1
@ RajeshDachiraju Aynı şey dış nokta optimizasyon algoritmalarında ceza katsayılarında veya Runge-Kutta yöntemlerinde adım boyutunda söylenebilir. "Tutarsız" kelimesinin bilimde burada geçerli olmayan kesin bir anlamı vardır.
Miguel,

0

Bazı problemler için matematiksel titizlik ve basitlik için daha az önem verdiğimizi tahmin ediyorum, ancak bunun yararı için, mevcut durum sinir ağının görüntü işlemede örüntü tanıma gibi belirli görevleri yerine getirmede daha iyi olduğunu düşünüyorum.


0

Bu soruda çok var. Yazdıklarınızı tek tek gözden geçirelim.

Eğitim verilerine uygun çözümler sonsuzdur. Sadece bir tanesinin tatmin ettiği ve en iyi şekilde genelleştirebileceğini söyleyebileceğimiz kesin bir matematik denklemimiz yoktur.

Sonsuz birçok çözümün olması, öğrenme sorununun kötü bir soruna yol açmasından kaynaklanmaktadır; Ayrıca, ücretsiz öğle yemeği teoremi olmadan, hangi yöntemi kullanırsak kullanalım, tüm öğrenme problemlerinde en iyisi olduğunu garanti edemez.

Basitçe söylemek gerekirse, hangisinin en iyi şekilde genelleştiğini bilmiyoruz.

Bu ifade gerçekten doğru değil. Örnek sayısını, öğrenme yönteminin VC boyutunu ve genelleme hatasını bağlayan Vapnik ve Chervonenkis tarafından ampirik risk minimizasyonu teoremleri vardır. Bunun yalnızca belirli bir veri kümesi için geçerli olduğunu unutmayın. Böylece bir veri seti ve bir öğrenme prosedürü verildiğinde, genellemenin sınırlarını biliyoruz. Farklı veri kümeleri için ücretsiz öğle yemeği teoremi olmadığı için en iyi ve tek öğrenme prosedürü olmadığına dikkat edin.

Ağırlıkları optimize etmek dışbükey bir sorun değildir, bu yüzden küresel veya yerel bir asgari düzeyde olduğumuzu asla bilemeyiz. Öyleyse neden sinir ağlarını atıp, daha iyi bir ML modeli aramıyorsunuz?

Burada akılda tutmanız gereken birkaç şey var. Dışbükey olmayan sorunu optimize etmek dışbükey bir sorun kadar kolay değildir; bu doğru. Bununla birlikte, dışbükey olan öğrenme yöntemlerinin sınıfı sınırlıdır (doğrusal regresyon, SVM'ler) ve pratikte, çeşitli problemlerde dışbükey olmayan sınıftan (yükseltme, CNN'ler) daha kötü performans gösterirler. Bu yüzden önemli olan, pratikte sinir ağlarının en iyi şekilde çalıştığıdır. Sinir ağlarının iyi çalışmasını sağlayan çok sayıda önemli unsur olmasına rağmen:

  1. Stokastik gradyan inişinden dolayı çok büyük veri setlerine uygulanabilirler.
  2. SVM'lerden farklı olarak, derin ağlarla çıkarım veri setine bağlı değildir. Bu sinir ağlarını test zamanında verimli kılar.
  3. Yapay sinir ağları ile öğrenme kapasitelerini doğrudan kontrol etmek (parametre sayısını düşünmek) sadece daha fazla katman ekleyerek veya daha büyük hale getirerek mümkündür. Bu çok önemlidir çünkü farklı veri setleri için daha büyük veya daha küçük modeller isteyebilirsiniz.

Anladığımız ve bir dizi matematiksel denklemle tutarlı olan bir şey mi? Lineer ve SVM bu matematiksel dezavantajlara sahip değildir ve bir matematiksel denklem grubuyla tamamen tutarlıdır. Neden sadece aynı çizgileri düşünmüyorsun (yine de lineer olmak zorunda değilsin) ve Linear ve SVM ve sinir ağları ve derin öğrenmeden daha iyi bir ML modeli ile gelmedin?

Onları anlamadıkları için işe yarayan şeyleri boşaltmak büyük bir araştırma yönü değildir. Öte yandan, onları anlamak için çaba harcamak, diğer yandan, mükemmel bir araştırma yönüdür. Ayrıca, sinir ağlarının matematiksel denklemlerle tutarsız olduğuna katılmıyorum. Oldukça tutarlılar. Onları nasıl optimize edeceğimizi ve çıkarım yapabileceğimizi biliyoruz.


-2

Sinir ağlarını deneysel bir bakış açısıyla görüntülemeye ne dersiniz? Sadece onları yarattığımız için onları sezgisel olarak anlamak zorunda olduğumuz anlamına gelmez. Ya da yaptıklarını daha iyi anlayabilmek için onlarla oynama iznimiz yok.

İşte onlarla ilgili düşüncelerim:

  • Yapısı: Onlar hiyerarşilerdir. Girdileri paylaşan ağaçlar gibidirler. Kökler girişlerdir ve yapraklar çıkış katmanıdır. Katman çıktılara ne kadar yakınsa, onlar için o kadar alakalı, soyutlama seviyesi de o kadar yüksek olur (resim piksellerden daha fazladır).
  • İşlevsellik: veri ile "oynarlar", modus operandi, işler "tık" olana kadar (hata payı kabul edilebilir) nöronlardaki (ağırlık) ilişkilerle denemektir.

Bu düşündüğümüzle uyumlu. Bilimsel yöntemin nasıl işlediğiyle bile tutarlı. Dolayısıyla sinir ağlarını kırarak, bilginin neyi temsil ettiği ile ilgili genel soruyu da çözüyor olabiliriz.


-3

Unutmayın, LMs, GLM, çok düzeyli modelleme kullanan geniş bir araştırma alanı vardır. Son zamanlarda Bayesian teknikleri ve Hamiltonian Monte Carlo (STAN topluluğu gerçekten bunun ön saflarında yer alıyor) yaşlanmış ve çok kolay bir şekilde STAN tarafından çözülen ve NN'lere veya derin ağlara ihtiyaç duymayan bazı problemler ortaya çıkmıştır. Sosyal Bilimler araştırması, Mikroekonomi, Stan'ı hızla benimseyen bu alanların iki (büyük) örneğidir.

Stan modelleri çok "okunabilir". Katsayıların gerçekte bir posterior dağılım yorumu vardır ve bu yüzden de öngörüleri yapar. Öncelikler, veri üretme sürecinin bir parçasıdır ve performans göstermesi için eşlenik olması gerekmez (gibbs gibi). Stan'a uyan model bir zevktir, aslında sinir bozucu MCMC paramlarını otomatik olarak oldukça iyi ayarlıyor ve keşif gerçekten güzel görselleştirmelerle sıkıştığında sizi uyarıyor.

Eğer denemediyseniz zaten burada muhteşem stan demoları göreceksiniz ).

Günün sonunda insanların bu konu hakkında çok fazla konuşmadıklarını düşünüyorum, çünkü bu alandaki araştırmalar ve sorunlar NN'lerde olduğu gibi "seksi" / "soğuk" değil.


-5

Genelde matematiksel tutarlılık olmadığı zaman ne olur (bu sinir ağları durumunda en azından) ... istenildiği gibi sonuç vermezse, test setinde, patronunuz geri gelip der ki ... Hey neden yapmıyorsunuz? Bırakmayı bırak (hangi ağırlık, hangi katman, başının ne kadarını saptadığının matematiksel bir yolu olmadığı için), bu yüzden denemeyi ve umarım marjinal bir iyileşme elde ettikten sonra istediğin değil, patronun geri dönecek ve neden kilo almayı denemeyin (hangi faktör?)? ve sonra, neden bazı katmanlarda ReLU’yu veya başka bir aktivasyonu denemiyorsunuz ve yine de neden 'maksimum havuzlamayı denemiyorsunuz? hala değil, neden toplu normalizasyonu denemiyorsunuz, hala değil ya da en azından yakınsama, ancak istenen sonucu almıyorsunuz. sadece ağ mimarisini değiştir. ve yukarıdakilerin hepsini farklı kombinasyonlarda tekrarlayın! Başarılı olana kadar bir döngüde tutun!

Öte yandan, tutarlı bir SVM denediğinizde, yakınsama işleminden sonra, sonuç iyi değilse, o zaman tamam, kullandığımız doğrusal çekirdek, veriler doğrusal olamayacağından yeterince iyi değildir, farklı bir şekilli çekirdek kullanın, deneyin. Herhangi bir kamburluğunuz varsa, yine de bırakmasanız bile, SVM'nin bir sınırlaması olan farklı bir şekilli çekirdek.

Demek istediğim, sinir ağları o kadar tutarsız ki, yanlış bile değil! Asla yenilgisini kabul etmez! Mühendis / tasarımcı, istenildiği gibi çalışmaması durumunda yükü alır.


3
Bu bana kendi sorunuza cevap vermiş gibi görünmüyor. Bir rant gibi daha az ses çıkarması için düzenleyebileceğinizi ve sinir ağlarının ve derinlemesine öğrenmenin bir ML modelinden (asıl sorunuz gibi görünüyor) neden daha faydalı olabileceğini nasıl açıkladığını açıklayabilir misiniz?
Silverfish

1
Onun amacı, SVM ile yapabildiğimiz kadar iyi yaptığımızı biliyoruz, ancak NN'lerle bilemeyiz. Muhtemelen, DL'nin kandırılma kolaylığı göz önüne alındığında, hata gibi metrikler bile, modelin gerçekten ne kadar iyi çalıştığını bize söylemiyor.
17'de

1
@yters, yes ama silverfish'in yorumu, bunun neden DL'yi atmadığına bir cevap olmadığıydı. Sorunun yeniden ifade edilmesine daha yakın. Soruyla birleştirmeyi öneririm.
P.Windridge
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.