Makine Öğrenimi için ilkeli ve matematiksel teorilere sahip olmak neden bu kadar önemlidir?


25

Merak ediyorum, neden ilkeli / teorik makine öğrenmesi bu kadar önemli? İnsan olarak kişisel bir bakış açısıyla, ilkeli Makine Öğreniminin neden önemli olduğunu anlayabiliyorum:

  • insanlar ne yaptıklarını anlamak gibi, güzelliği ve anlayışı memnuniyetle buluruz.
  • kuramsal bakış açısından matematik eğlencelidir
  • şeylerin tasarımını yönlendiren ilkeler olduğunda, rastgele tahminde bulunmak, garip deneme ve yanılmaya daha az zaman harcanır. Sinir ağlarının gerçekte nasıl çalıştığını anladıysak, belki de şu anda içine giren büyük miktarlardaki deneme yanılmalarından ziyade, onları tasarlamak için çok daha iyi zaman harcayabiliriz.
  • daha yakın bir zamanda, eğer ilkeler açıksa ve teori de açıksa, o zaman sisteme daha şeffaf olması gerekir (umarım). Bu iyidir, çünkü sistemin ne işe yaradığını anlarsak, AI birçok insanın hiperak etmesinin derhal ortadan kalkması riskini alır.
  • ilkeler, dünyanın sahip olabileceği önemli yapıları ve bir araç yerine ne zaman kullanılacağını özetlemenin özlü bir yolu gibi görünmektedir.

Ancak, bu nedenler makine öğreniminin yoğun bir teorik çalışmasını haklı gösterecek kadar güçlü mü? Teorinin en büyük eleştirilerinden biri, bu kadar zor olduğu için, genellikle çok kısıtlı olan bazı vakaları veya temelde getirilmesi gereken varsayımları incelemeyi, sonuçta yararsız hale getirmeleridir. Sanırım bunu bir kez MIT'de Tor'un yaratıcısı tarafından yapılan bir konuşmada duydum. Tor'un duyduğu eleştirilerin bir kısmının teorik argüman olduğu, ancak temelde, insanlar gerçek hayatın gerçek senaryoları hakkında hiçbir zaman kanıtlayamadıkları için çok karmaşıklar.

Çok fazla bilgi işlem gücü ve veri içeren bu yeni çağda, modellerimizi gerçek veri setleri ve test setleri ile test edebiliriz. İşlerin ampirik kullanarak çalışıp çalışmadığını görebiliriz. Bunun yerine, mühendislik ve ampirizmle çalışan AGI veya sistemleri başarabilirsek, özellikle nicelik sınırlarının elde edilmesi çok zor olduğunda, ancak sezgilerin ve niteliksel cevapların çok daha kolay olduğu durumlarda, makine öğrenmesi için ilkeli ve teorik bir gerekçelendirmeye devam etmeye değer mi? veri odaklı bir yaklaşımla başarmak? Bu yaklaşım klasik istatistiklerde mevcut değildi, bu yüzden teorinin o zamanlar bu kadar önemli olduğunu düşünüyorum, çünkü matematik işlerin doğru olduğundan ya da aslında bizim düşündüğümüz gibi çalıştığından emin olmamızın tek yoluydu.

Ben şahsen her zaman sevmiş ve düşünce teorisi ve ilkeli bir yaklaşım önemliydi. Ancak, gerçek veri ve bilgisayar gücü ile bir şeyler denemenin gücüyle, teorik arayışın yüksek çabasının (ve potansiyel olarak düşük ödüllerinin) hala buna değip değmeyeceğini merak ettim.

Teorik ve ilkeli makine öğreniminin peşinde koşması gerçekten bu kadar önemli mi?


“Teori olmadan, ampirik sonuçların, ML yöntemlerini uygulayacağınız yeni veri kümeleri için geçerli olduğu umuduna güveniyorsunuz. Ancak, ampirik sonuçlarınızı gözlemlerken ortaya çıkan bazı özellikler veya varsayımlar mutlaka ileriye doğru ilerlemeyebilir. Yeni veri setlerinde. "
Charlie Parker

Yanıtlar:


17

Buna doğru bir cevap yok ama belki de “ölçülü olan her şey”. Makine öğrenimindeki son gelişmeler, örneğin, bırakma, artık bağlantılar, yoğun bağlantılar, toplu normalleştirme, özellikle derin teoriye dayanmazken (çoğu birkaç paragrafta haklı gösterilebilir), sonuçta kaç tane için bir tıkanıklık olduğunu düşünüyorum. bu tür sonuçlar büyük bir etki yaratabilir. Bir noktada, bir sonraki büyük sıçramayı yapmak için oturup ekstra bir teori geliştirmek zorundasınız. Aynı zamanda teori sezgiyi yönlendirebilir çünkü bir modelin kalitesini veya sınırlarını makul bir şüphe içinde kanıtlayabilir. Bu, SGD'nin belirli bir sorun için Momentum'dan daha iyi olduğunu söylerse, özellikle önemlidir. Teori hakkındaki güzel şey budur: sizi çözmekte olduğunuz sorunu soyutlamaya zorlar.

Akla gelen en büyük örnek, destek vektör makineleridir. İlk olarak 60'ların başında Vapnik ve Chervonenkis tarafından tasarlandılar, ancak 90'ların başında Vapnik ve diğerleri Kernel Trick'i kullanarak doğrusal olmayan SVM yapabileceğinizi fark ettikleri zaman gerçekten başladılar. Vapnik ve Chervonenkis, VC boyutunun ardındaki teoriyi de çözdüler.Bu, makine öğrenmesi için bir karmaşıklık önlemi oluşturma girişimidir. VC boyutunun herhangi bir pratik uygulamasını düşünemiyorum, ancak SVM'lerin fikrinin muhtemelen bu konudaki çalışmalarından etkilendiğini düşünüyorum. Kernel Trick'in kendisi Hilbert uzayları hakkında soyut saçma matematikten geliyor. SVM'lerin ortaya çıkması için bu soyut saçmalığın bilinmesinin gerekli olduğunu söylemek zor olabilir, ancak, özellikle de makine öğrenmesi konusunda heyecanlı bir çok matematikçiye sahip olduğu için muhtemelen biraz yardımcı olduğunu düşünüyorum.

ResNet konusunda, son zamanlarda Artık mimarilerin gerçekten 100'lü katmanlar arasında olması gerekmediğini öne süren çok temiz bir çalışma oldu. Aslında, bazı çalışmalar, artık bağlantıların RNN'lere çok benzer olduğunu, örneğin Artık Öğrenme, Tekrarlayan Sinir Ağları ve Görsel Korteks Arasındaki Boşlukları Köprülemek " ile çok benzer olduğunu öne sürüyor ", Liao ve ark. Teorik olarak, birçok katmanı olan ResNet aslında inanılmaz derecede verimsiz ve şişirilmiş durumda.

RNN'ler için degrade kırpma fikirleri, şu anki meşhur “ Tekrarlayan sinir ağlarının eğitimi zorluğu üzerine ” yazısında çok haklı görülmüştür - Pascanu, et. ark. Tüm teori olmadan muhtemelen degrade kırpma ile gelebilseniz de, RNN'lerin niçin fantezi bir şey yapmadan, özellikle de dinamik sistem haritalarına benzer analojiler çizerek, eğitim almak için bu kadar zor olduklarını anlamak için uzun bir yol olduğunu düşünüyorum. ).

Entropi Stokastik Degrade İniş yöntemleri konusunda çok fazla heyecan var . Bunlar Langevin dinamiğinden türetildi ve teorik sonuçların çoğu, klasik teorik PDE teorisi ve istatistiksel fiziğe sıkı bir şekilde dayandı. Sonuçlar umut vericidir çünkü SGD'yi, kayıp fonksiyonunun yerel dalgalanmalarında nasıl sıkışıp kaldığı ve SGD'nin SGD'yi çok daha verimli hale getirmek için yerel olarak nasıl yitirebileceği açısından yeni bir ışık alması gerekir. SGD'nin ne zaman faydalı olduğunu ve yetersiz davrandığını anlamak için uzun bir yol kat eder. Bu, farklı modellerde SGD'yi deneyerek deneysel olarak elde edebileceğiniz bir şey değildir.

Makalede , sinir ağlarının ilgi çekici özellikleri , yazarlar sinir ağlarının, katmanlar arasındaki yüksek Lipchitz sabitleri nedeniyle, olumsuz örneklere (hesaplanmış, görüntünün çarpık pertürbasyonları olarak tanımlanmaktadır) karşı hassas olduklarını özetlemektedir. Bu hala aktif bir araştırma alanıdır ve ancak daha teorik türevlerle daha iyi anlaşılabilir.

Ayrıca etrafında en az bir şirketin ( Ayasdi ) kurduğu Topolojik Veri Analizi örneği de var. Bu çok ilginç bir örnek çünkü bunun için kullanılan teknikler o kadar özel ve soyut ki, bugünden bile bu teoriye ait fikirlerin nerede biteceğini görmek çok zaman alacak. Anladığım kadarıyla, ilgili algoritmaların hesaplama karmaşıklığı oldukça yüksek olma eğilimindedir (ancak daha sonra 20 yıl önce bile sinir ağları için eşit derecede yüksekti).


7

Bu sorunun cevabı aslında çok basit. Makine öğrenimi modelinin arkasındaki teorik gerekçelerle, en azından az ya da çok gerçekçi koşullar sağlandığında, çözüm için bir takım optimallik garantisi olduğunu kanıtlayabiliriz. Onsuz, hiçbir şekilde hiçbir garantimiz yok. Tabii ki, "sadece neyin işe yaradığını kontrol edelim ve onu belirli bir problem için kullanalım" diyebilirsiniz, ancak bu, herhangi bir makine öğrenim problemini nasıl çözebileceğiniz konusunda sınırsız sayıda yol bulunduğundan bu mümkün değildir .

Biraz tahmin etmek istediğini söyleYXX+42X+42.5X4242XX+420


2
eğitimli modelinizin doğrulama ve test setleri üzerinde çalışıp çalışmadığını kontrol ediyor mu? Teorik sınırlar, sınırları gerçekte kullanılamıyorsa hangi garantileri verir?
Charlie Parker

6
X+cc(,)

5

Sadece şu soruya bakıyorum: Teorik ve ilkeli makine öğreniminin peşinde koşması gerçekten bu kadar önemli mi?

Ne demek istediğini "önemli" olarak tanımla. Bir şeyi tanımlamak veya bir şeyi anlamak istiyorsanız, felsefi bir bakış açısına göre, bu temel bir ayrımdır. Biraz kaba bir cevapta bilimsel olmak ya da başka bir şey arasındaki farktır. Bunun pratik kısmı, altta yatan soru ile ilgilenmez. Bir şeyi ispatlamak zor, hatta bunu ispatlamak bile mümkün değilse, önemli bir keşif. (Goedel ve arkadaşlarına giriniz.) Ama bu alakasız olduğu anlamına gelmez. En azından pragmatik bir bakış açısıyla alakasız görünebilir. Ancak, en azından asıl önemi ve değeri olan bir şey olarak tanınması gerekir.

Bir analoji düşünün: bir bütün olarak tıp (ve geçmişten) bilimsel değildir. Bazı açılardan aslında asla olamaz. Tamamen sonucuna göre yönetilen bir disiplindir. Çoğu durumda "gerçek" gibi bir şey yoktur. Fakat bazı bölümlerin aslında bilimsel olabileceği ortaya çıktı - ve bu, planlanan ilerlemenin çoğunun gerçekleştiği yer.

Başka bir son derece kısa açıklama olabilir: teori olmadan çok para kazanabilirsiniz. Eğer "daha büyük bir iyilik" için gerçekten faydalıysa, o zaman bunun için Nobel ödülü bile alabilirsiniz. Ama asla Madalya Madalyası almayacaksın.


1
+1 Bunu OP'ye ilginç bir cevap buluyorum, ancak sizden ilacı bilimsel olmayan bir biçimde ayrıntılı olarak hazırlamanızı rica ediyorum. Bir hastayı neyin rahatsız ettiğini, ayırıcı tanıları (şüpheli hastalıkların teorik bir kavramını) içeren ve hangi hastalığın en muhtemel olduğunu tahmin etmek için veri toplanan bir sürecin teşhis süreci değil midir? ...
IWS

(devam ediyor) ... doktorların, gelecekteki hastalık seyrini mevcut verilere dayanarak tahmin etmeye çalıştıkları, takip edilebilecek ve deneysel bulgular ile kontrol edilebilecek ve genellikle kontrol edilen prognozlar yok mu? Ve nihayet, bilim daha yüksek fakat varolan bir gerçeğin arayışı mıdır, yoksa şu anda mevcut olduğuna inandığımız bir gerçeğin yapısına yaklaşıyor muyuz?
IWS

Aslında tıp meselesi biraz daha derinlere iniyor. Bilim temelde sadece bir yöntem veya bir süreçtir. Bilimin "çalışması" için, yanlış tahrifat olasılığına karşı hipotezleri eşit zeminde test etme yeteneğine sahip olmalısınız. Kısacası: yanlış bir teori ispat edemezseniz, bilimsel değildir. Tıp için bunun çok fazla etik çıkarımı vardır ve birisine aynı anda farklı seçenekler ile tedavi edemediğiniz için hipotez testi gerçekten zordur. [...]
melek

İkinci bölüme gelince (hakikat arayışı olarak bilim) - yine, bu sadece bir yöntem. İnsanlığın ortaya çıkardığı en başarılı yöntem bu gibi görünüyor. Ancak inanç temelli değil, gerçeklere dayanıyor. Ve bazı yönlerden kapalı bir sistemdir. Gerçek ile aynı görünen bir yapı arasında (bilimsel) bir ayrım yoktur. Bilim insanları arasındaki anlaşma size bazı kurallar getirebilir (örneğin, Occams Razor), ancak bilim, bilim dışı denizlerde pusula değildir.
melek

5

İnsanlar, fizik yasaları olmadan yüzyıllarca gemi, araba ve bina inşa edebildiler. Ancak modern bilimden bu yana, bu teknolojileri tamamen yeni bir seviyeye taşıyabildik. Kanıtlanmış bir teori ilkeli bir şekilde iyileştirmeler yapmaya izin verir. Matematiksel bir madde ve hesaplama teorisi olmadan hiçbir zaman aya ulaşamazdık veya bilgisayarlara sahip olamazdık.

Makine öğrenmesi, diğerleri gibi bir başka bilim ve mühendislik alanıdır. Makine öğrenmesine ilke edinilen bir yaklaşım bize çekirdek makineleri, yapılandırılmış öğrenme ve topluluk yöntemleri (yükseltme, rastgele ormanlar) sağlamıştır.


5

İşte kendi işimden basit bir örnek.

Sürekli sonuçlara çok fazla sinir ağı yerleştiriyorum. Biri ağırlıkları geri yayılma ile belirler. Sonunda birleşir.

(ATA)1ATy
Ay

Netim çok daha hızlı yaklaşıyor .

Teşekkürler teorisi.


3

Ampirisizm - Teori

Sen yazdın:

Teorinin en büyük eleştirilerinden biri, bu kadar zor olduğu için, genellikle çok kısıtlı olan bazı vakaları veya temelde getirilmesi gereken varsayımları incelemeyi, sonuçta yararsız hale getirmeleridir.

Bu, deneysel ve kuramsal olarak adlandırabileceğimiz iki görüş arasındaki temel ayrımı göstermektedir .

Ampirik bir bakış açısıyla, sizin de tanımladığınız gibi, teoremler işe yaramaz çünkü gerçek dünyayı modelleyecek kadar karmaşık değildirler. Gerçek dünyada hiçbir yere uygulanmayan basitleştirilmiş ideal senaryolardan bahsediyorlar. Peki teori yapmanın amacı ne?

Ancak teorik açıdan bakıldığında bunun tersi doğrudur. Deneyciliği bize "Bu yöntemi bu veri setinde yürüttüm ve diğer yöntemi aynı veri setinde çalıştırmaktan daha iyiydi" ötesinde neler öğretebilirdi? Bu bir örnek için faydalıdır ancak sorun hakkında çok az şey söyler.

Teorinin yaptığı bazı garantiler veriyor. Aynı zamanda basitleştirilmiş senaryoları tam olarak incelememize izin verir, böylece neler olup bittiğini anlamaya başlayabiliriz.

Örnek

Gerçek bir örnek düşünün: kavramın kaymasının (veriler zaman içinde değiştiğinde) öğrenme yeteneğinizi nasıl etkilediğini görmek istersiniz. Saf bir ampirist bu soruya nasıl yaklaşır? Yapabileceği tek şey, farklı yöntemler uygulamaya başlamak ve yapabileceği numaralar hakkında düşünmektir. Tüm prosedür buna benzer olabilir:

  • 300 günü geçmiş ve bu değişkenin ortağının değişip değişmediğini tespit etmeye çalışın. Tamam biraz çalıştı.
  • Ya bunun yerine 200 gün denersek?
  • Tamam, daha iyisi, sürüklenme gerçekleştiğinde algoritmayı değiştirmeye çalışalım.
  • Daha fazla veri kümesi edinin ve şu ana kadar hangi yöntemin geliştiğini en iyi sonucu alın.
  • Sonuçlar kesin değil, belki de devam etmekte olan birden fazla kavram kayması var mı?
  • Simülasyonları deneyin. Bazı konsept kaymalarını simüle edersek ve değişikliğin meydana gelip gelmediğini tespit etmek için kullanılan farklı gün sayısını kullanarak farklı yöntemler uygularsak.

Burada elimizde birkaç veri setinde kesin sonuçlar var. Belki de veriler, 200 geçmiş günün gözlemlerine dayanan öğrenme algoritmasını güncellemek için en yüksek doğruluğu vermiştir. Fakat aynı şey diğer veriler için de geçerli olacak mı? Bu 200 gün tahmini ne kadar güvenilir? Simülasyonlar yardım eder - ama gerçek dünyayı yansıtmazlar - aynı problem teorisinde olduğu gibi.

Şimdi aynı şeyi teorik bir bakış açısından düşünün:

  • Senaryoyu saçma bir seviyeye getirin. Belki zamanla aniden değişen ortalama 2 değişkenli normal bir dağılım kullanın.
  • Koşullarınızı açıkça seçin - normal verilerde en uygun modeli seçin. Verilerin normal olduğunu bildiğinizi varsayın. Tek bilmediğiniz şey araçların ne zaman meydana geldiğidir.
  • Vardiya oluştuğunda tespit etmek için bir yöntem cihaz. Yine 200 geçmiş gözlemle başlayabiliriz.
  • Bu ayarlara dayanarak, sınıflandırıcı için ortalama hatayı hesaplayabilmeliyiz, algoritmanın yapması gereken sürenin değişip değişmediğini tespit edip güncelleme yapması gerekir. Belki de en kötü durum senaryoları ve% 95 şans seviyesindeki garantileri.

Şimdi bu senaryo daha açık - tüm detayları düzelterek sorunu çözmeyi başardık. Sınıflandırıcılarımızın ortalama hatasını biliyoruz. Muhtemelen, değişimin meydana geldiğini tespit etmek için geçen gün sayısını tahmin edebilir. Bunun hangi parametrelere bağlı olduğunu belirleyin (belki de değişimin boyutu gibi). Ve şimdi bir şeye dayanarak pratik bir çözüm üretiyoruz. Ancak hepsinden önemlisi: Bu sonuç (eğer doğru hesaplanmışsa) değişmez. Sonsuza dek burada ve herkes ondan öğrenebilir.

Modern makine öğrenmesinin babalarından biri gibi - Jürgen Schmidhuber şöyle demeyi sever:

Sezgisel buluşma gelir ve gider - teoremler sonsuzluk içindir.

Diğer alanlardan gelen dersler

Ayrıca kısaca fiziğe bazı paralelliklerden söz etmek istedim. Bence onlar da bu ikilemi yaşıyorlardı. Fizikçiler sonsuz uzayda hareket eden sonsuz kütlenin sürtünmesiz nesnelerini inceliyorlardı. İlk bakışta bu bize kar taneleri rüzgarda nasıl hareket ettiğini bilmek istediğimiz gerçeklik hakkında ne söyleyebilir? Ancak teori onları uzun bir yoldan taşıyormuş gibi hissediyor.


2

Bence, ML sonuçlarını yorumlama kabiliyetinin en önemli olduğu bazı nedenlerden bahsettiniz. AI güdümlü mal varlığının komşunun köpeğini vurmaya karar verdiğini söyleyelim. Neden böyle yaptığını anlamak önemli olacaktır. Bunun gelecekte gerçekleşmesini engellememek için, en azından kimin sorumlu olduğunu ve mal sahibinin tazminatını ödeyeceğini anlamak.

Bununla birlikte, bana göre en önemli sebep, algoritmanın kurulduğu ilkeleri anlamanın sınırlarını anlamaya ve performansını geliştirmeye izin vermesidir. ML'de öklid mesafesini kullanmayı düşünün. Birçok kümeleme algoritmasında, örnek arasındaki mesafenin tanımıyla başlarsınız, daha sonra onları birbirine yakınlaştıran örneklerin özellikleri arasındaki sınırları bulmaya devam edin. Özellik sayısını artırdığınızda, öklid mesafesi bir noktada çalışmayı durdurur. Çalışmasını sağlamak için çok fazla zaman harcayabilirsiniz ya da - bir yakınlık ölçüsü olarak öklid mesafesinin sonsuz boyut sınırlarında çalışmadığını biliyorsanız - yalnızca Manhattan gibi başka bir mesafe metrikine geçin, sonra çalışmaya devam edin gerçek problemlerde. Bunun gibi tonlarca örnek bulabilirsiniz,


2
Daha önce bu iddiayı duymuş, ama ben bu gösterecektir herhangi bir spesifik örnek farkındayım sanmıyorum: Öklid mesafeler ile de kümeleme olmayan bazı verilerin bir örnek yoktur ancak edilir Manhattan mesafelerde iyi kümeleme?
amip diyor Reinstate Monica

1
@amoeba burada ortak referans, ancak daha önce farklı bir bağlamda bu karşılaştı. Bir birim hiper küpün içindeki hiperferin hacminin oranına bakarsanız, hiper küpün boyutsallığı sonsuzluğa giderken sıfıra düşer. Temelde daha yüksek boyutlarda tüm dışbükey cisimler noktalara çöküyor
yorumum

2

Bunun felsefi tartışma olmamasının çok zor olduğunu düşünüyorum. Cevabım gerçekten burada daha önce bahsedilen iyi noktaların bir tekrarı (herkes için + 1'ler); Sadece Andrew Gelman'dan bilgisayar uzmanı olarak eğitilmiş biri olarak benimle konuşan bir alıntıya işaret etmek istiyorum. Makine öğrenimi dedikleri şeyi söyleyenlerin çoğunun aynı zamanda bilgisayar bilimlerinden geldiği izlenimini edindim. Alıntı, Gelman'ın 2017 New York R Konferansında Teorik İstatistikler adlı Konferansta Uygulanan İstatistikler Teorisi olarak verdiği bir konuşmadan kaynaklanıyor :

Teori ölçeklenebilir.

Teori, neyin anlamlı olduğunu ve belirli koşullar altında neyin olmadığını anlatır. Gerçek hakkında bir fikir edinmek için binlerce veya on binlerce veya milyonlarca simülasyon yapmak istiyor muyuz? Daha fazla kıyaslama veri kümesi üzerinde ampirik karşılaştırmalar yapmak istiyor muyuz? Biraz zaman alacak ve sonuçlarımız hala kırılgan olabilir. Ayrıca, yaptığımız karşılaştırmaların bir anlam ifade ettiğini nasıl biliyoruz? % 99.5 kesinliğe sahip yeni Derin Öğrenicimizin% 99.1 kesinliğe sahip olandan daha iyi olduğunu nasıl biliyoruz? Bazı teori burada yardımcı olacaktır.

Ben simülasyonların büyük bir hayranıyım ve onları dünyayı anlamlandırmak için (hatta teoriyi anlamayı sağlamak için) çok kullanıyorum, ancak teorik makine öğrenmesi uygulamalı makine öğrenmesi teorisidir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.