Yapay sinir ağları neden bu kadar çok eğitim örneğine ihtiyaç duyuyor?


64

2 yaşından küçük bir çocuk, renk, marka vb. Ne olursa olsun makul bir doğrulukla tanımlayabilmesi için bir otomobilin yaklaşık 5 örneğine ihtiyaç duyar. sadece birkaç tane. Genellikle birbiriyle kafasını karıştırdığından, görünüşe göre sinir ağı yeterince eğitilmemişti, ama yine de.

Yapay sinir ağlarının eksik olup, daha hızlı öğrenmelerini engelleyen nedir? Transfer öğrenme bir cevap mıdır?


23
Filler arabalardan daha iyi bir örnek olabilir. Diğerlerinin de belirttiği gibi, bir çocuk etiketi duymadan önce birçok araba görmüş olabilir , bu nedenle akılları zaten "doğal türler" tanımlarsa, şimdi bir tanesinin etiketi vardır. Bununla birlikte, Batılı bir çocuk tartışmasız bir şekilde sadece birkaç veriye dayanarak iyi bir fil sınıflandırma sistemi geliştiriyor.
JG

70
Bir insanın beyninin sinir ağı gibi çalıştığını düşündüren nedir?
Paul Wasilewski

16
Bir NN, bir arabanın görüntüsünü gösterebilir. Çocuğunuz birçok farklı araba türü için farklı bakış açılarından tam bir 3D film çeker. Çocuğunuzun ayrıca bir arabayı ayırt etmek için benzer örnekleri vardır. Mesela bebek arabası, oyuncak vb. Bunlar olmasaydı, çocuğunuzun daha fazla örneğe ihtiyacı olacağını düşünüyorum.
Stian Yttervik

20
@MSalters Yapay Sinir Ağı anlamında mı? Muhtemelen değil.
Firebug

28
“2 yaşından küçük bir çocuk, makul bir doğrulukla tanımlayabilmek için bir otomobilin yaklaşık 5 örneğine ihtiyaç duyuyor” Böyle bir çocuğun, otomobil olmayan şeylerle ilgili iki yıllık deneyimi var . Bunun önemli bir rol oynadığına eminim.
DarthFennec

Yanıtlar:


101

Biyolojik ve yapay sinir ağları arasında güçlü bir benzerlik beklememesine dikkat ediyorum. Bence "sinir ağları" adı biraz tehlikeli, çünkü insanları nörolojik süreçlerin ve makine öğrenmenin aynı olması gerektiğini beklemeye zorluyor. Biyolojik ve yapay sinir ağları arasındaki farklılıklar benzerliklerden ağır basmaktadır.

Bunun nasıl kötüye gidebileceğinin bir örneği olarak, orijinal yazıdaki akıl yürütmeyi kafasına da çevirebilirsiniz. Oldukça hızlı bir bilgisayar ve bir miktar eğitim verisi olması koşuluyla, bir öğleden sonra otomobilleri tanımayı öğrenmek için bir sinir ağı eğitebilirsiniz. Bunu ikili bir görev (araba / araba değil) veya çok sınıflı bir görev (araba / tramvay / bisiklet / uçak / tekne) yapabilir ve yine de yüksek bir başarı seviyesinden emin olabilirsiniz.

Buna karşılık, bir çocuğun bir gün - hatta hatta haftada - bir araba seçmesini beklemedim, hatta "çok fazla eğitim örneği" gördükten sonra bile. İki yaşındaki bir çocuk ile öğrenme kabiliyeti arasındaki farkı hesaba katan bir bebek arasında bir şeyler açıkça belirgindir; oysa ki vanilya görüntü sınıflandırma sinir ağı “doğumdan” hemen sonra nesne sınıflandırmasını mükemmel bir şekilde yapabilir . İki önemli fark olduğunu düşünüyorum: (1) mevcut eğitim verilerinin göreceli hacimleri ve (2) bol miktarda eğitim verisi nedeniyle zaman içinde gelişen bir kendi kendini öğretme mekanizması.


Orijinal yazı iki soru ortaya koyuyor. Sorunun başlığı ve gövdesi sinir ağlarının neden "bu kadar çok örneğe" ihtiyacı olduğunu soruyor. Çocuğun deneyimine göre, ortak görüntü kıyaslamaları kullanılarak eğitilmiş sinir ağları nispeten az veriye sahiptir.

Başlıktaki soruyu tekrar yazacağım

“Ortak bir görüntü kıyaslaması için bir sinir ağını eğitmek bir çocuğun öğrenme deneyimiyle karşılaştırır ve karşılaştırır?”

Karşılaştırma amacıyla CIFAR-10 verilerini dikkate alacağım, çünkü bu ortak bir görüntü kıyaslaması. Etiketli kısım, sınıf başına 6000 görüntü içeren 10 görüntü sınıfından oluşur. Her görüntü 32x32 pikseldir. Bir şekilde CIFAR-10'dan etiketli görüntüleri istiflediyseniz ve standart bir 48 fps video yaptıysanız, yaklaşık 20 dakikalık bir çekiminiz olur.

Dünyayı günde 12 saat gözlemleyen 2 yaşındaki bir çocuğun yaklaşık 263000 dakika (4000 saatten fazla), yetişkinlerden gelen geri bildirimler (etiketler) de dahil olmak üzere doğrudan gözlemleri vardır. (Bunlar sadece basketbol sahası rakamlarıdır - tipik bir iki yaşındaki çocuğun dünyayı gözlemlemek için kaç dakika harcadığını bilmiyorum.) Ayrıca, çocuk CIFAR'ı oluşturan 10 sınıfın ötesinde birçok nesneye maruz kalacak 10.

Yani oyunda birkaç şey var. Birincisi, çocuğun genel olarak daha fazla veriye maruz kalması ve CIFAR-10 modelinden daha çeşitli veri kaynaklarına sahip olmasıdır. Veri çeşitliliği ve veri hacmi, genel olarak sağlam modeller için ön koşul olarak kabul edilmektedir. Bu bağlamda, bir sinir ağının bu görevde çocuktan daha kötü olması şaşırtıcı görünmemektedir, çünkü CIFAR-10'da eğitilmiş bir sinir ağı, iki yaşına göre eğitim verisi için pozitif olarak aç bırakılmıştır. Bir çocuk için mevcut olan görüntü çözünürlüğü 32x32 CIFAR-10 görüntülerinden daha iyidir, böylece çocuk nesnelerin ince ayrıntıları hakkında bilgi edinebilir.

CIFAR-10 ile iki yaş arasındaki karşılaştırma mükemmel değildir çünkü CIFAR-10 modeli aynı statik görüntüler üzerinde çoklu geçişlerle eğitilirken, çocuk dürbün vizyonu kullanarak nesnelerin üçte nasıl düzenlendiğini görecektir. boyutsal dünya, farklı nesneler üzerinde ve farklı aydınlatma koşullarında ve bakış açılarıyla hareket ederken.

OP’nin çocuğuyla ilgili fıkra, ikinci bir soruya işaret ediyor:

“Sinir ağları nasıl kendi kendine öğretilebilir?”

Bir çocuğa kendi kendine öğretme kabiliyeti vardır, böylece sıfırdan başlamak zorunda kalmadan zaman içinde yeni nesne kategorileri eklenebilir.

  • OP'nin konusundaki sözleri , makine öğrenmesi bağlamında bir tür model uyarlamasıdır.

  • Yorumlarda, diğer kullanıcılar bir veya birkaç atışla öğrenmenin * başka bir makine öğrenimi araştırma alanı olduğunu belirtti.

  • Ek olarak, , kendi kendine öğretme modellerini farklı bir perspektiften ele alır, temel olarak robotların belirli problemleri çözmek için en uygun stratejileri (örneğin satranç oynamak) bulmak için deneme yanılma deneyimlerini yapmalarına izin verir.

Bu makine öğrenme paradigmalarının üçünün de, makinelerin yeni bilgisayar vizyonu görevlerine adapte olmalarını iyileştirmeye yönelik olması muhtemeldir. Makine öğrenim modellerini hızla yeni görevlere uyarlamak aktif bir araştırma alanıdır. Ancak, bu projelerin pratik hedefleri (yeni kötü amaçlı yazılım örneklerini tanımlayın, pasaport fotoğraflarındaki sahtekarları tanıyın, interneti endeksleyin) ve başarı ölçütleri, dünyayı öğrenen bir çocuğun hedeflerinden ve bu konuda yapılanlardan farklı olduğundan, matematik kullanan bir bilgisayar ve diğeri kimya kullanılarak organik malzemede yapıldığında, ikisi arasındaki doğrudan karşılaştırmalar suya karışmaya devam edecektir.


Bir kenara, CIFAR-10 probleminin etrafında nasıl döndürüleceğini araştırmak ve her birinin 10 örneğinden 6000 nesneyi tanımak için bir sinir ağını eğitmek ilginç olurdu. Ancak bu bile, 2 yaşındaki ile kıyaslandığında adil bir karşılaştırma olmazdı çünkü eğitim verilerinin toplam hacmi, çeşitliliği ve çözümünde hala büyük bir tutarsızlık olacaktı.

* Şu anda bir kerelik öğrenme veya az sayıdaki öğrenme için bir etiketimiz bulunmamaktadır.


34
Bunu biraz daha belirgin hale getirmek için, bir insan çocuğu, nesnelerin farklı açılardan bakıldığında nasıl göründüğünü, sınırlarını nasıl belirleyeceğini, görünür büyüklük ile gerçek boyut arasındaki ilişkiyi belirleyebilmelerini sağlayan on binlerce örnekle yıllarca eğitim almış durumda. , ve bunun gibi.
David Schwartz

25
Bir çocuğun beyni rahim içinde etkindir . Bebek, suyla süzüldükten sonra ebeveynlerini sesle tanımlayabilir . Yeni doğmuş bir bebeğin doğmadan önce aylarca çalışması gereken veriler vardı, ancak bir sözcük oluşturmadan önce yıllarca daha ihtiyacı var, daha sonra bir cümle kurmadan önce birkaç yıl, daha sonra gramer olarak doğru bir cümle için birkaç yıl daha gerekiyor , vb ... öğrenme çok karmaşıktır .
Nelson

5
@EelcoHoogendoorn, soruda kullanılan 'çocuk' ile 'sinir ağı' arasındaki karşıtlığı açıklar. Cevap, bunun yalnızca görünür bir karşıtlık olduğudur. Sinir ağları do not çocuklar onlar arabalar kabul edebiliyoruz önce birçok örnek (ama sadece farklı bir şekilde) da olsun, bütün o birçok örnek gerekir.
Sextus Empiricus

4
@ Nelson, yorumunun sebebinin ne olduğunu bilmiyorum ama 'yıl'ı' yıl 'olarak değiştirebilirsin. 1 yıl çocuklar sözlerini konuşur, 2 yıl ile ilk cümleler konuşulur ve geçmiş zaman ve zamirler gibi 3 yıl dilbilgisi ile doğru bir şekilde kullanılır.
Sextus Empiricus

1
@EelcoHoogendoorn Sorunun öncülünün hatalı bir analojiden bir akıl yürütme durumu olduğunu düşünüyorum; Biyolojik ve yapay sinir ağlarına zıtlık da duyarlıdır, çünkü cevap, biyolojik ve yapay sinir ağlarının adlarına en çok nasıl benzeyeceğini (her ikisi de "sinir ağları" kelimesini içerir) ancak temel özelliklerinde veya en azından karakteristiklerinde benzer olmadığını ana hatlarıyla belirtir. soru tarafından kabul edildi.
Monica'yı

49

Öncelikle, iki yaşında, bir çocuk dünya hakkında çok şey bilir ve aktif olarak bu bilgiyi uygular. Bir çocuk bu bilgiyi yeni kavramlara uygulayarak birçok "transfer öğrenmesi" yapar.

İkincisi, bu beş “etiketli” araba örneğini görmeden önce, çocuk sokakta, televizyonda, oyuncak arabalarda vs. çok fazla araba görür, bu nedenle önceden de “denetimsiz öğrenme” olur.

Son olarak, sinir ağları insan beyni ile neredeyse hiçbir ortak noktaya sahip değil, bu yüzden onları karşılaştırmanın pek bir anlamı yok. Ayrıca, tek seferlik öğrenme için algoritmalar olduğunu ve bununla ilgili çok fazla araştırma yapıldığına dikkat edin.


9
Dördüncü nokta, bir çocuğun etkili / doğru bir şekilde öğrenmeye doğru 100 milyon yıldan fazla evrimsel seçim yapmasıdır.
csiz

39

Şu anki cevaplarda göremediğim en önemli hususlardan biri evrimdir .

Bir çocuğun beyni sıfırdan öğrenmez. Geyik ve zürafa bebeklerinin doğumdan birkaç dakika sonra nasıl yürüyebileceklerini sormaya benzer. Çünkü beyinleri ile doğarlar zaten bu görev için kablolu. Elbette gerekli bazı ince ayarlamalar var, ancak bebek geyik "rastgele başlatma" dan yürümeyi öğrenmiyor.

Benzer şekilde, büyük hareketli cisimlerin var olup takip etmesi gereken önemli şey doğduğumuz bir şeydir.

Bu yüzden bu sorunun varsayımı sadece yanlış olduğunu düşünüyorum. İnsan sinir ağları tonlarca - belki de araba değil - hareketli, 3D dokuları zor dokular ve şekillerle döndürme vb. Bu görev için daha iyi yapılandırılmış, daha yüksek bir şansla çoğalacak şekilde yaşayabilir, gelecek nesli baştan daha iyi ve daha iyi beyin kablolaması ile bırakabilir.


8
Eğlence bir yana: Farklı araba modelleri arasında ayrım yapmak söz konusu olduğunda, aslında beynimizin özel yüz tanıma merkezinden yararlandığımızı gösteren kanıtlar var . Bir çocuğun farklı modeller arasında ayrım yapamamasına rağmen, bir mobil nesnede bir 'yüzün' bulunmasının, arabaların bir tür yaratık olarak kategorize edilmesine neden olabileceği ve bu nedenle mobil cihazların tanınmasından bu yana evrim tarafından tanımlanmaya elverişli olması olasıdır. Yüzü olan nesneler hayatta kalmak için yararlıdır.
Dan Bryant

7
Bu cevap tam olarak ne düşündüğümü ele alıyor. Çocuklar boş sayfalar olarak doğmazlar . Bazı kalıpların tanınmasını kolaylaştıran, bazı şeylerin öğrenilmesini kolaylaştıran, vb. Özelliklerle gelirler
Eff

1
Rahimden dışarı doğru çıkan hayvanlar gerçekten büyüleyici olsa da, bu tür evrimsel kablolamanın, doğal dünyada deneyim odaklı öğrenmenin en uç noktası olduğu düşünülen insan öğreniminin tam tersi ucunda olduğu düşünülmektedir. Kesinlikle arabalar beynimizin evrimi üzerinde minimal evrimsel etki bırakmış olacaklar.
Eelco Hoogendoorn

5
@EelcoHoogendoorn Çevreyi öğrenme ve anlama yeteneği evrimsel olarak seçildi. Beyin, öğrenme konusunda son derece verimli olacak şekilde evrim tarafından kurulmuştur. Noktaları bağlama, kalıpları görme, şekilleri ve hareketi anlama, çıkarımlar yapma vb.
Eff

3
Bu iyi bir nokta, ancak araştırmacılar bunu anladıkça, belli öğrenme türlerini kolaylaştıran kodlanmış yapılara sahip NN'leri inşa ettikleri de doğru. Bir evrimsel NN'nin görsel görevlerde öğrenmeyi büyük ölçüde hızlandıran / geliştiren zor kodlanmış alıcı alanlara sahip olduğunu düşünün . Bu alanlar tamamen bağlı bir ağda sıfırdan öğrenilebilir, ancak daha zordur. @EelcoHoogendoorn, insan beyni öğrenmeyi kolaylaştıran yapı dolu .
gung - Reinstate Monica

21

Sinir ağları hakkında fazla bir şey bilmiyorum ama bebekler hakkında çok şey biliyorum.

Birçok 2 yaşındaki çocukların genel kelimelerin nasıl olması gerektiği ile ilgili birçok sorunu var. Mesela, o yaşta çocuklar için dört bacaklı hayvan için "köpek" kullanmak oldukça yaygındır. Bu "araba" dan daha zor bir ayrım - mesela bir fino köpeğinin Danua'dan ne kadar farklı göründüğünü düşünün, mesela bir kedi olmasa da ikisi de "köpek".

Ve 2 yaşında bir çocuk 5 arabadan çok daha fazla örnek gördü. Bir aile, bir arabayla seyahat ederken, bir çocuk onlarca hatta yüzlerce araba örneği görür. Ve bir çok anne-baba, "arabaya bak" diyerek 5 kereden fazla yorum yapacak. Fakat çocuklar ayrıca onlara söylenmeyen yollarla da düşünebilirler. Mesela, sokakta çocuklar sıraya dizilmiş bir sürü şey görüyor. Babası (birinde) "parlak arabaya bak!" Diyor. ve çocuk "belki sıralanan diğer her şey aynı zamanda araba mı?"


2
Diğer örnekler: Taksi'nin ders arabası vagonları ve polis arabaları aynı. Ne zaman bir araba kırmızıysa, bir itfaiye aracıdır. Kampçılar, ambulanslardır. Yükleyici vinci olan bir kamyon ekskavatör olarak sınıflandırılır. Daha yeni geçen otobüs tren istasyonuna gider, yani aynı görünen bir sonraki otobüs de tren istasyonuna gitmelidir. Ve ay ışığını güpegündüz görmek çok özel bir olay.
Sextus Empiricus

10

Bu, aynı zamanda üzerinde çok düşündüğüm, ve nedenini açıklayan birkaç açıklama ile ortaya çıkan büyüleyici bir sorudur.

  • Sinir ağları beyin gibi bir şey yapmaz. Geri yayılma sinir ağlarına özgüdür ve beyinde olmaz. Bu anlamda, beynimizdeki genel öğrenme algoritmasını bilmiyoruz. Elektrik olabilir, kimyasal olabilir, hatta ikisinin bir kombinasyonu olabilir. Sinir ağları, beyinlerimizle karşılaştırıldığında ne kadar basitleştirildiklerinden daha aşağı bir öğrenme şekli olarak görülebilir.
  • Sinir ağları gerçekten beynimiz gibiyse, o zaman insan bebekler ilk günlerinde, özellik çıkarma gibi, ilk günlerinde ilk günlerinde "eğitim" geçirirler. Böylece sinir ağları gerçekten sıfırdan eğitilmiş değil, daha çok sınıf ve etiket eklemek için son katman yeniden eğitiliyor.

9

2 yaşından küçük bir çocuk, renk, marka vb. Ne olursa olsun makul bir doğrulukla tanımlayabilmek için bir arabanın yaklaşık 5 örneğine ihtiyaç duyar.

“Örnekler” kavramı kolayca karışır. Bir çocuk bir otomobilin 5 benzersiz örneğini görmüş olsa da, birçok farklı ortamda binlerce binlerce kare görmüşlerdir. Başka bağlamlarda da arabalar görmüşlerdir. Ayrıca yaşamları boyunca geliştirilen fiziksel dünya için bir sezgileri var - muhtemelen bazı transfer öğrenmeleri oluyor. Yine de hepsini "5 örnek" e alıyoruz.

Bu arada, bir CNN'ye aktardığınız her kare / görüntü "örnek" olarak kabul edilir. Tutarlı bir tanım uygularsanız, her iki sistem de gerçekten çok daha benzer miktarda bir eğitim verisi kullanmaktadır.

Ayrıca, evrimsel sinir ağlarının - CNN'ler - bilgisayar görüşünde YSA'lardan daha yararlı olduğunu ve aslında görüntü sınıflandırma gibi görevlerde insan performansına yaklaştığını belirtmek isterim. Derin öğrenme (muhtemelen) her derde deva değil, ancak bu alanda takdire şayan bir performans sergiliyor.


5

Başkalarının da belirttiği gibi, yapay sinir ağlarının veri verimliliği, ayrıntılara bağlı olarak büyük ölçüde değişmektedir. Nitekim, sadece tek bir etiketli numune kullanarak, tramvay etiketleme görevini oldukça iyi bir doğrulukla çözebilen tek seferlik öğrenme yöntemleri vardır.

Bunu yapmanın bir yolu transfer öğrenmesidir; Başka etiketler üzerine eğitilmiş bir ağ genellikle yeni etiketlere çok etkili bir şekilde adapte olur, çünkü zorlu çalışma görüntünün düşük seviyeli bileşenlerini makul bir şekilde parçalamaktadır.

Ancak bu tür bir görevi yerine getirmek için bu tür etiketli verilere ihtiyaç duymuyoruz; Bebekler gibi, düşünmeyi düşündüğünüz sinir ağları kadar etiketli verilere de ihtiyaç duymazlar.

Örneğin, başka bağlamlarda da başarıyla uyguladığım denetimsiz yöntemlerden biri, etiketlenmemiş bir görüntü dizisi almak, bunları rasgele döndürmek ve görüntünün hangi tarafının 'yukarı' olacağını tahmin etmek için bir ağı eğitmektir. Görünür nesnelerin ne olduğunu veya ne dendiklerini bilmeden, bu, ağı görüntüler hakkında muazzam miktarda yapı öğrenmeye zorlar; ve bu, çok daha fazla veri verimli sonraki etiketli öğrenme için mükemmel bir temel oluşturabilir.

Yapay ağların, gerçeklerden, belirgin bir geri yayılma analoğunun olmaması gibi, muhtemelen anlamlı yollardan oldukça farklı olduğu doğru olsa da, gerçek sinir ağlarının aynı hileleri kullanması, öğrenmeye çalışılması çok muhtemeldir. Bazı basit öncelikler tarafından ima edilen verilerdeki yapı.

Hayvanlarda neredeyse kesinlikle rol oynayan ve aynı zamanda videoyu anlama konusunda büyük umut vaat eden bir diğer örnek, geleceğin geçmişten tahmin edilebilir olması gerektiği varsayımındadır. Sadece bu varsayımdan yola çıkarak, bir sinir ağını çokça öğretebilirsiniz. Ya da felsefi düzeyde, bu varsayımın 'bilgi' olarak düşündüğümüz hemen hemen her şeyin altında olduğuna inanmaya meyilliyim.

Burada yeni bir şey demiyorum; ancak bu olasılıkların henüz birçok uygulama bulamadığı için çok genç olması ve henüz bir YSA'nın neler yapabileceği konusundaki ders kitaplarına değinmemiş olması anlamında oldukça yenidir. Yani OP'nin sorusuna cevap vermek için; YSA, tarif ettiğiniz boşluğun çoğunu zaten kapattı.


4

Derin bir sinir ağını eğitmenin bir yolu, onu otomatik kodlayıcılar yığını olarak ele almaktır ( Sınırlı Boltzmann Makineleri ).

Teoride, bir otomatik kodlayıcı denetimsiz bir şekilde öğrenir: Keyfi, etiketsiz giriş verilerini alır ve çıkış verisi oluşturmak için işler. Sonra bu çıktı verisini alır ve girdi verisini yeniden oluşturmaya çalışır. Verilerini yuvarlaklaştırmaya yaklaşana kadar düğüm parametrelerini değiştirir. Bunu düşünürseniz, otomatik kodlayıcı kendi otomatik birim testlerini yazıyordur. Aslında, "etiketsiz giriş verilerini" etiketli verilere dönüştürüyor : Orijinal veriler yuvarlak tetiklenmiş veriler için bir etiket görevi görüyor.

Otomatik kodlayıcıların katmanları eğitildikten sonra, sinir ağı amaçlanan işlevini gerçekleştirmek için etiketli veriler kullanılarak ince ayar yapılır. Aslında bunlar fonksiyonel testlerdir.

Orijinal poster yapay bir sinir ağını eğitmek için neden çok veriye ihtiyaç duyduğunu soruyor ve bunu iki yaşındaki bir insanın ihtiyaç duyduğu iddia edilen düşük eğitim verisiyle karşılaştırıyor. Orijinal poster elma-portakalları karşılaştırıyor: Yapay sinir ağları için genel eğitim süreci, iki yaşına göre etiketli ince ayar.

Fakat gerçekte iki yaşındaki, otomatik kodlayıcılarını iki yıldan fazla bir süredir rastgele, kendinden etiketli veriler üzerinde eğitiyor. Bebekler uterodayken hayal kurarlar . (Kedi yavruları da öyle.) Araştırmacılar, bu rüyaları görsel işlem merkezlerinde rastgele nöron ateşlemelerini içeren olarak tanımladılar.


1
Kabul; Ancak uygulamadaki otomatik kodlayıcıların denetlenmeyen bir öğrenmeyi gerçekleştirmede çok güçlü araçlar olmadığı; Bildiğimiz her şey, orada daha çok şeyin olduğuna işaret ediyor, bu yüzden, 'iki yaşındaki, kendi otomatik kodlayıcılarını eğitiyor' ifadesi, tam anlamıyla benimsememeli.
Eelco Hoogendoorn

4

Görmeyi öğrenene kadar "araba görmeyi" öğrenmiyoruz.

Bir çocuğun nesneleri nasıl göreceğini öğrenmesi çok uzun zaman alıyor ve birçok örnek alıyor. Bundan sonra, bir çocuk sadece birkaç örnekten belirli bir nesne türünü tanımlamayı öğrenebilir . İki yaşında bir çocuğu, kelimenin tam anlamıyla boş bir sayfadan başlayan bir öğrenme sistemiyle karşılaştırırsanız, bu bir elma ve portakal karşılaştırmasıdır; o yaşta çocuk binlerce saat boyunca "video görüntüsü" gördü.

Benzer şekilde, yapay sinir ağlarına “nasıl görüldüğünü” öğrenmek için birçok örnek gerekir, ancak bundan sonra bu bilgiyi yeni örneklere aktarmak mümkündür. Transfer öğrenmesi makine öğreniminin bütün bir alanıdır ve "tek atış öğrenme" gibi şeyler mümkündür - tek bir örnekte daha önce görmediği yeni nesne türlerini tanımlamayı ya da tanımlamayı öğrenecek YSA'lar oluşturabilirsiniz. yüzünün tek bir fotoğrafından belli bir kişi. Ancak bu ilk "görmeyi öğrenmek" kısmını iyi yapmak çok fazla veri gerektirir.

Ayrıca, tüm eğitim verilerinin eşit olmadığına, yani öğrenirken "seçtiğiniz" verilerin sadece size sağlanan verilerden daha etkili olduğuna dair bazı kanıtlar vardır. Örneğin Held & Hein ikiz kedi yavrusu deneyi. https://www.lri.fr/~mbl/ENS/FONDIHM/2013/papers/about-HeldHein63.pdf


4

Şimdiye kadar cevaplarda görmediğim bir şey, bir insan çocuğu tarafından görülen gerçek dünya nesnesinin bir 'örneğinin' NN eğitimi bağlamındaki bir örneğe karşılık gelmemesi.

5 yaşında bir çocuğa sahip bir demiryolu kavşağında durduğunuzu ve 5 trenin 10 dakika içerisinde geçtiğini varsayalım. Şimdi, “Çocuğum sadece 5 tren gördü ve bir NN'nin binlerce resme ihtiyacı varken diğer trenleri güvenilir bir şekilde tanımlayabilir!” Diyebilirsiniz. Bu muhtemelen doğru olsa da, çocuğunuzun gördüğü her trenin bir trenin tek bir görüntüsünden daha fazla bilgi içerdiği gerçeğini tamamen görmezden geliyorsunuz. Aslında, çocuğunuzun beyni, her biri biraz farklı bir açıyla, farklı gölgelerle vb. Geçerken, saniyede birkaç düzine tren görüntüsünü işlerken, tek bir görüntü, NN'ye çok sınırlı bilgi sağlayacaktır. Bu bağlamda, çocuğunuz NN'de bulunmayan bilgilere, örneğin trenin hızına veya trenin yaptığı seslere bile sahiptir.

Ayrıca, çocuğunuz konuşabilir ve SORULAR SORABİLİR! "Trenler çok uzun değil mi?" “Evet.”, “Ve onlar da çok büyük, değil mi?” "Evet.". İki basit soru ile çocuğunuz bir dakikadan az bir sürede iki temel özelliği öğrenir!

Bir diğer önemli nokta nesne algılamadır. Çocuğunuz derhal hangi nesneye, yani görüntünün hangi kısmına odaklanmaya ihtiyacı olduğunu, NN onu sınıflandırmayı denemeden önce ilgili nesneyi algılamayı öğrenmesi gerektiğini tanımlayabilir.


3
Çocuğun bağlamı olduğunu da eklerdim : raylar üzerinde bir tren görür, bir istasyonda, düz geçişlerde vb. Görür. Gökyüzünde bir tren gibi görünmek için boyanmış ve boyanmış kocaman (zeplin büyüklüğü) bir balon görürse, Tren olduğunu söylemez. Bir tren gibi gözüktüğünü söyleyecek, ancak ona "tren" etiketi eklemeyecek. Şüpheliyim ki bir NN bu durumda "tren görünümlü balon" etiketini geri getirecek. Benzer şekilde, bir çocuk üzerinde bir trenin olduğu bir tahtayı gerçek bir trenin yanında yanlış kullanmaz. Bir trenin resminin resmi NN'e giden bir trenin resmi - bu "tren" etiketini döndürür.
corey979

3

Performansın beklediğiniz kadar farklı olmadığını, ancak çok iyi bir soru sorduğunuzu söyleyebilirim (son paragrafa bakınız).

Transfer öğreniminden bahsettiğiniz gibi: Elmaları elmalarla karşılaştırmak için, toplamda kaç tane resim ve bir insan / sinir ağının ilgilendiği sınıfın kaç resmini “gördüğü” ne bakmak zorundayız.

1. Bir insan kaç resme bakar?

İnsanın göz hareketi , bir tür “biyolojik fotoğraf” olarak görülebilen yaklaşık 200 ms sürer . Bilgisayar görüş uzmanı Fei-Fei Li'nin konuşmasına bakınız: https://www.ted.com/talks/fei_fei_li_how_we_re_teaching_computers_to_understand_pictures#t-362785 .

O ekler:

Yani 3 yaşına kadar bir çocuk yüz milyonlarca resim görmüş olacaktı.

Nesne tespiti için önde gelen veritabanı olan ImageNet'te ~ 14 milyon etiketli resim bulunmaktadır. Bu yüzden ImageNet'te eğitilmiş bir sinir ağı 14000000/5/60/60/24 * 2 ~ 64 günlük bir bebek kadar çok resim görecekti, yani iki aylık (bebeğin hayatının yarısı olduğu sanılıyor). Adil olmak gerekirse, bu resimlerin kaç tanesinin etiketlendiğini söylemek zor. Dahası, bir bebeğin gördüğü resimler ImageNet'teki kadar farklı değildir. (Muhtemelen bebek annesinin zamanının olduğunu görüyor, ...;). Bununla birlikte, oğlunuzun yüz milyonlarca fotoğraf görmüş olduğunu söylemek doğru olduğunu düşünüyorum (ve sonra transfer öğrenimi uygular).

Peki, hangi resimlerden (transfer) öğrenilebilecek sağlam resimlerle ilgili bir temel verilen yeni bir kategori öğrenmemiz gerekir?

Bulduğum ilk blog yazısı şuydu: https://blog.keras.io/building-powerful-image-classification-models-using-very-little-data.html . Sınıf başına 1000 örnek kullanırlar. 2.5 yıl sonra bile daha azının gerekli olduğunu hayal edebiliyorum. Ancak 1000 fotoğraf, 1000/5/60 içinde 3,3 dakika içinde bir insan tarafından görülebilir.

Sen yazdın:

2 yaşından küçük bir çocuk, renk, marka vb. Ne olursa olsun makul bir doğrulukla tanımlayabilmek için bir arabanın yaklaşık 5 örneğine ihtiyaç duyar.

Bu, örnek başına kırk saniyeye eşittir (karşılaştırılabilir hale getirmek için bu nesnenin çeşitli açılarıyla).

Özetlemek gerekirse: Bahsettiğim gibi, birkaç varsayımda bulunmak zorunda kaldım. Ancak bence performansın beklenenden farklı olmadığı görülebilir.

Ancak, harika bir soru sorduğunuza inanıyorum ve işte neden:

2. Sinir ağı beyin gibi çalışsa daha iyi / farklı mı olurdu? (Geoffrey Hinton evet diyor).

Bir röportajda https://www.wired.com/story/googles-ai-guru-computers-think-more-like-brains/ , 2018 yılının sonlarında, sinir ağlarının mevcut uygulamalarını beyinle karşılaştırır. Ağırlıklar bakımından yapay sinir ağlarının beyinden 10.000 faktörü ile daha küçük olduğunu söyler. Bu nedenle, beynin öğrenmesi için daha az sayıda eğitim yinelemesi gerekir. Yapay sinir ağlarının beyinlerimiz gibi çalışmasını sağlamak için, Graphcore adlı İngiltere merkezli bir girişim olan donanımdaki bir başka eğilimi takip ediyor. Bir sinir ağının ağırlıklarını saklamanın akıllı bir yolu ile hesaplama süresini kısaltır. Bu nedenle, daha fazla ağırlık kullanılabilir ve yapay sinir ağlarının eğitim süresi azaltılabilir.


2

Ben bu konuda uzmanım. Ben insanım, bir bebektim, bir arabam var ve AI yapıyorum.

Bebeklerin çok daha sınırlı örneklerle arabaları almasının nedeni sezgidir. İnsan beyninin halihazırda 3D dönüşlerle başa çıkmak için yapıları var. Ayrıca, derinlik eşlemesi için gerçekten yardımcı olan paralaks sağlayan iki göz vardır. Bir araba ile bir araba resmi arasında ilişki kurabilirsiniz, çünkü fotoğrafta gerçek bir derinlik yoktur. Hinton (AI araştırmacı), olayları daha sezgisel olarak ele alabilecek Kapsül Ağları fikrini önerdi. Maalesef, bilgisayarlar için egzersiz verileri (genellikle) 2D görüntüler, düz pikseller dizileridir. Fazla sığamamak için, çok fazla veri gerekir, böylece görüntülerin içindeki otomobillerin yönü genelleştirilir. Beyin beyni bunu zaten yapabilir ve herhangi bir yöndeki bir arabayı tanıyabilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.