Yakın gelecekte sinir ağlarını değiştirme potansiyeline sahip modeller nelerdir?

10

Yakın gelecekte sinir ağlarını değiştirme potansiyeline sahip olası modeller var mı?

Buna ihtiyacımız var mı? Sinir ağlarını verimlilik açısından kullanmanın en kötü yanı nedir?

neural-networks convolutional-neural-networks recurrent-neural-networks

— Abaqus
kaynak

4

Bu geriye doğru gidiyor, ama tartışmaların mantığını takip ediyor.

Verimlilik açısından, klasik sinir ağları ile ilgili birkaç önemli sorun görüyorum.

Veri toplama ve ön işleme yükü

Büyük sinir ağları gerektirir eğitmek için çok fazla veri . Miktar, ağın boyutuna ve görevin karmaşıklığına bağlı olarak değişebilir, ancak genel bir kural olarak, genellikle ağırlık sayısıyla orantılıdır. Bazı denetimli öğrenme görevleri için yeterli yüksek kalitede etiketlenmiş veri yoktur. Çok miktarda özel eğitim verisi toplamak aylar hatta yıllar alabilir ve etiketleme hantal ve güvenilir olmayabilir. Bu kısmen veri artırımı ile hafifletilebilir, yani zaten sahip olduklarınızdan daha fazla örnek "sentez" anlamına gelir, ancak her derde deva değildir.

Eğitim süresi ve enerji dengelemesi

Öğrenme oranı genellikle oldukça düşüktür, bu nedenle eğitimin ilerlemesi yavaştır. Bir masaüstü CPU üzerinde eğitim almak haftalar sürebilen büyük bir model, örneğin, birkaç kW güç tüketen bir GPU kümesi kullanılarak iki saat içinde eğitilebilir. Bu, eğitim prosedürünün doğası gereği temel bir ödünleşmedir. Bununla birlikte, GPU'lar giderek daha verimli hale geliyor - örneğin, yeni nVidia Volta GPU mimarisi, 300 W'dan daha az tüketirken 15.7 TFLOP'a izin veriyor.

Sigara transferrability

Şu anda, hemen hemen her farklı sorun, özel bir sinir ağının tasarlanmasını, eğitilmesini ve konuşlandırılmasını gerektiriyor. Çözüm genellikle işe yarasa da , bu soruna kilitlenmiş durumda . Örneğin, AlphaGo Go'da mükemmeldir, ancak araba sürmek veya müzik önerileri sunmak umutsuz olurdu - bu tür görevler için tasarlanmamıştı. Bu ezici artıklık, sinir ağlarının büyük bir dezavantajıdır ve aynı zamanda genel olarak sinir ağı araştırmalarının ilerlemesi için de büyük bir engeldir. Transfer öğrenimi adı verilen bir araştırma alanı var.bu, bir görev için eğitilmiş bir ağı farklı bir göreve uygulamanın yollarını bulmakla ilgilidir. Genellikle bu, bir ağı ikinci görevde sıfırdan eğitmek için yeterli veri bulunmamasıyla ilgilidir, bu nedenle önceden ayarlanmış bir modeli bazı ekstra ayarlarla kullanabilmek çok caziptir.

Sorunun ilk kısmı daha zordur. Tamamen istatistiksel modelleri bir kenara bırakarak, sinir ağlarından radikal olarak farklı olan makine öğreniminde belirgin bir yaklaşım görmedim . Bununla birlikte, yukarıdaki verimsizliklerin bazılarına hitap ettikleri için kayda değer bazı ilginç gelişmeler vardır.

Nöromorfik cips

Önce biraz arka plan.

Spiking sinir ağları , hesaplama gücü açısından muazzam bir potansiyele sahiptir. Aslında, sigmoid aktivasyonları olan klasik sinir ağlarından kesinlikle daha güçlü oldukları kanıtlanmıştır .

Buna ek olarak, sivri sinir ağları içsel bir zaman kavrayışına sahiptir - bu, kurulduğundan beri klasik ağlar için büyük bir engeldir. Sadece bu değil, aynı zamanda çivili ağlar olay güdümlüdür , yani nöronlar sadece gelen bir sinyal olduğunda çalışır. Bu, her bir nöronun girdisine bakılmaksızın değerlendirildiği klasik ağların aksine (yine, bu, genellikle iki yoğun matrisin çarpımı olarak uygulanan değerlendirme prosedürünün bir sonucudur). Bu nedenle, spiking ağları seyrek bir kodlama şeması kullanır , bu da herhangi bir zamanda nöronların sadece küçük bir kısmının aktif olduğu anlamına gelir.

Şimdi, seyrek başak tabanlı kodlama ve olay güdümlü operasyon, nöromorfik yongalar adı verilen sivri ağların donanım tabanlı uygulamaları için uygundur . Örneğin, IBM'in TrueNorth yongası ortalama olarak sadece yaklaşık 100 mW güç çekerken 1 milyon nöron ve 256 milyon bağlantı simüle edebilir . Bu, mevcut nVidia GPU'lardan daha verimli büyüklük sıralarıdır . Nöromorfik çipler, yukarıda bahsettiğim eğitim süresi / enerji dengesinin çözümü olabilir.

Ayrıca, memitörler nispeten yeni ama çok umut verici bir gelişme. Temel olarak, bir memrisist, bir dirence çok benzeyen, ancak tüm ömrü boyunca içinden geçen toplam akım miktarıyla orantılı değişken dirençli temel bir devre elemanıdır . Esasen, bu, içinden geçen akım miktarının bir "hafızasını" koruduğu anlamına gelir. Memitörlerin heyecan verici potansiyel uygulamalarından biri, donanımdaki sinapsları son derece verimli bir şekilde modellemektir.

Takviye öğrenimi ve evrimi

Bunlardan bahsetmeye değer olduğunu düşünüyorum çünkü aktarılamazlık sorununu çözmek için adaylar vaat ediyorlar. Bunlar sinir ağları ile sınırlı değildir - ödül odaklı olmak, RL ve evrim teorik olarak bir temsilcinin ulaşması için bir ödül veya hedef tanımlamanın mümkün olduğu herhangi bir göreve genel bir ortamda uygulanabilir. Bunu yapmak önemsiz olmak zorunda değildir, ancak öğrenme ajanının çıktısı ve temel gerçek arasındaki farkı en aza indirmeye çalıştığı olağan hata odaklı yaklaşımdan çok daha geneldir. Buradaki ana nokta transfer öğrenmeyle ilgilidir: ideal olarak, eğitimli bir ajanı farklı bir göreve uygulamak , hedefi veya ödülü değiştirmek kadar basit olmalıdır (yine de o seviyede değildirler ...).

— cantordust
kaynak

"Kesinlikle daha güçlü," Maass 1996 tarihli makalesinde yazdığı şeydir, ancak matematiksel titizlik iddia ediyor ve hesaplama gücünü tanımlayamıyor. Dahası, 1996'da sigmoid aktivasyon fonksiyonları popüler olduğunda yazılmıştır, ki bunlar şimdi değildir, tam olarak çok çeşitli senaryolar için güvenilir veya daha basit aktivasyon fonksiyonları kadar yakınsamadığı için. Maass gazetede sadece iki kez yakınsamadan bahseder ve yakınsamanın nasıl meydana geldiğini göstermez, bu da makine öğrenme hedefleri açısından hesaplama gücü tanımının yokluğunun altını çizer.

— FauChristian

RL ve evrim arasındaki bağlantı belirsizdir. Genetik algoritma ve RL'nin bir kombinasyonundan mı bahsediyorsunuz? Eğer öyleyse, referans nedir?

— FauChristian

@FauChristian Makalenin tamamını okumasanız bile, hesaplama yeteneğinin belirlenmesi özette (ikinci cümle)

In particular it is shown that networks of spiking neurons are, with regard to the number of neurons that are needed, computationally more powerful than these other neural network models.

— sağlanmıştır

Hıristiyan Sigmoid aktivasyonları hala çok canlı ve tekmeliyor. Örneğin, LSTM'ler kapılar için sigmoid aktüatörler kullanır, softmax (normalleştirilmiş sigmoidler) hala çok sınıflı sınıflandırma vb. İçin en iyi şeydir. "Daha basit" aktivasyonlar daha iyi değildir - orijinal ReLU ( max(0, x)) çok tehlikede takılmak x < 0, ölü nöronlara neden olmak. Her halükarda, bu nokta, ani yükseliş ağlarının hesaplama gücü ve güç tüketimi açısından ultra verimli donanım uygulamaları ile ilgilidir.

— cantordust

@FauChristian RL ile evrim arasında paralellik kurmuyorum. Onlara, belirli bir verimsizliği ele almak için umut verici yaklaşımların örnekleri olarak veriyorum, yani eldeki her bir sorun için bir çözüm (NN ya da başka bir şey olsun) yapmak zorundayız. İdeal olarak, sadece üst düzey bir hedefe dayalı olarak belirli bir problem için RL ve / veya evrim tarafından otomatik olarak ayarlanan genel bir çözücü tasarlayabilmelisiniz .

— cantordust

1

Sinir Ağlarını Değiştirme

Sinir ağlarını değiştirme potansiyeline sahip yeni algoritmalar olabilir. Bununla birlikte, sinir ağlarının özelliklerinden biri, her biri geometrik desenlerde bilgi işlem kaynaklarına düşük talepleri olan basit unsurlar kullanmalarıdır.

Yapay nöronlar, hesaplamaları DSP cihazlarına veya diğer paralel hesaplama donanımlarına eşleyerek paralel olarak (CPU zaman paylaşımı veya döngü olmadan) çalıştırılabilir. Birçok nöronun aslında birbirine benzemesi güçlü bir avantajdır.

Neleri Değiştireceğiz?

Sinir ağları için algoritmik değiştirmeler göz önüne alındığında, bir sinir ağı tasarımının bir algoritma olduğunu ima ederiz. O değil.

Sinir ağı, optimal olanın bazı formülasyonuna dayanarak, girdinin çıktıya doğrusal olmayan bir dönüşümünü gerçekleştirmek için gerçek zamanlı bir devrede birleşmeye yönelik bir yaklaşımdır. Böyle bir formülasyon, tanımlanan bir idealden bir hata veya eşitsizlik ölçüsünün en aza indirilmesi olabilir. En üst düzeye çıkarılması gereken bir sağlık ölçüsü olabilir.

Herhangi bir ağ davranışı için uygunluk belirlemesinin kaynağı dahili olabilir. Biz buna denetimsiz öğrenme diyoruz. Harici uygunluk bilgileri, etiket dediğimiz istenen çıkış değerleri biçiminde giriş vektörleri ile birleştirildiğinde denetimli olarak adlandırdığımız harici olabilir.

Fitness, harici olarak, giriş verileriyle birleştirilmemiş, aksine takviye dediğimiz gerçek zamanlı bir skaler veya vektör olarak da ortaya çıkabilir. Bu, yeniden giriş yapan öğrenme algoritmaları gerektirir. Net davranışsal uygunluk alternatif olarak, yığılmış ağlar veya Laplacian hiyerarşileri gibi diğer yapılandırmalar durumunda sistem içindeki diğer ağlar tarafından değerlendirilebilir.

Matematiksel ve süreç tasarımları seçildikten sonra algoritma seçiminin karşılaştırmalı zeka ile ilgisi yoktur. Algoritma tasarımı, daha çok doğrudan bilgi işlem taleplerini en aza indirmek ve zaman gereksinimlerini azaltmakla ilgilidir. Bu minimizasyon da donanıma ve işletim sistemine bağlıdır.

Değiştirme Belirtildi mi?

Elbette. Ağların daha çok memeli nöronlarına benzemesi daha iyi olurdu.

Aktivasyonun karmaşıklığı
Bağlantı düzenlerinin heterojenliği
Meta adaptasyonu desteklemek için tasarımın esnekliği
Bölgesel sinyalleşmenin birçok boyutu tarafından yönetilir

Bölgesel sinyalleme, sinapslar arasında sinyal iletiminin ötesinde birçok kimyasal sinyal anlamına gelir.

Memeli nörolojisinin ötesine geçmeyi bile düşünebiliriz.

Parametrik ve hipotez temelli öğrenmeyi birleştirme
Mikroplar DNA'yı geçtiğinde kullanılan formun öğrenilmesi

Sinir Ağı Verimliliği

Sıcaklık, Kelvin derecesiyle ölçülebildiğinden, verimlilik bazı evrensel ölçeklerde ölçülemez. Verimlilik sadece bazı teorik idealler üzerinde ölçülen bir değerin bir bölümü olarak ölçülebilir. Paydada bunun maksimum değil ideal olduğunu unutmayın. Termodinamik motorlarda bu ideal, asla çıkışa tam olarak aktarılamayan enerji girişi oranıdır.

Benzer şekilde, sinir ağları hiçbir zaman sıfır zamanda öğrenemez. Sinir ağı, üretimde keyfi olarak uzun bir süre boyunca sıfır hataya ulaşamaz. Bu nedenle, bilgi, dijital otomasyonun doğuşu sırasında Bell Laboratuarlarından Claude Shannon tarafından araştırılan bir kavramdır ve bilgi entropisi ile termodinamik entropi arasındaki ilişki artık teorik fiziğin önemli bir parçasıdır.

Kötü öğrenme verimliliği ya da iyi öğrenme verimliliği olamaz. Mantıksal ve bilimsel terimlerle düşünmek istiyorsak ne kötü performans ne de iyi performans olabilir - çok belirli bir performans senaryoları dizisi için bazı sistem yapılandırmasına göre yalnızca göreceli olarak iyileştirme.

Bu nedenle, iki donanım, işletim sistemi ve yazılım yapılandırması ve göreli değerlendirme için kullanılan tam olarak tanımlanmış bir test paketinin açık bir belirtimi olmadan, verimlilik anlamsızdır.

— Douglas Daseeco
kaynak

1

O cephede gizlenmiş bir umudumuz var. Şu anda , J.Hinton tarafından 'squash' fonksiyonu adı verilen doğrusal olmayan farklı bir aktivasyon kullanan kapsül ağlarımız var .

Hinton, CNN'de maksimum havuzlamayı 'büyük bir hata' olarak adlandırır, çünkü CNN, bir görüntüdeki varlık nesnelerini aralarındaki göreceli yönlendirme yerine yalnızca arar. Böylece çeviri değişmezliği elde etmeye çalışırken uzamsal bilgileri kaybederler.
Sinir ağları sabit bağlantılara sahipken, bir kapsül ağındaki bir kapsül, her bir çağda hangi kapsülün aktivasyonunu geçmesi gerektiğine 'karar verir'. Buna 'yönlendirme' denir.
Sinir ağlarındaki her nöronun aktivasyonu bir skalerdir. Oysa kapsülün aktivasyonu, bir görüntüdeki bir nesnenin pozunu ve yönünü yakalayan bir vektördür.
CNN, insan görsel sisteminin kötü temsilleri olarak kabul edilir. İnsan görme sistemi ile kasları ve beyni / bilişi birlikte kastediyorum. Özgürlük Anıtı'nı herhangi bir pozdan, bir pozdan baksak bile tanımlayabiliriz. Çoğu durumda CNN aynı nesneyi farklı poz ve yönlerde algılayamaz.

Kapsül ağlarının kendilerinin bazı eksiklikleri vardır. Böylece sinir ağlarının ötesine bakma yönünde çalışmalar olmuştur. J.Hinton'un makalesini okumadan önce bu blogu iyi bir anlayış için okuyabilirsiniz.

— varsh
kaynak

0

Sinir ağları çok fazla veri ve eğitim gerektirir. Tablo şeklindeki çoğu veri kümesi için karar ağacı tabanlı modelleri kullanmak çok daha iyidir. Çoğu zaman, basit modeller iyi doğruluk sağlamak için yeterlidir. Ancak sinir ağları zaman testine tabi tutuldu. Derin öğrenme devriminin başlamasından bu yana sadece beş ila altı yıl geçti, bu yüzden hala derin öğrenmenin gerçek gücünü bilmiyoruz.

— riemann77
kaynak