Yanıtlar:
Bu geriye doğru gidiyor, ama tartışmaların mantığını takip ediyor.
Verimlilik açısından, klasik sinir ağları ile ilgili birkaç önemli sorun görüyorum.
Büyük sinir ağları gerektirir eğitmek için çok fazla veri . Miktar, ağın boyutuna ve görevin karmaşıklığına bağlı olarak değişebilir, ancak genel bir kural olarak, genellikle ağırlık sayısıyla orantılıdır. Bazı denetimli öğrenme görevleri için yeterli yüksek kalitede etiketlenmiş veri yoktur. Çok miktarda özel eğitim verisi toplamak aylar hatta yıllar alabilir ve etiketleme hantal ve güvenilir olmayabilir. Bu kısmen veri artırımı ile hafifletilebilir, yani zaten sahip olduklarınızdan daha fazla örnek "sentez" anlamına gelir, ancak her derde deva değildir.
Öğrenme oranı genellikle oldukça düşüktür, bu nedenle eğitimin ilerlemesi yavaştır. Bir masaüstü CPU üzerinde eğitim almak haftalar sürebilen büyük bir model, örneğin, birkaç kW güç tüketen bir GPU kümesi kullanılarak iki saat içinde eğitilebilir. Bu, eğitim prosedürünün doğası gereği temel bir ödünleşmedir. Bununla birlikte, GPU'lar giderek daha verimli hale geliyor - örneğin, yeni nVidia Volta GPU mimarisi, 300 W'dan daha az tüketirken 15.7 TFLOP'a izin veriyor.
Şu anda, hemen hemen her farklı sorun, özel bir sinir ağının tasarlanmasını, eğitilmesini ve konuşlandırılmasını gerektiriyor. Çözüm genellikle işe yarasa da , bu soruna kilitlenmiş durumda . Örneğin, AlphaGo Go'da mükemmeldir, ancak araba sürmek veya müzik önerileri sunmak umutsuz olurdu - bu tür görevler için tasarlanmamıştı. Bu ezici artıklık, sinir ağlarının büyük bir dezavantajıdır ve aynı zamanda genel olarak sinir ağı araştırmalarının ilerlemesi için de büyük bir engeldir. Transfer öğrenimi adı verilen bir araştırma alanı var.bu, bir görev için eğitilmiş bir ağı farklı bir göreve uygulamanın yollarını bulmakla ilgilidir. Genellikle bu, bir ağı ikinci görevde sıfırdan eğitmek için yeterli veri bulunmamasıyla ilgilidir, bu nedenle önceden ayarlanmış bir modeli bazı ekstra ayarlarla kullanabilmek çok caziptir.
Sorunun ilk kısmı daha zordur. Tamamen istatistiksel modelleri bir kenara bırakarak, sinir ağlarından radikal olarak farklı olan makine öğreniminde belirgin bir yaklaşım görmedim . Bununla birlikte, yukarıdaki verimsizliklerin bazılarına hitap ettikleri için kayda değer bazı ilginç gelişmeler vardır.
Önce biraz arka plan.
Spiking sinir ağları , hesaplama gücü açısından muazzam bir potansiyele sahiptir. Aslında, sigmoid aktivasyonları olan klasik sinir ağlarından kesinlikle daha güçlü oldukları kanıtlanmıştır .
Buna ek olarak, sivri sinir ağları içsel bir zaman kavrayışına sahiptir - bu, kurulduğundan beri klasik ağlar için büyük bir engeldir. Sadece bu değil, aynı zamanda çivili ağlar olay güdümlüdür , yani nöronlar sadece gelen bir sinyal olduğunda çalışır. Bu, her bir nöronun girdisine bakılmaksızın değerlendirildiği klasik ağların aksine (yine, bu, genellikle iki yoğun matrisin çarpımı olarak uygulanan değerlendirme prosedürünün bir sonucudur). Bu nedenle, spiking ağları seyrek bir kodlama şeması kullanır , bu da herhangi bir zamanda nöronların sadece küçük bir kısmının aktif olduğu anlamına gelir.
Şimdi, seyrek başak tabanlı kodlama ve olay güdümlü operasyon, nöromorfik yongalar adı verilen sivri ağların donanım tabanlı uygulamaları için uygundur . Örneğin, IBM'in TrueNorth yongası ortalama olarak sadece yaklaşık 100 mW güç çekerken 1 milyon nöron ve 256 milyon bağlantı simüle edebilir . Bu, mevcut nVidia GPU'lardan daha verimli büyüklük sıralarıdır . Nöromorfik çipler, yukarıda bahsettiğim eğitim süresi / enerji dengesinin çözümü olabilir.
Ayrıca, memitörler nispeten yeni ama çok umut verici bir gelişme. Temel olarak, bir memrisist, bir dirence çok benzeyen, ancak tüm ömrü boyunca içinden geçen toplam akım miktarıyla orantılı değişken dirençli temel bir devre elemanıdır . Esasen, bu, içinden geçen akım miktarının bir "hafızasını" koruduğu anlamına gelir. Memitörlerin heyecan verici potansiyel uygulamalarından biri, donanımdaki sinapsları son derece verimli bir şekilde modellemektir.
Bunlardan bahsetmeye değer olduğunu düşünüyorum çünkü aktarılamazlık sorununu çözmek için adaylar vaat ediyorlar. Bunlar sinir ağları ile sınırlı değildir - ödül odaklı olmak, RL ve evrim teorik olarak bir temsilcinin ulaşması için bir ödül veya hedef tanımlamanın mümkün olduğu herhangi bir göreve genel bir ortamda uygulanabilir. Bunu yapmak önemsiz olmak zorunda değildir, ancak öğrenme ajanının çıktısı ve temel gerçek arasındaki farkı en aza indirmeye çalıştığı olağan hata odaklı yaklaşımdan çok daha geneldir. Buradaki ana nokta transfer öğrenmeyle ilgilidir: ideal olarak, eğitimli bir ajanı farklı bir göreve uygulamak , hedefi veya ödülü değiştirmek kadar basit olmalıdır (yine de o seviyede değildirler ...).
In particular it is shown that networks of spiking neurons are, with regard to the number of neurons that are needed, computationally more powerful than these other neural network models.
max(0, x)
) çok tehlikede takılmak x < 0
, ölü nöronlara neden olmak. Her halükarda, bu nokta, ani yükseliş ağlarının hesaplama gücü ve güç tüketimi açısından ultra verimli donanım uygulamaları ile ilgilidir.
Sinir Ağlarını Değiştirme
Sinir ağlarını değiştirme potansiyeline sahip yeni algoritmalar olabilir. Bununla birlikte, sinir ağlarının özelliklerinden biri, her biri geometrik desenlerde bilgi işlem kaynaklarına düşük talepleri olan basit unsurlar kullanmalarıdır.
Yapay nöronlar, hesaplamaları DSP cihazlarına veya diğer paralel hesaplama donanımlarına eşleyerek paralel olarak (CPU zaman paylaşımı veya döngü olmadan) çalıştırılabilir. Birçok nöronun aslında birbirine benzemesi güçlü bir avantajdır.
Neleri Değiştireceğiz?
Sinir ağları için algoritmik değiştirmeler göz önüne alındığında, bir sinir ağı tasarımının bir algoritma olduğunu ima ederiz. O değil.
Sinir ağı, optimal olanın bazı formülasyonuna dayanarak, girdinin çıktıya doğrusal olmayan bir dönüşümünü gerçekleştirmek için gerçek zamanlı bir devrede birleşmeye yönelik bir yaklaşımdır. Böyle bir formülasyon, tanımlanan bir idealden bir hata veya eşitsizlik ölçüsünün en aza indirilmesi olabilir. En üst düzeye çıkarılması gereken bir sağlık ölçüsü olabilir.
Herhangi bir ağ davranışı için uygunluk belirlemesinin kaynağı dahili olabilir. Biz buna denetimsiz öğrenme diyoruz. Harici uygunluk bilgileri, etiket dediğimiz istenen çıkış değerleri biçiminde giriş vektörleri ile birleştirildiğinde denetimli olarak adlandırdığımız harici olabilir.
Fitness, harici olarak, giriş verileriyle birleştirilmemiş, aksine takviye dediğimiz gerçek zamanlı bir skaler veya vektör olarak da ortaya çıkabilir. Bu, yeniden giriş yapan öğrenme algoritmaları gerektirir. Net davranışsal uygunluk alternatif olarak, yığılmış ağlar veya Laplacian hiyerarşileri gibi diğer yapılandırmalar durumunda sistem içindeki diğer ağlar tarafından değerlendirilebilir.
Matematiksel ve süreç tasarımları seçildikten sonra algoritma seçiminin karşılaştırmalı zeka ile ilgisi yoktur. Algoritma tasarımı, daha çok doğrudan bilgi işlem taleplerini en aza indirmek ve zaman gereksinimlerini azaltmakla ilgilidir. Bu minimizasyon da donanıma ve işletim sistemine bağlıdır.
Değiştirme Belirtildi mi?
Elbette. Ağların daha çok memeli nöronlarına benzemesi daha iyi olurdu.
Bölgesel sinyalleme, sinapslar arasında sinyal iletiminin ötesinde birçok kimyasal sinyal anlamına gelir.
Memeli nörolojisinin ötesine geçmeyi bile düşünebiliriz.
Sinir Ağı Verimliliği
Sıcaklık, Kelvin derecesiyle ölçülebildiğinden, verimlilik bazı evrensel ölçeklerde ölçülemez. Verimlilik sadece bazı teorik idealler üzerinde ölçülen bir değerin bir bölümü olarak ölçülebilir. Paydada bunun maksimum değil ideal olduğunu unutmayın. Termodinamik motorlarda bu ideal, asla çıkışa tam olarak aktarılamayan enerji girişi oranıdır.
Benzer şekilde, sinir ağları hiçbir zaman sıfır zamanda öğrenemez. Sinir ağı, üretimde keyfi olarak uzun bir süre boyunca sıfır hataya ulaşamaz. Bu nedenle, bilgi, dijital otomasyonun doğuşu sırasında Bell Laboratuarlarından Claude Shannon tarafından araştırılan bir kavramdır ve bilgi entropisi ile termodinamik entropi arasındaki ilişki artık teorik fiziğin önemli bir parçasıdır.
Kötü öğrenme verimliliği ya da iyi öğrenme verimliliği olamaz. Mantıksal ve bilimsel terimlerle düşünmek istiyorsak ne kötü performans ne de iyi performans olabilir - çok belirli bir performans senaryoları dizisi için bazı sistem yapılandırmasına göre yalnızca göreceli olarak iyileştirme.
Bu nedenle, iki donanım, işletim sistemi ve yazılım yapılandırması ve göreli değerlendirme için kullanılan tam olarak tanımlanmış bir test paketinin açık bir belirtimi olmadan, verimlilik anlamsızdır.
O cephede gizlenmiş bir umudumuz var. Şu anda , J.Hinton tarafından 'squash' fonksiyonu adı verilen doğrusal olmayan farklı bir aktivasyon kullanan kapsül ağlarımız var .
Kapsül ağlarının kendilerinin bazı eksiklikleri vardır. Böylece sinir ağlarının ötesine bakma yönünde çalışmalar olmuştur. J.Hinton'un makalesini okumadan önce bu blogu iyi bir anlayış için okuyabilirsiniz.
Sinir ağları çok fazla veri ve eğitim gerektirir. Tablo şeklindeki çoğu veri kümesi için karar ağacı tabanlı modelleri kullanmak çok daha iyidir. Çoğu zaman, basit modeller iyi doğruluk sağlamak için yeterlidir. Ancak sinir ağları zaman testine tabi tutuldu. Derin öğrenme devriminin başlamasından bu yana sadece beş ila altı yıl geçti, bu yüzden hala derin öğrenmenin gerçek gücünü bilmiyoruz.