Dijital değerler yalnızca tahmin ise, neden yapay zeka için analoga dönmüyorsunuz?


18

Yirminci yüzyılın analogdan dijital devreye geçişinin ardındaki itici güç, daha yüksek doğruluk ve daha düşük gürültü arzusu tarafından yönlendirildi. Şimdi sonuçların yaklaşık olduğu ve gürültünün pozitif değere sahip olduğu bir yazılım geliştiriyoruz.

  • Yapay ağlarda, bir yakınsak algoritmada sonraki adımları tahmin etmek ve kabul edilebilir yanlışlık ve şüphe düzeylerini tanımlamak için degradeleri (Jacobian) veya ikinci derece modelleri (Hessian) kullanırız . 1
  • Yakınsama stratejilerinde, yakınsama sırasında optimizasyon yüzeyinde yerel minima'yı atlayarak güvenilirliği artırmak için rastgele veya sözde rastgele perturbasyonlar enjekte ederek kasıtlı olarak gürültü ekliyoruz . 2

Mevcut AI sistemlerinde kabul ettiğimiz ve kasten tanıttığımız şey, elektroniği dijital devrelere sürükleyen şeylerle aynıdır.

Neden sinir ağları için analog devrelere geri dönmüyor ve dijital sinyal işleme elemanlarının matrisleri yerine operasyonel amplifikatör matrisleri ile uygulamıyorsunuz?

Yapay ağ öğrenme parametrelerinin değerleri, öğrenilen durumların dijital doğruluk ve rahatlıktan yararlanabilirken ileri yayılma analog avantajlardan faydalanabilecek şekilde D-to-A dönüştürücüler aracılığıyla şarj edilen entegre kapasitörler kullanılarak korunabilir.

  • Daha yüksek hız 3
  • Ağ hücrelerini temsil etmek için daha az transistör büyüklüğü
  • Doğal termal gürültü 4

Analog yapay ağlara yönelik akademik bir makale veya patent araştırması, son kırk yıl boyunca çok fazla çalışma olduğunu ortaya koydu ve araştırma eğilimi korundu. Hesaplamalı analog devreler iyi gelişmiştir ve sinir dizileri için bir temel oluşturur.

Dijital hesaplama ile ilgili mevcut saplantı, AI mimari seçeneklerinin ortak görüşünü bulanıklaştırıyor olabilir mi?

Hibrit analog yapay ağlar için üstün mimari midir?

 


Dipnotlar

[1] if PAC (muhtemelen yaklaşık doğru) İçi Çerçeve olarak kabul edilebilir bir hata ile ilgilidir ϵ ve kabul edilebilir bir şüphe δ belirli model tipleri için öğrenme için gerekli örnek boyutu. ( 1ϵ accuracy değerinin doğruluğu, 1δ bu çerçeveye güveni temsil ettiğini unutmayın .)

[2] Uygun stratejiler ve hiper parametreler kullanıldığında öğrenme sırasında daha hızlı yakınsama için stokastik gradyan inişi gösterilir ve yapay ağların tipik gerçek dünya uygulamalarında en iyi uygulama haline gelir.

[3] Intel Core i9-7960X İşlemci 4,2 GHz turbo hızında çalışırken standart sabit uydu yayını 41 GHz'dir.

[4] Silikon üzerinde termal gürültü, çığ noktasında ters yönlü bir zener diyotlar boyunca elektron sızıntısını güçlendirerek ve filtreleyerek elde edilebilir. Kuantum fenomenlerinin kaynağı Johnson – Nyquist termal gürültüsüdür. Sanguinetti ve diğ. ark. "Bir Cep Telefonunda Kuantum Rastgele Sayı Üretimi" (2014), "Bir dedektör, iletim olasılığı olan kayıplı bir kanal olarak modellenebilir, bunu birim verimi olan bir foton-elektron dönüştürücü takip eder ... ölçülen dağıtım kuantum belirsizliği ile teknik gürültünün birleşimi olabilirsiniz "ve CalTech'in JTWPA çalışması var. Bunların her ikisi de entegre devrelerde gerçekten belirsiz kuantum gürültü üretmek için standartlar haline gelebilir.

Referanslar


1
Bir şey üzerinde olduğunuzu iddia ediyorum. AI'yı analog yongalara koymak için bazı çabalar var (Apple'ın iphone ile bir şeyler yapıyor olabileceğini düşünüyorum). Ne kadar araştırma yapıldığından emin değilim ama eminim bir yerde bazı teknik incelemeler bulabilirsiniz. Kesinlikle araştırmaya değer. Benim tahminim yakında belli sayıda giriş ve çıkışa sahip programlanabilir AI çipleri olabilir (Kinda gibi veriyolu kayıtları).
Zakk Diaz

Bu tam bir cevap değil, ama asıl sorunun maliyet olduğunu sanıyorum. Baskı devreleri ölçekte süper ucuzdur ve küçük partiler halinde hala oldukça pahalıdır. Ayrık GPU'lar zaten seri üretilir ve "yeterince iyi" çalışır. Bir analog çip genellikle sadece bir görevi iyi yapabilir ve tercih edilen modeller hızla değişir. Farklı bir çip yapmak için ayrı bir çip programlanabilir. YSA'lar için "en iyi" bir topoloji bulursak, yine analog yonga yapmak mantıklı olacaktır.
John Doucette

1
Vay. Bu sitedeki ilk günüm ve benimle bir düşünce paylaşan birini buldum. :-D

Yanıtlar:


6

Bence, çeşitli nedenleri var. Her şeyden önce: Esneklik. Modern CPU'lar ve GPU'lar ile hemen hemen istediğiniz her AI modelini ve istediğiniz her boyutta ve karmaşıklıkta yapılandırabilirsiniz. Şu anda kullandığınız modelin birkaç yıl içinde hala uygun olduğundan nasıl emin olabilirsiniz? Belki önümüzdeki birkaç yıl içinde NN'lerde büyük bir atılım olacak? Belki bazı bilim adamları bir yapay zeka geliştirmenin NN'lere, genetik algoritmalara vb. Göre daha iyi bir yolu olduğunu bulurlar. Normal çipler her şeyi halledebilir ve yeterince iyi idare edebilirler. Ancak bunu optimize etmek istiyorsanız para konusunda endişelenmeyin, özel bir mimari geliştirebilirsiniz (bu, farklı şirketler tarafından zaten yapılır, bu da belirli görevlerde büyük bir hız artışı sağlar).

İkinci neden: Seri üretim. Yani, şirketler sonunda yüksek oranda entegre analog AI bileşenleri üretebilirler (örneğin NN yongaları). Ama bu daha büyük bir yatırım olurdu. Ciddi bir AI donanım alternatifi olacak kadar esnek olan birimlerin, CPU'lara ve GPU'lara karşı rekabet edebilecek bir kütle nm üretiminde kolayca üretilip üretilemeyeceği oldukça belirsizdir. Özellikle ikincisi, büyük paralel hesaplama yapmak için oldukça optimize edilmiştir. Ayrıca, makine öğrenimi için ek olarak optimize edilmiş GPU benzeri mimarilerin (birkaç şey yapabilir, ancak çok iyi yapabilirler) gelişimini izlerseniz, bunun analog birimler için zor bir rekabet olacağını görebilirsiniz.

Yukarıdakilerin hepsi, bu alanda hiçbir araştırma olmadığı anlamına gelmez. Bunu elde etmeye çalışan birkaç deney var, ancak bunlar ortak mimariler için henüz 'tehlikeli' değil. Sonunda, AI ve zekayı genel olarak daha iyi anladığımızda ve sadece tweak etmeye çalıştığımızda gelecekte gelecekler, ancak buna oldukça şüpheliyim.

EDIT: Ayrıca, aynı zamanda esnekliğe ait bir şey: 'Normal' dijital donanım üzerinde çalışan AI algoritmaları ile daha iyi deney yapabilirsiniz. Örneğin, belirli yerlerde bir NN'yi kolayca inceleyebilir, giriş verilerini hızlı bir şekilde değiştirebilir veya alternatif veriler sağlayabilirsiniz, gerçekten hiçbir şeye bağlı değilsiniz. Ve her modeli hala tam olarak bilmediğimizden veya anlamadığımızdan, belirli bir görev için daha iyi mimariler vb.Kullanıldığında, 'genç' ve 'deneysel' bir şeyi sabit bir analoga koymak mantıklı değildir. mimari.


Ölçek ekonomisi (şeffaf üretim hacmi) bugün dijital olanı desteklemesine rağmen, 1980'lerde ve 2040'larda değil. Analog, transistör tarafından daha ucuzdur. CUDA çekirdeğinde iplik başına 128.000 transistör ve çoklanmış bir op amp'de sadece 40 transistör vardır. Daha da önemlisi, soru, VLSI ekonomisinin mevcut durumunda ekonomik olan değil, teorik - en teknolojik anlamı olan -. Son 100 yılda teknolojide görebildiğimiz bir model varsa, bugünkü normalin yarının müze parçası olması. - Ödül gereksinimlerini okumak yardımcı olabilir.
FauChristian

Ancak bu senaryoda bu pek benzer değil mi? Bu donanımı ŞİMDİ kitlesel olarak geliştirmek, ekonomik değil, teknolojik değil. Biz yeterince bilmiyoruz.
Ben

"Biz" AI Stack Exchange üyeliği ise, popüler Python kütüphanelerinde zaten uygulanmış olanlara karşı güçlü bir eğilim vardır. Ancak hükümetler ve büyük şirketler, örneğin USAF ve Intel gibi spiking ağları ve analog VLSI ile ilgileniyor gibi görünüyor. Robotik laboratuvarlarından analoga doğru bir itme var ve nöro-bilişsel araştırmacılar YSA'ları orta N'ye layık görmüyorlar. Gerçek nöron, bir ReLU fonksiyonundan binlerce kat daha karmaşıktır. Hangi uygulamanın belirsiz olduğu için baskın olarak ortaya çıkacak, ancak bu, seçenekleri tartışmak için yeterince bilmemekle aynı şey değildir.
FauChristian

Sorunun içine "saf" kelimesini okumuş olabilirsiniz. Devam eden araştırmaların hiçbiri, klavyeler yerine kadranlar ve LCD'ler yerine CRT'ler ile saf analog önermiyor. Literatürdeki ve aktif VLSI geliştirmedeki tüm yeni teklifler iyi anlaşılmış bir paradigma izlemektedir: Programı dijital yapay ağlar olarak öğrenebilen, daha sonra programlanabilirliği veya öğrenme kapasitesini kaldırmadan silikonda gerçekleştirebilen programlanabilir (sabit olmayan) bir benzetmeyi simüle edin. Gerçek zamanlı sinyaller analog, dijital veya her ikisi olabilir, ancak GPU veya DSP'de olduğu gibi çipin genel kontrolü dijitaldir.
FauChristian

Ödül dönemi yakında sona erecek ve analog öğrenmenin mantıklı olup olmadığı, çünkü hazır bulunan kuantum gürültüsünden faydalanabileceği henüz bu cevapta ele alınmamıştır. Tahmin, soru ile belirtilmedi. Ayrıca, algılayıcılar, evrişim ve sivri ağların analog hesaplamasına hedeflenmiş gibi görünen büyük bütçe çok iyi olabilir, ancak ancak uzun vadeli uygulanabilirlik rasyonel ise. Böylece soru.
FauChristian

6

Hızlı cevap

Intel Nirvana'yı satın aldığında, analog VLSI'nin yakın gelecekteki 1, 2, 3 nöromorfik yongalarındaki yeri olduğuna dair inançlarını belirttiler .

Bunun, analog devrelerdeki doğal kuantum gürültüsünden daha kolay yararlanma yeteneği nedeniyle olup olmadığı henüz halka açık değildir. Tek bir VLSI yongasına paketlenebilen paralel aktivasyon fonksiyonlarının sayısı ve karmaşıklığı nedeniyle daha olasıdır. Analog, bu açıdan dijitale göre büyüklük avantajı emirlerine sahiptir.

AI Stack Exchange üyelerinin güçlü bir şekilde belirtilen teknoloji evrimini hızlandırmaları muhtemelen yararlıdır.

Yapay Zekadaki Önemli Eğilimler ve Eğilimler

Bu soruya bilimsel olarak yaklaşmak için, eğilimlerin önyargısı olmadan analog ve dijital sinyal teorisini karşılaştırmak en iyisidir.

Yapay zeka meraklıları web'de derin öğrenme, özellik çıkarma, görüntü tanıma ve indirmek ve hemen denemeye başlamak için yazılım kütüphaneleri hakkında çok şey bulabilirler. Bu, çoğu kişinin ayaklarını teknoloji ile ıslatmanın yoludur, ancak AI'ya hızlı giriş, aşağı tarafına da sahiptir.

Tüketici karşıtı yapay zekanın erken başarılı uygulamalarının teorik temelleri anlaşılmadığında, bu temellerle çatışan varsayımlar oluşur. Analog yapay nöronlar, çivili ağlar ve gerçek zamanlı geri bildirim gibi önemli seçenekler göz ardı edilir. Formların, yeteneklerin ve güvenilirliğin iyileştirilmesi tehlikeye atılır.

Teknoloji geliştirmedeki coşku daima en azından eşit bir rasyonel düşünce ölçüsüyle temperlenmelidir.

Yakınsama ve Kararlılık

Geri besleme ile doğruluk ve kararlılığın elde edildiği bir sistemde, hem analog hem de dijital sinyal değerleri her zaman sadece tahminlerdir.

  • Yakınsama algoritmasındaki dijital değerler veya daha doğrusu yakınsama için tasarlanmış bir strateji
  • Kararlı bir işlemsel yükselteç devresindeki analog sinyal değerleri

Dijital algoritmada hata düzeltmesi ile yakınsama ile analog enstrümantasyonda geri besleme yoluyla elde edilen kararlılık arasındaki paralellik anlaşılması bu soru hakkında düşünmede önemlidir. Bunlar, solda dijital ve sağda analog olan çağdaş jargon kullanan paralelliklerdir.

┌───────────────────────────────┬───────────────── ─────────────┐
Artificial * Dijital Yapay Ağlar * │ * Analog Yapay Ağlar * │
├───────────────────────────────┼───────────────── ─────────────┤
│ İleri yayılma │ Birincil sinyal yolu │
├───────────────────────────────┼───────────────── ─────────────┤
│ Hata fonksiyonu │ Hata fonksiyonu │
├───────────────────────────────┼───────────────── ─────────────┤
│ Yakınsak │ Kararlı │
├───────────────────────────────┼───────────────── ─────────────┤
│ Gradyanın doygunluğu │ Girişlerde doygunluk │
├───────────────────────────────┼───────────────── ─────────────┤
│ Aktivasyon fonksiyonu │ İleri aktarım fonksiyonu │
└───────────────────────────────┴───────────────── ─────────────┘

Dijital Devrelerin Popülerliği

Dijital devre popülaritesinin artmasındaki birincil faktör, gürültünün kontrol altına alınmasıdır. Günümüzün VLSI dijital devreleri, arıza için uzun ortalama sürelere sahiptir (yanlış bir bit değerinin karşılaşıldığı durumlar arasındaki ortalama süre).

Gürültünün sanal olarak ortadan kaldırılması, dijital devreye, ölçüm, PID kontrolü, hesaplama ve diğer uygulamalar için analog devreye göre önemli bir avantaj sağladı. Dijital devre ile beş ondalık doğruluk basamağı ölçülebilir, kayda değer hassasiyetle kontrol edilebilir ve tekrarlanabilir ve güvenilir bir şekilde dec bin ondalık basamağa kadar doğruluk hesaplanabilir.

Öncelikle havacılık, savunma, balistik ve karşı önlemler bütçeleriydi. Sayısal devre üretiminde ölçek ekonomisine ulaşmak için üretim talebini artırdı. Ekran çözünürlüğü ve oluşturma hızı talebi GPU kullanımını dijital sinyal işlemcisi olarak kullanıyor.

Bu büyük ölçüde ekonomik güçler en iyi tasarım tercihlerine neden oluyor mu? Dijital tabanlı yapay ağlar değerli VLSI gayrimenkullerinin en iyi kullanımı mıdır? Bu sorunun meydan okuması bu ve bu iyi bir soru.

IC Karmaşıklığının Gerçekleri

Bir yorumda belirtildiği gibi, silikonda bağımsız, yeniden kullanılabilir bir yapay ağ nöronu uygulamak on binlerce transistörün kullanılmasını gerektirir. Bunun nedeni büyük ölçüde her bir aktivasyon katmanına giden vektör-matris çarpımıdır. Bir vektör-matris çarpımının ve katmanın işlemsel kuvvetlendirici dizisinin uygulanması için yapay nöron başına sadece birkaç düzine transistör gerekir. İşlemsel yükselteçler ikili adım, sigmoid, soft plus, ELU ve ISRLU gibi işlevleri yerine getirmek için tasarlanabilir.

Yuvarlamadan Dijital Sinyal Gürültüsü

Dijital sinyaller gürültüsüz değildir çünkü çoğu dijital sinyal yuvarlanır ve dolayısıyla yaklaşık değerlerdir. Geri yayılmadaki sinyalin doygunluğu ilk önce bu yaklaşımdan üretilen dijital gürültü olarak görünür. Sinyal her zaman aynı ikili gösterime yuvarlandığında daha fazla doygunluk meydana gelir.

veknN-

v=Σn=0N-1n2k+e+N--n

Programcılar bazen 0.2 olması beklenen cevaplar 0.20000000000001 olarak göründüğünde çift ya da tek kesinlikli IEEE kayan nokta sayılarında yuvarlamanın etkisiyle karşılaşırlar. Beşinci bir ikili sayı olarak mükemmel bir doğrulukla temsil edilemez, çünkü 5 bir 2 faktörü değildir.

Medya Üzerinden Bilim Hype ve Popüler Eğilimler

Bilimsel araştırma ve teknoloji fizibilite çalışması yapanların kesinlikle ekonomi bilincine sahip olmaları gerekir, ancak teknolojinin yönü teknik değer ve fayda tarafından yönlendirilmelidir. Bu kriterler karşılanırsa, finans camiasının bu değerlere ikna olması sadece bir zaman meselesidir Teorik fiziğin finansal değeri zayıf görünene kadarE=mc2. Netcom ilk kez bir e-posta adresiyle genel web erişiminde arama satmadan önce, İnternet ARPANET olarak adlandırıldığında, küresel bir kamu ağının finansal değeri zayıf görünüyordu.

Makine öğreniminde, birçok teknoloji ürününde olduğu gibi, dört temel kalite metriği vardır.

  • Verimlilik (hızı ve kullanım ekonomisini artırır)
  • Güvenilirlik
  • doğruluk
  • Anlaşılabilirlik (sürdürülebilirliği artıran)

Bazen, ancak her zaman değil, birinin başarısı diğerinden ödün verir, bu durumda bir denge kurulmalıdır. Degrade iniş, bu dördünü güzel bir şekilde dengeleyen dijital bir algoritmada gerçekleştirilebilen bir yakınsama stratejisidir, bu nedenle çok katmanlı algılayıcı eğitiminde ve birçok derin ağda baskın stratejidir.

Bu dört şey, Bell Laboratuarlarındaki ilk dijital devrelerden veya vakum tüpleriyle gerçekleştirilen ilk flip floptan önce Norbert Wiener'in erken sibernetik çalışmalarının merkezinde yer alıyordu. Sibernetik terimi, dümen ve yelkenlerin sürekli değişen rüzgarı ve akımı telafi etmek zorunda kaldığı ve geminin istenen liman veya limanda birleşmesi gereken Yunan dümeni (belirgin kyvernítis ) anlamına gelir.

Bu sorunun trend odaklı görünümü, VLSI'nin analog ağlar için ölçek ekonomisi elde etmek için gerçekleştirilip gerçekleştirilemeyeceği fikrini çevreleyebilir, ancak yazarının verdiği kriterler trend odaklı görüşlerden kaçınmaktır. Durum böyle olmasa bile, yukarıda belirtildiği gibi, analog devreli yapay ağ katmanları üretmek için dijital olanlardan çok daha az transistör gereklidir. Bu nedenle, VLSI analoğunun, başarıyı gerçekleştirmek için dikkat çekildiyse makul bir maliyetle çok mümkün olduğunu varsayarak soruyu cevaplamak meşrudur.

Analog Yapay Şebeke Tasarımı

1992'de IBM / MIT ortak girişimi, Intel'in Nirvana, Google, ABD Hava Kuvvetleri de dahil olmak üzere tüm dünyada analog yapay ağlar araştırılıyor 5 , Tesla ve diğerleri ve bazıları yorumlarda ve buna ek olarak soru.

Yapay ağlar için analoga ilgi, öğrenmeye dahil olan paralel aktivasyon fonksiyonlarının sayısıyla ilgilidir, VLSI çip gayrimenkulünün bir milimetre karesine sığabilir. Bu büyük ölçüde kaç transistörün gerekli olduğuna bağlıdır. Zayıflatma matrisleri (öğrenme parametresi matrisleri) 4 , çok sayıda transistör ve dolayısıyla önemli bir VLSI gayrimenkul yığını gerektiren vektör-matris çarpımı gerektirir.

Tamamen paralel eğitim için kullanılabilecekse, temel çok katmanlı algılayıcı ağında beş bağımsız fonksiyonel bileşen bulunmalıdır.

  1. Her katmanın aktivasyon fonksiyonları arasındaki ileri yayılma genliğini parametreleştiren vektör matris çarpımı
  2. Parametrelerin tutulması
  3. Her katman için etkinleştirme işlevleri
  4. Geri yayılmaya uygulanacak aktivasyon katmanı çıkışlarının tutulması
  5. Her katman için aktivasyon fonksiyonlarının türevi

Analog devrede, sinyal iletimi yönteminin doğasında bulunan daha büyük paralellik ile, 2 ve 4 gerekli olmayabilir. Spice gibi bir simülatör kullanılarak devre tasarımına geri besleme teorisi ve harmonik analiz uygulanacaktır.

Maliyeti göz önünde bulundurmak için, bir denklem standart VLSI paketleme maliyetinin bir fonksiyonu olarak VLSI ürününün maliyetini makul bir doğrulukla tahmin edebilir cp, üretim hacminin bir fonksiyonu olarak maliyeti temsil eden fonksiyon c(r), üretim hızının zaman ve maliyet fonksiyonu olarak fonksiyonu r(t,c), zaman t, maliyetin kendisi, her ağ dizini katmanının genişlikleri ben için ben katmanlar wben, zayıflatıcı başına transistör sayısı 4 τp, and the number of transistors per activation and its derivative circuits τa and τd respectively.

c=cpc(r(t,c)dt)(i=0I2(τpwiwi1+τawi+τdwi)+τawI1+τdwI1)

For common values of these circuits in current analog integrated circuits, we have a cost for analog VLSI chips that converges over time to a value at least three orders of magnitude below that of digital chips with equivalent training parallelism.

Directly Addressing Noise Injection

The question states, "We are using gradients (Jacobian) or second degree models (Hessian) to estimate next steps in a convergent algorithm and deliberately adding noise [or] injecting pseudo random perturbations to improve convergence reliability by jumping out local wells in the error surface during convergence."

The reason pseudo random noise is injected into the convergence algorithm during training and in real time re-entrant networks (such as reinforcement networks) is because of the existence of local minima in the disparity (error) surface that are not the global minima of that surface. The global minima is the optimal trained state of the artificial network. Local minima may be far from optimal.

Bu yüzey, parametrelerin hata fonksiyonunu (bu oldukça basitleştirilmiş durumda 6 ) ve küresel miniminin varlığını gizleyen bir yerel minimayı gösterir. Yüzeydeki düşük noktalar, optimum eğitim yakınsamasının yerel bölgelerinin kritik noktalarındaki minimi temsil eder. 7,8

Error Surface Showing How Global Optimum Can be Missed

Hata fonksiyonları, eğitim sırasında mevcut ağ durumu ile istenen ağ durumu arasındaki eşitsizliğin bir ölçüsüdür. Yapay ağların eğitimi sırasında amaç, bu eşitsizliğin küresel minimumunu bulmaktır. Böyle bir yüzey, numune verilerinin etiketli ya da etiketsiz olması ve eğitim tamamlama kriterlerinin yapay ağın içinde mi yoksa dışında mı olduğunu gösterir.

Öğrenme oranı küçükse ve başlangıç ​​durumu parametre uzayının kökenindeyse, gradyan inişini kullanan yakınsama, sağdaki küresel minimum değil, yerel bir minimum olan en soldaki kuyucuğa yakınlaşır.

Yapay ağı öğrenme için başlatan uzmanlar, iki minima arasındaki orta noktayı seçecek kadar akıllı olsa bile, o noktadaki gradyan hala sol elin minimumuna doğru eğimlidir ve yakınsama en uygun olmayan bir eğitim durumuna ulaşacaktır. Eğitimin optimitesi kritikse (ki bu sıklıkla olduğu gibi), üretim kalitesi sonuçlarına ulaşmak için eğitim başarısız olacaktır.

Kullanımdaki bir çözüm yakınsama işlemine entropi eklemektir, ki bu genellikle basit bir sahte rasgele sayı üretecinin zayıflatılmış çıkışının enjeksiyonu. Daha az kullanılan bir başka çözüm, eğitim sürecini dallandırmak ve ikinci bir yakınsak işlemde büyük miktarda entropinin enjeksiyonunu denemektir, böylece paralel bir araştırma ve biraz vahşi arama yapılır.

Son derece küçük analog devrelerdeki kuantum gürültünün entropisinden sinyal spektrumunda dijital bir sahte rastgele üretecinden daha fazla tekdüzeliğe sahip olduğu ve daha yüksek kaliteli gürültüyü elde etmek için çok daha az transistör gerekli olduğu doğrudur. VLSI uygulamalarında bunu yapmanın zorluklarının aşılıp aşılmadığı henüz hükümetlere ve şirketlere yerleştirilmiş araştırma laboratuvarları tarafından açıklanmamıştır.

  • Eğitim hızını ve güvenilirliğini arttırmak için ölçülen miktarlarda rasgele enjekte etmek için kullanılan bu tür stokastik elemanlar, eğitim sırasında dış gürültüye karşı yeterince bağışık mı olacak?
  • İç konuşmalardan yeterince korunacaklar mı?
  • VLSI üretiminin maliyetini yüksek oranda finanse edilen araştırma işletmeleri dışında daha fazla kullanım noktasına ulaşmak için yeterince düşürecek bir talep ortaya çıkacak mı?

Her üç zorluk da akla yatkındır. Kesin ve çok ilginç olan şey, tasarımcıların ve üreticilerin yüksek hızlı eğitim elde etmek için analog sinyal yollarının ve aktivasyon fonksiyonlarının dijital kontrolünü nasıl kolaylaştırdığıdır.

Dipnotlar

[1] https://ieeexplore.ieee.org/abstract/document/8401400/

[2] https://spectrum.ieee.org/automaton/robotics/artificial-intelligence/analog-and-neuromorphic-chips-will-rule-robotic-age

[3] https://www.roboticstomorrow.com/article/2018/04/whats-the-difference-between-analog-and-neuromorphic-chips-in-robots/11820

[4] Zayıflatma, bir sonraki katmanın bir aktivasyonuna giriş için başkaları ile toplanacak bir ilave sağlamak için bir harekete geçirme işleminden bir sinyal çıkışının bir çalıştırılabilir perametre ile çarpılmasını ifade eder. Bu bir fizik terimi olmasına rağmen, genellikle elektrik mühendisliğinde kullanılır ve daha az eğitimli çevrelerde katman girdilerinin ağırlıklandırılması olarak adlandırılan şeyi sağlayan vektör-matris çarpımının işlevini tanımlamak için uygun terimdir.

[5] http://www.dtic.mil/dtic/tr/fulltext/u2/a256621.pdf

[6] Yapay ağlarda ikiden fazla parametre var, ancak bu çizimde sadece ikisi tasvir edilmiştir, çünkü arsa sadece 3 boyutlu olarak anlaşılabilir ve hata fonksiyon değeri için üç boyuttan birine ihtiyacımız vardır.

[7] Yüzey tanımı: z=(x2)2+(y2)2+60401+(y1.1)2+(x0.9)240(1+((y2.2)2+(x3.1)2)4)

[8] Associated gnuplot commands:

set title "Error Surface Showing How Global Optimum Can be Missed"
set xlabel "x"
set ylabel "y"
set pm3d at b
set ticslevel 0.8
set isosample 40,40
set xrange [0:4]
set yrange [0:4]
set nokey
splot (x-2)**2 + (y-2)**2 + 60 \
    - 40 / sqrt(1+(y-1.1)**2+(x-0.9)**2) \
    - 40 / (1+(y-2.2)**2+(x-3.1)**2)**4

4

Digital Instrumentation of the Analog Cells

One of the key challenges in analog artificial networks is that network instrumentation would be most practical if digital. Any VLSI implementation of analog perceptrons, convolutions, or spiking networks will likely need to have digital components in a hybrid arrangement for several functions.

  • Health indicators
  • Fault indicators
  • Archive and retrieval of learned parameters1
  • Overall system control
  • Setting hyper-parameters
  • Operational statistics
  • Introspection for development and debugging
  • Break points
  • Auditability

This means that the realization of a general purpose analog artificial learning network will require A-to-D and D-to-A conversion.2 The VLSI design challenge then becomes avoiding the build-up of transistors from the introduction of a large number of conversion blocks. Such would defeat the density advantage of the analog realization of forward and backward propagation.

The likely solution is to use a latching matrix to distribute signals from the D-to-A converters to capacitors and the low leakage switching matrix to select which value will be read by the A-to-D converters. This must be done without introducing digital noise into the analog paths and without degrading the stored charges or loss of accuracy in charging them.

How significant the number of additional transistors and routes in an out of the primary network circuit would be is can only be found by exercising a VLSI design process.

Important Open Source Contributions

The University of Massachusetts introduced the open source BindsNet repository3,4 in February 2018. It simulates analog spiking networks with digital software and hardware and leverages GPU acceleration through PyTorch.

Bu, spiking ağ tasarımları ve stratejileri hakkında günümüzde denemeyi kolaylaştırır. Simülasyonu kullanarak başarılı olmak, eğer yeterince önemli olursa, üstün VLSI tasarımlarına yol açacaktır.


Dipnotlar

[1] Herhangi bir pratik öğrenme sisteminde, öğrenilen parametreler VLSI uygulamasından çıkarılmalı, bir veritabanında saklanmalı ve dağıtım, kusur kökü neden analizi, ölçeklendirme ve olağanüstü durum kurtarma. Kaydetme ve yükleme, eğitim sırasında ve gerçek saha kullanımı sırasında bile dönemler arasında bile VLSI hibrit analog yapay ağların temel bir özelliği olmalıdır.

[2] Yapay bir ağın öğrenilmiş durumunu kapasitörlerde süresiz olarak tutamaz. Kondansatörler standart CMOS işlemlerinde tasarlanan analog devreler için baskın pasif bileşen haline gelmesine rağmen, çok fazla kapasiteye sahip olamazlar ve sızıntı sıfır değildir. Kapasitif depolama devrelerinin yarılanma ömrü ve gerekli parametre değerlerinin doğruluğu, bir okuma ve koşullu yeniden güncelleme döngüsünün oranını belirleyecektir.

[3] BindsNet open source repository

[4] BindsNET [paper]: A machine learning-oriented spiking neural networks library in Python for the Harvard U publication of the abstract from the BindsNet paper.


4

I am surprised no one mentioned some of the specific research directions in the analog AI field. And also to clarify Artificial Intelligence is not exactly the same as Machine Learning as this answer suggests. Recent advances in analog computation has only been in the field of Machine Learning.

Analog CMOS:

First off let us talk about the earliest analog implementations of neurons. Dr.Giacomo Indiveri, et al has been few of the pioneers in the field. Although with CMOS logic you can design spiking Neural Nets with STDP (Spike Time Dependent Plasticity), it is difficult to make use of in Machine Learning algorithms. Human brain is yet to be fully understood, especially how it communicates complex information with spikes. The spike based networks are good in performing relatively small image recognition and low complexity tasks (Most papers seem to be more concerned about improving the performance rather than apply to highly complex tasks). Due to the sheer number of transistors available we might be able to make use of it in complex tasks.

The best example would be Google is using this idea of low precision in TPU's and compensating precision, by using huge number of processing units which is causing some kind of trade-off between time,precision and area. This can be analogous to huge number of transistors in a processor albeit with low precision. (An in-depth look at Google’s first Tensor Processing Unit (TPU))

NOTE: Some might argue CMOS technology falls under digital domain, but since we are not specifically using CMOS here to perform any digital operation I like to think of it as analog.

Spike based tasks are apparently quite good for Winner Take All networks (kind of like Self Organising Maps), so it is the general way of implementing Machine Learning Algorithms in VLSI chips.

Spike based networks do not have ideal memory, you cannot have high precision weights. They have proposed to implement biological weights or synapses or memory using capacitors, but apparently it faces problems similar to normal silicon chips, like charge leakage and also from other Silicon based non-idealities and from what I understood, they also can model limited weights (like -1, 0, 1).

Digital Computation:

Burada dijital hesaplama geliyor. Yüksek miktarda kayan nokta temsili gerektiren görevler sivri uçlar tarafından basitçe uygulanamaz, çünkü henüz bu konu için biyofiziksel veya gerçek bir nöronun herhangi bir yönünü tam olarak bilemiyoruz veya taklit edemiyoruz. Dijital hesaplama, istediğimiz kadar hassasiyetle (böyle bir CPU tasarlarsak) daha fazla bilgi aktarmaya yardımcı olur. Darboğazlar, Von Neumann mimarisinin dijital hesaplama için bilinen bir dezavantajı olmasına rağmen, sivri uçlarla bilgi gösterimi kadar bir sorun değildir. Sivri uçlar her zaman sabit bir büyüklüğe sahiptir, muhtemelen bilgi aktarmanın tek yolu sıklığı ve işaretidir (uyarıcı veya engelleyici). Ayrıca modern bilgisayarlarda saat hızları oldukça yüksektir.

Memristors: Yeni bir yön

Burada en son buluş, Memristor geliyor . Bu şimdiye kadar Makine Öğreniminde en umut verici analog cihaz oldu. Memristorlar 70'lerde tahmin edilen ve sadece 2008'de üretilen çok yeni bir konsepttir.Temel olarak RRAM veya Dirençli RAM'lerdir. Burada, Direnç veya Memristor'un direnci , nöronun biyofiziksel modellerine çok benzeyen geçmiş tarihle doğrudan ilişkilidir. Ayrıca memisörlerin çapraz çubuk dizileri (temel olarak elektrik kontakları matrisi) kullanılarak kolayca eğitilebilirler (çapraz çubuk dizileri ağırlık matrislerini temsil eder, sıralar boyunca veya sütunlar boyunca uygulanan voltaj ileri yayılımı veya geriye doğru yayılımı belirler).

Thus Memristor gives a real analog spin to Machine Learning algorithms. Unfortunately, due to its recent arrival there are a lot of problems which are yet to be resolved.

  • Memristors can degrade quite quickly, that is they have limited training cycles.
  • Memristors introduce a lot of noise, which apparently does not help in the cause of regularisation as a ML engineer might think.
  • Exotic elements required to make it (TiO2 and HfO2) the users for Memristors in academic circles are very limited. But a few labs working on this area are:

Nano-electronics Research Laboratory, Purdue University

Electrochemical Materials, ETH Zurich

Human Brain Project

The MARCS Institute for Brain, Behaviour and Development

Neuromorphic Photonics:

Recently, there has been an interest in the field of Neuromorphic photonics. Here is a short article on the same. I am not familiar with the internal workings of the same, but AFAIK it involves the transmission of information in optical form within the processing chip itself. This leads to some of advantages over normal analog or digital circuits:

  • Faster information processing.
  • Higher information density.
  • Better data fidelity due to very less losses.

Side note: Some of my observations are fact based while some are purely from memory, so I might be wrong (since I am a beginner in this field). Feel free to point out mistakes.
DuttaA

2

I believe that most people have pretty much answered the question diligently in a really informative way. I would just like to say that we use digital circuits commonly because that is the existing technology and that definitely analog circuits seem really promising.

However, at this moment, this idea is not very well-developed despite the amount of research done in the past years. No company so far, has tried to implement the idea at a commercial level where they are making such chips for use outside their labs.

Besides, this idea feels like a new approach and has a great potential.

But, with our lack of understanding about how some models work, some just don't for a problem; how neural networks really solve such complex problems and many other things.Therefore, it is still quite a distant technology to reach its full potential.

PS I'm still a beginner in this field and think that my opinion does not count so, if I was redundant anywhere or failed to give you the expected answer then, I sincerely regret it.


This answer shows thought. It is true too that existing technology does not show as much progress with programmable analog VLSI as digital. ... What is unknown is the result of U.S. Navy and DARPA analog control R&D that has been amply funded for decades. Only initial documents have been declassified. ICBM and countermeasure technology may all be analog intelligence circuits in the 100 GHz range. Or not. ... Your writing was neither redundant nor naive. Surely, in the open source, these technologies are just starting to be seen. Good answer. Feel free to leave it as is or develop it further.
FauChristian

2

One can also approach the question from the information theory aspect:

There are two trade/offs to choose from:

Analog information that may represent information in a more precise/specific way, but limited in quantity.

Digital information that doesn't fully represent the real world, but may contain unlimited amount of information within a few bits. A good example could be something like a incrementing for loop:

i = 0
while True:
   print(i)
   i += 1

Which one is more powerful then?


That is generally true. Think about what that means to learning in the context of AI. We have simulated various kinds of learning in machines via rules systems with meta rules, artificial networks, extensions to Markov chain, fuzzy logic and a wide variety of other techniques and architectures. When learning occurs, there is some sort of optimal behavior that the learning attempts to acquire. How can analog or digital systems converge on or track (in real time) to that optimal behavior, and which has a long term advantage?
FauChristian

1

Hava Siegelmann

On the first look Analog computing is superior to digital one. Quantum computers are faster than Von-Neumann computers and neuromorphic chips need less energy than Intel CPUs. Also from a theoretic point of view many speaks for analog computers. Hava Siegelmann has researched the Super-turing capability of neural network, which means that an analog computer can emulate a digital one but not the other way around. So why should we not using analog computing?

Stephen Wolfram

The reason has to do with the education system. Classical mathematics which is teached in schools is analog mathematics. It is based on slide rules, logarithm table and the thinking in circuits. In contrast, thinking in discrete values of an algorithm and describe the world in zero and ones is fundamental different and leads us to a new kind of mathematics. Stephen Wolfram has explained, that the understanding of cellular automatons is an important step to describe the universe and he is right. Ignoring analog mathematics and preferring turing capable computer languages is a powerful method in education. It helps not only to become familiar with computers but with all the other things like medicine, literature and economy too. Even if analog machines are technical superior we should prefer slow but discrete Turing-machines, especially these one which implements AI-related algorithms.

Matematik öğretimi

To understand the difference between digital and analog computation we must focus on the mathematics itself which is utilized in schools. If the idea is to push analog computation forward, the appropriate kind of mathematics is grouped around electrical fields, integration and differentiation. In schools this is teached under the umbrella term “Mathematical analysis”. This topic was very important in the past, because analysis helps to build bridges, machines and cars. In all of these domains vector algebra for describing geometric space is used.

Analog hesaplama çok güçlü ise, neden dijital matematiğe ihtiyaç duyan var? Algoritma ile ilgili. Planimetre ve diferansiyel analizörün sunduğu şey programlama yetenekleridir. Algoritmalar ve yapay diller tanımlamak mümkün değildir. Matematik tarihine bir bakış, algoritma teorisinin geçmişte çok yaygın olmadığını göstermektedir. Modern matematikte Lambda hesabı ve Durdurma problemi terimi altında tartışılmaktadır .

Komik olan şey, ilk bakışta Lamda hesabının pratik bir uygulaması olmamasıdır. Birisi bir köprünün alanını hesaplamak istiyorsa gerekli değildir. Algoritma teorisi, eleştirel düşünceyi geliştirmek için bir düşünce okuludur. İnsanların ihtiyaç duyduğu bir felsefedir, makineler tarafından değil.


Nice that you gave Seigelmann mention. The second paragraph is difficult to follow logically. Certainly education is central to this question, and DNA sequencing and digital imaging have definitely improved medicine. Can you elaborate on how literature has improved? Some would argue that digital computing has worsened the economy volatility, but more central to the bounty requirements, why anyone would prefer slow discrete over fast continuous doesn't follow from Wolfram's statement. There is no reference to the statement either. Can you provide a reference and provide the missing logic?
FauChristian
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.