Birçoğunun gerçek web, mobil ve iş istasyonu uygulamalarına güçlendirilmiş öğrenme dediklerini tanıtmanın bir yolu vardır.
Askeri organizasyonlar yapıyor, film endüstrisi yapıyor, yazılım merkezli şirketler yapıyor ve ben de Fortune 500 işletmeleri ve küçük işletmeler için yaptım. FaceBook'un yüz tanıma robotlarından Google Translate'e, USPS posta kodu tanıma sistemlerine, otonom uçuş ve trafik kontrol sistemlerine kadar daha büyük sistemlere gömülü her türlü sistem bileşeninde uyarlanabilir öğrenme bileşenleri vardır. Bilgisayar destekli tasarım yazılımı (CAD) kesinlikle uygulanabilir bir hedeftir.
Takviye Esası
Olayları tanımlayan bir dizi vektör düşünün. İki alt seri A ve B'ye ayrıldığını düşünün. Sinir ağı (yapay veya biyolojik) A kullanılarak eğitilebilir.
Eğitim denetlenebilir, yani vektörün boyutlarından biri etiket olarak kabul edilir ve bu nedenle optimal olarak tahmin edilecek bağımlı değişken. Diğer boyutlar daha sonra gerçekler veya giriş sinyalleri ve dolayısıyla tahmin için kullanılacak bağımsız değişkenler haline gelir. Özellik çıkarma ile eğitim gözetimsiz olabilir.
Her iki durumda da, B'den önce A sağlandığında ve B gelmeden önce üretimde (gerçek kullanım) gerçekleştirilmesi beklendiğinde, B'nin daha sonraki varışında bir seçenek sunulur.
- A ile egzersiz sırasında yapılan ağırlıkları ve meta parametre ayarlamalarını silin ve birleştirilmiş A ve B serileri ile eğitimi yeniden çalıştırın.
- B ile eğitime devam edin, bu durumda ağ A ile önyargılı olur ve sonuç B sonra A ile eğitim ile elde edilen sonuçtan farklı olur.
- Yukarıdaki 1 numaralı seçenek için gereken kaynak tüketiminden kaçınırken A ile ilk eğitimin yanlılığını sınırlamanın bir yolunu bulun.
Seçim # 3 birçok durumda en iyi seçimdir, çünkü # 1 ve # 2 seçeneklerinin faydalarını içerir. Matematiksel olarak, # 3, A serisinden öğrenilenlerin bir şekilde önlenmesini kolaylaştırarak yapılır. Sinir ağı ağırlıkları ve meta parametre ayarlamaları düzeltmeye açık hale getirilmelidir, çünkü yeni deneyim bunu gerektirdiğini göstermektedir. Saf bir yaklaşım, fizik, kimya ve sosyal bilimlerdeki birçok fenomende doğal bozulmayı modelleyen ters üstel fonksiyon matematiksel olarak formüle edilebilir.
P = e -nt , burada P gerçekte hala etkili olma olasılığıdır, n geçmişte öğrenilen bilgilerin bozulma oranıdır ve t zaman damgası, alt sıra (parti) numarası gibi bir miktar ileri ilerleme ölçüsüdür, olgu sıra numarası veya olay numarası.
A ve B alt serileri durumunda, yukarıdaki formül öğrenme mekanizmasında bir şekilde uygulandığında, A'nın eğitimi, B'yi kullanmaya devam eden eğitimden sonra nihai sonuca daha az önyargı verecektir, çünkü A için t daha azdır. B'ye göre t , mekanizmaya B'nin muhtemelen daha uygun olduğunu söyler.
A ve B'yi tekrar tekrar yarıya bölerek, daha fazla parçalı alt seri yaratırsak, önceki bilgilerin kademeli olarak bozulmasına izin verme fikri hem geçerli hem de değerli kalır. Ağın, eğitim için kullanılan ilk bilgiye olan önyargısı, dar görüşlülüğün psikolojik kavramlarına eşdeğerdir. Memelilerin beynine dönüşen öğrenme sistemleri, açık fikirliliği teşvik etmek için geçmiş şeylere olan ilgiyi unutuyor ya da kaybediyor gibi görünüyor; bu, yeni bilginin öğrenmek için daha güçlü kalıplar içermesi durumunda yeni öğrenmenin bazen önceki öğrenmeyi önermesinden başka bir şey değildir.
Daha yeni örnek verilerin, eski örnek verilerden aşamalı olarak daha ağır basmasına izin vermenin İKİ nedeni vardır.
- İleri öğrenmede daha yeni olayları yeterince tartmak için daha önceki öğrenmenin yanlılığının yukarıdaki şekilde kaldırılması, deneyimlenen (eğitilmiş) tüm olaylar sistemin öğrenmeye çalıştığı dış dünya hakkında makul gerçekleri temsil ediyorsa mantıklıdır.
- Dış dünya değişiyor olabilir ve eski öğrenme aslında alakasız ve hatta yanıltıcı olabilir.
Öğrenme devam ettikçe, önceki bilginin bozulmasının önemini yavaş yavaş azaltma ihtiyacı, pekiştirmenin iki önemli yönünden biridir. İkinci yön, geri bildirim sinyalizasyonu fikri üzerine inşa edilmiş bir dizi düzeltici kavramdır.
Geribildirim ve Takviye
Güçlendirilmiş öğrenmede bir geri bildirim sinyali, ağrı, zevk, memnuniyet ve sağlık gibi bilinen psikolojik kavramlara eşdeğer olan makine öğrenmesidir. Öğrenme sistemine, özellik çıkarma, gruplamaların bağımsızlığı veya girdi olayı özellikleri ile etiketleri arasındaki ilişkiye yaklaşan bir nöral net ağırlık matrisi bulma hedefinin ötesinde eğitimi yönlendirmek için bilgi verilir.
Sağlanan bilgiler, memelilerde olduğu gibi dahili olarak önceden programlanmış örüntü tanımadan veya harici olarak ödül ve cezadan kaynaklanabilir. Güçlendirilmiş makine öğreniminde geliştirilen teknikler ve algoritmalar, bu ek sinyalleri sıklıkla (işlemede zaman dilimleme kullanarak) veya sürekli olarak paralel işleme mimarilerinin işlem birimlerinin bağımsızlığını kullanarak kullanır.
Bu çalışma MIT'de Norbert Wiener tarafından öncülük edilmiş ve Sibernetik (MIT Press 1948) adlı kitabında ortaya konmuştur. Sibernetik kelimesi , Gemilerin yönlendirilmesi anlamına gelen daha eski bir kelimeden gelir . Dümenin rotada kalması için otomatik hareketi ilk mekanik geri besleme sistemi olabilir. Çim biçme makinenizde muhtemelen bir tane vardır.
Uyarlamalı Uygulamalar ve Öğrenme
Bir dümen konumu veya bir çim biçme makinesi gaz kelebeği için gerçek zamanlı olarak basit adaptasyon öğrenmemektedir. Bu adaptasyon genellikle bir çeşit doğrusal PID kontrol şeklidir. Günümüzde yaygınlaşan makine öğrenimi teknolojisi, matematikçilerin kaotik olarak adlandırdığı karmaşık, doğrusal olmayan sistemlerin değerlendirilmesini ve kontrolünü kapsamaktadır.
Kaotik olarak, tarif edilen işlemlerin çılgınca olduğu veya düzensiz olduğu anlamına gelmez. Kaoslular on yıllar önce basit doğrusal olmayan denklemlerin yüksek düzeyde organize davranışlara yol açabileceğini keşfettiler. Demek istedikleri, fenomenin, bunları tahmin etmek için bazı sabit algoritma veya formül bulmak için küçük değişikliklere karşı çok hassas olmasıdır.
Dil böyledir. Aynı ifade, bir düzine farklı vokal bükülmeyle birlikte bir düzine farklı şey anlamına gelebilir. İngilizce cümle "Gerçekten" bir örnektir. Takviye tekniklerinin gelecekteki makinelerin bu ifadenin çeşitli anlamları arasında yüksek başarı olasılıklarını ayırt etmesine izin vermesi muhtemeldir.
Neden Önce Oyunlar?
Oyunların çok basit ve kolay tanımlanmış bir dizi olası senaryosu vardır. Bilgisayarın gelişine en büyük katkıda bulunanlardan biri olan John von Neumann, Oskar Morgenstern ile birlikte yazdığı bir oyun olan Teori ve Ekonomik Davranış'ta , tüm planlama ve karar vermenin aslında çeşitli karmaşıklıkların oyun oynaması olduğunu savundu .
Zamanla, eğitimli insanlar gibi üç ipucu kaynağından gelebilecek bir ifadenin anlamını belirleyebilecek sistemler oluşturacak beyin koleksiyonunun eğitim örneği setini düşünün.
- Bir konuşma veya sosyal senaryodaki bağlam
- Konuşmacının vokal bükülmeleri
- Konuşmacının yüz ifadeleri ve vücut dili
Satranç ve Go Game'in Ötesinde
Oyunlardan dil sistemlerine doğru anlama ve daha derin dinleme yetenekleri ile birlikte, dünya ve insan deneyimi için çok daha önemli olan pek çok güçlendirilmiş öğrenme uygulaması vardır.
- Işıkları, cihazları, dijital sistemleri, HVAC ve diğer enerji tüketen cihazları nasıl kapatacağınızı veya zayıflatacağınızı öğrenen sistemler - Enerji, zaman içinde fosil yakıt kaynağının tükenmesi nedeniyle belki de insanlık tarihinin en jeo-politik olarak etkili ürünüdür.)
- Otonom araç geliştirme - Açık yollarda bilinmeyen devletlerde bulunan kişilerin uçak, karavan, kamyon, otobüs ve traktör römorku gibi ağır ekipmanların işletilmesinin tehlikeli eğilimi, gelecekteki insanlar tarafından delilik olarak görülecektir.
- Bilgi güvenilirliğinin derecesi - Bilgi her yerdedir ve% 99'undan fazlası kısmen veya tamamen hatalıdır. Düzgün tasarlanmış ve yorumlanmış çift kör randomize çalışmalar veya doğrulanabilir laboratuvar testleri ve analizleri gerçek araştırmalarla çok az doğrulanır.
- Daha iyi teşhis, ilaçları kişiye göre uyarlayan ve nüksü önlemek için sürekli bakıma yardımcı olan sağlık uygulamaları.
Bu dört ve daha pek çoğu, tek bir kişinin ailesinin sadece bir veya iki neslini etkileyen iki otomatik merkezli makine öğrenme ilgisi olan otomatik yüksek hızlı ticaret veya kazanan oyun yarışmaları yoluyla servet birikiminden çok daha önemlidir.
Zenginlik ve şöhret oyun teorisinde sıfır toplamlı oyun olarak adlandırılır . Başkalarının ve ailelerinin bizim için eşit öneme sahip olduğu daha yüksek Altın Kural felsefesini düşünürseniz, kazançlar olduğu kadar çok kayıp üretirler.
CAD (Bilgisayar Destekli Tasarım) Yazılımı için Güçlendirilmiş Öğrenme
Bilgisayar destekli tasarım, bilgisayar tasarımının (insanlardan yardım almadan) doğal olarak öncüsüdür, tıpkı anti-lock kırılmaları doğal olarak tamamen otonom araçlara yol açar.
"Duş için bana bir sabunluk yaratın, ailemin ilk denemede gözlerini açmadan sabunu kapma ve sabunu ve duş yüzeylerini temiz tutma zorluğunu en aza indirme olasılığını en üst düzeye çıkarın. aile üyelerim ve duş alanından bazı resimler. " Daha sonra bir 3D yazıcı, kurulum talimatlarıyla birlikte cihazı takmaya hazır olarak çıkarır.
Tabii ki, böyle bir CD sistemi (A olmadan CAD), temizlik, vizyonsuz insan davranışı, fayanslara ürün bağlama yolları, ortalama tüketicinin araçları ve ev bakım yetenekleri, 3D yazıcının yetenekleri konusunda eğitilmelidir. ve diğer bazı şeyler.
İmalat otomasyonundaki bu tür gelişmeler büyük olasılıkla "Bu iki parçayı seri üretilen bağlantı elemanları ve en iyi uygulamaları kullanarak ekleyin" gibi daha basit komutların güçlendirilmiş öğrenmesiyle başlayacaktır. CAD programı daha sonra donanım, vidalar, perçinler, yapıştırıcılar ve diğer seçenekler arasından seçim yapabilir, belki de tasarımcıya çalışma sıcaklığı ve titreşim aralıkları hakkında sorular sorabilir. Seçim, konum ve açı uygun CAD parçaları ve montaj çizimlerine ve malzeme listelerine eklenir.