Oyun dışında pekiştirici öğrenmenin uygulamaları var mı?

Oyunlar dışındaki uygulamalarda pekiştirici öğrenmeyi öğretmenin bir yolu var mı?

İnternette bulabileceğim tek örnek oyun ajanları. VNC'lerin oyunlara girişi takviye ağı üzerinden kontrol ettiğini anlıyorum. Bunu bir CAD yazılımı ile ayarlamak mümkün mü?

reinforcement-learning applications

— Mark Markrowave Charlton
kaynak

Evet, mümkün ama asıl soru, diğer algoritmalardan daha verimli olup olmadığı olmalıdır. Belirli bir hedefiniz varsa bunu düşünebilir ve bir oyun olarak modelleyebilirsiniz (hayat bile bir oyundur;)). Aslında, birçok başarılı AI birden fazla teknikten yararlanmaktadır. Şuna bir göz atın: datascience.stackexchange.com/questions/11126/…

— TasosGlrs

AlphaGo ile ilgili nokta, belirli bir oyun türünün ( önemsiz , şanssız , mükemmel bilgi) özellikle AI için mükemmel bir kanıtlama zemini sağlamasıdır, çünkü bu oyunlar çok basit parametrelere sahiptir, ancak doğaya benzer bir karmaşıklığa sahiptir. Oyunlar, belirli bir perspektiften, soyut ve stratejik düşünmeyi öğrettikleri için en yararlı eserlerdir. Oyunların önemini anlamak için Oyun Teorisinin bilgisayar bilimi üzerindeki etkisine bakın .

— DukeZhou

Bunun nedeni NDA'lar olabilir. En iyi hücre kulesi yazılımı veya en iyi ses tanıma veya en iyi çevrimiçi alışveriş merkezleri gibi en iyi öğrenme uygulamaları tescillidir. Genel olarak mühendislik.

— FauChristian

Sağ. Eğer tek şey oyun teorisi ise, dünya bir oyun haline gelir.

— FelicityC

Yanıtlar:

Takviye öğreniminin harika örneklerinden biri, otonom bir uçan helikopterdir. Son zamanlarda Andrew Ng ve diğerleri tarafından yapılan bazı şeyleri öğrenme şansım oldu. İşte araştırma makale kağıdı . Başka benzer makaleler de var. Daha fazla bilgi edinmek isterseniz onları Google'da kullanabilirsiniz.

Ayrıca bu youtube videosunda çalışırken de görebilirsiniz .

Görünüşe göre finanste tamamen farklı bir uygulama .

Takviye öğrenme literatüründe birçok oyun örneği göreceksiniz, çünkü oyun ortamları genellikle verimli bir şekilde kodlanabilir ve daha sonra ortamı ve aracıyı içerebilecek tek bir bilgisayarda hızlı bir şekilde çalışabilir. Tavla, dama, satranç, go gibi klasik oyunlar için, sonuçları karşılaştırabileceğimiz insan uzmanları var. Denetimli öğrenme yaklaşımlarını karşılaştırmak için MNIST el yazısı rakamları gibi, farklı yaklaşımları karşılaştırmak için belirli oyunlar veya basitleştirilmiş oyun benzeri ortamlar yaygın olarak kullanılır.

Oyunlar dışındaki uygulamalarda pekiştirici öğrenmeyi öğretmenin bir yolu var mı?

Evet. Gayri resmi olarak, bir sorunu devletten haberdar olabileceği ve hedefi etkileyen bir ödül değeri olan bir ortamda hareket eden bir ajan olarak çerçeveleyebildiğinizde takviye öğrenme yaklaşımlarını uygulayabilirsiniz. Daha resmi olarak, takviye öğrenme teorisi Markov Karar Süreçleri çözümlerine dayanmaktadır , bu nedenle sorun tanımınızı bir MDP'ye sığdırabiliyorsanız, RL'de kullanılan Q-öğrenme, SARSA, REINFORCE gibi çeşitli teknikler uygulanabilir. Teoriye bu uyumun, ortaya çıkan sistemin çalışması için mükemmel olması gerekmez, örneğin, bilinmeyen veya kusurlu olarak gözlenen durumu ajana etkili bir şekilde rastgele olarak ele alabilir ve stokastik bir ortamın bu bölümünü düşünebilirsiniz.

Aşağıda, eğlence oyunları dışındaki pekiştirme öğrenmesinin olası kullanımlarına ilişkin bazı örnekler verilmiştir:

Krep ve diğer örnekleri çevirmeyi öğrenmek gibi motorlu robot için kontrol mantığı . Burada çevre ölçümleri robot üzerindeki fiziksel sensörler tarafından yapılır. Ödüller bir hedefi tamamlamak için verilir, ancak yumuşaklık, enerjinin ekonomik kullanımı vb. İçin de ayarlanabilir. Ajan, motor torku veya röle konumu gibi düşük seviyeli eylemleri seçer. Teoride, daha yüksek seviyeli olanların daha düşük seviyeli olanlara yönelik hedefleri seçtiği iç içe ajanlar olabilir - örneğin, robot farklı konumlara taşınmayı gerektiren üç görevden birini yapmak arasında yüksek bir seviyeye karar verebilir ve daha düşük bir seviyede olabilir. robotu seçilen hedefe taşımak için motorların nasıl kontrol edileceğine karar verir.
Kendi kendine giden arabalar. Her ne kadar sensör yorumlamasına odaklanılsa da - yol işaretlerini, yayaları vb. Görmek, gaz, fren ve direksiyon seçimini yapmak için bir kontrol sistemi gereklidir.
Otomatik finansal ticaret. Belki bazıları için bir oyun, net gerçek dünya sonuçları vardır. Bununla birlikte ödül sinyali yeterince basittir ve RL uzun veya kısa vadeli kazançları tercih edecek şekilde ayarlanabilir.

bunu bir CAD yazılımı ile ayarlamak mümkün mü?

Teorik olarak evet, ama pratikte bunu yapmak için neyin mevcut olabileceğini bilmiyorum. Ayrıca, sanal bir fare vermeden ve bir şey çizmek için bir görev ayarlamadan önce aracıya kodlayabileceğini (gözlemleyebileceği ödül değerleri olarak) unutmayın. Bilgisayar oyunları, puanlama sistemi olarak yerleşik bir ödül şeması ile birlikte gelir ve sık sık geri bildirim sağlar, böylece bir ajan iyi ve kötü kararları hızlı bir şekilde öğrenebilir. Bu puanlama bileşenini CAD tabanlı sistem için hedeflerinizi temsil eden bir şeyle değiştirmeniz gerekir.

CAD'in yerleşik bir şeyi yoktur, ancak çeşitli fizik motorları veya sonlu eleman analizi gibi simülasyonlu CAD araçları, tasarımları simüle edilmiş bir fiziksel ölçüye göre puanlamanıza izin verebilir. Diğer olasılıklar, CAD / CAM sisteminin kısmi veya tamamlanmış bir tasarım için sağlayabildiği ölçütler ne olursa olsun, gerilim analizi, israfsız malzeme kullanımıdır. Zor kısım, bir tasarımı amacına veya amacına sınırlar ve bunun ödüllendirilmesini düzenler veya çevreye kısıtlamalar getirir; bir RL acentesine CAD sürecinin tam sınırsız kontrolünü vermek ve en düşük zorlamayı ödüllendirmek, küçük bir küp gibi çok ilginç bir şeyle sonuçlanacaktır.

— Neil Slater
kaynak

Çok sayıda uygun şey: Maksimum görsel netlik için otomatik boyutlandırma, gerilim altındaki hareketli parçaları (FEA olmadan)

— arayarak

@FauChristian: Bunların hepsinin bir oyun sinyali kadar bir ödül sinyali olarak beslenebileceğinden emin değilim. Bir tasarımı daha az zorlama için optimize etmek, tasarımınızın bir amacı olduğunu gösterir - bu amacı izlemek için bazı kısıtlamalar / kurallar eklemeniz gerekir ve bazı ergonomik analizleriniz olmadıkça bu daha zor olabilir. Ancak, yorumda bahsettiğim bazı şeyler eklenir ve cevaba eklenir.

— Neil Slater

Evet. Doğru. Deneyeceğim. Lütfen yapmam gerekecek yorum dizisini bahane edin. Yukarıdaki her durumda hedefim, bir mekanik tasarımcının kaygılarını, her biri farklı bir kümelenme ile beslenebilecek birden fazla NN organı olabileceği akılda tutularak, iterasyonlara rehberlik edebilecek tek bir sağlık sinyaline toplamak olacaktır. Ama basitlik uğruna, her vakayı bir skalere birleştireceğim. Bunların çoğu için stokastik bir elemente ihtiyaç duyulacaktır çünkü CAD'deki çoğu vakada toplanan değerin yüzeyinde birden fazla kritik nokta vardır.

— FauChristian

Otomatik Boyutlandırma - w = sqrt (Σ dak (s_clear, s_nice)) + k n_jumps, ... burada ... w, çizimin boyutlandırma durumunun, normalleştirilmiş bir geri besleme sinyalinin türetilebildiği kalite toplamıdır, s_clear bir boyutlandırma çizgisi ile atlama çizgileri hariç en yakın diğer çizgi arasındaki mesafedir, s_nice, boyutlandırılan çizim türü için çizgiler arasındaki hoş bir mesafeyi temsil eden bir metaparametre, k sabittir ve n_jumps atlama çizgilerinin sayısıdır ( Çizgilerin kesiştiği ancak ikisinden birinin diğer çizginin arkasına atladığını göstermek için bir boşluğu vardır).

— FauChristian

Girişim Aramaları - w = n, ... burada ... w etkileşimler aramasının kalite toplamı ve n yinelemelerin tahminlerini tahminin dinamik bir simülasyonuna besledikten sonra bulunan girişim sayısıdır. Bu, tıpkı bir oyun gibidir, çünkü ne kadar doğru parazit olursa skor o kadar yüksek olur.

— FauChristian

Birçoğunun gerçek web, mobil ve iş istasyonu uygulamalarına güçlendirilmiş öğrenme dediklerini tanıtmanın bir yolu vardır.

Askeri organizasyonlar yapıyor, film endüstrisi yapıyor, yazılım merkezli şirketler yapıyor ve ben de Fortune 500 işletmeleri ve küçük işletmeler için yaptım. FaceBook'un yüz tanıma robotlarından Google Translate'e, USPS posta kodu tanıma sistemlerine, otonom uçuş ve trafik kontrol sistemlerine kadar daha büyük sistemlere gömülü her türlü sistem bileşeninde uyarlanabilir öğrenme bileşenleri vardır. Bilgisayar destekli tasarım yazılımı (CAD) kesinlikle uygulanabilir bir hedeftir.

Takviye Esası

Olayları tanımlayan bir dizi vektör düşünün. İki alt seri A ve B'ye ayrıldığını düşünün. Sinir ağı (yapay veya biyolojik) A kullanılarak eğitilebilir.

Eğitim denetlenebilir, yani vektörün boyutlarından biri etiket olarak kabul edilir ve bu nedenle optimal olarak tahmin edilecek bağımlı değişken. Diğer boyutlar daha sonra gerçekler veya giriş sinyalleri ve dolayısıyla tahmin için kullanılacak bağımsız değişkenler haline gelir. Özellik çıkarma ile eğitim gözetimsiz olabilir.

Her iki durumda da, B'den önce A sağlandığında ve B gelmeden önce üretimde (gerçek kullanım) gerçekleştirilmesi beklendiğinde, B'nin daha sonraki varışında bir seçenek sunulur.

A ile egzersiz sırasında yapılan ağırlıkları ve meta parametre ayarlamalarını silin ve birleştirilmiş A ve B serileri ile eğitimi yeniden çalıştırın.
B ile eğitime devam edin, bu durumda ağ A ile önyargılı olur ve sonuç B sonra A ile eğitim ile elde edilen sonuçtan farklı olur.
Yukarıdaki 1 numaralı seçenek için gereken kaynak tüketiminden kaçınırken A ile ilk eğitimin yanlılığını sınırlamanın bir yolunu bulun.

Seçim # 3 birçok durumda en iyi seçimdir, çünkü # 1 ve # 2 seçeneklerinin faydalarını içerir. Matematiksel olarak, # 3, A serisinden öğrenilenlerin bir şekilde önlenmesini kolaylaştırarak yapılır. Sinir ağı ağırlıkları ve meta parametre ayarlamaları düzeltmeye açık hale getirilmelidir, çünkü yeni deneyim bunu gerektirdiğini göstermektedir. Saf bir yaklaşım, fizik, kimya ve sosyal bilimlerdeki birçok fenomende doğal bozulmayı modelleyen ters üstel fonksiyon matematiksel olarak formüle edilebilir.

P = e ^-nt , burada P gerçekte hala etkili olma olasılığıdır, n geçmişte öğrenilen bilgilerin bozulma oranıdır ve t zaman damgası, alt sıra (parti) numarası gibi bir miktar ileri ilerleme ölçüsüdür, olgu sıra numarası veya olay numarası.

A ve B alt serileri durumunda, yukarıdaki formül öğrenme mekanizmasında bir şekilde uygulandığında, A'nın eğitimi, B'yi kullanmaya devam eden eğitimden sonra nihai sonuca daha az önyargı verecektir, çünkü A için t daha azdır. B'ye göre t , mekanizmaya B'nin muhtemelen daha uygun olduğunu söyler.

A ve B'yi tekrar tekrar yarıya bölerek, daha fazla parçalı alt seri yaratırsak, önceki bilgilerin kademeli olarak bozulmasına izin verme fikri hem geçerli hem de değerli kalır. Ağın, eğitim için kullanılan ilk bilgiye olan önyargısı, dar görüşlülüğün psikolojik kavramlarına eşdeğerdir. Memelilerin beynine dönüşen öğrenme sistemleri, açık fikirliliği teşvik etmek için geçmiş şeylere olan ilgiyi unutuyor ya da kaybediyor gibi görünüyor; bu, yeni bilginin öğrenmek için daha güçlü kalıplar içermesi durumunda yeni öğrenmenin bazen önceki öğrenmeyi önermesinden başka bir şey değildir.

Daha yeni örnek verilerin, eski örnek verilerden aşamalı olarak daha ağır basmasına izin vermenin İKİ nedeni vardır.

İleri öğrenmede daha yeni olayları yeterince tartmak için daha önceki öğrenmenin yanlılığının yukarıdaki şekilde kaldırılması, deneyimlenen (eğitilmiş) tüm olaylar sistemin öğrenmeye çalıştığı dış dünya hakkında makul gerçekleri temsil ediyorsa mantıklıdır.
Dış dünya değişiyor olabilir ve eski öğrenme aslında alakasız ve hatta yanıltıcı olabilir.

Öğrenme devam ettikçe, önceki bilginin bozulmasının önemini yavaş yavaş azaltma ihtiyacı, pekiştirmenin iki önemli yönünden biridir. İkinci yön, geri bildirim sinyalizasyonu fikri üzerine inşa edilmiş bir dizi düzeltici kavramdır.

Geribildirim ve Takviye

Güçlendirilmiş öğrenmede bir geri bildirim sinyali, ağrı, zevk, memnuniyet ve sağlık gibi bilinen psikolojik kavramlara eşdeğer olan makine öğrenmesidir. Öğrenme sistemine, özellik çıkarma, gruplamaların bağımsızlığı veya girdi olayı özellikleri ile etiketleri arasındaki ilişkiye yaklaşan bir nöral net ağırlık matrisi bulma hedefinin ötesinde eğitimi yönlendirmek için bilgi verilir.

Sağlanan bilgiler, memelilerde olduğu gibi dahili olarak önceden programlanmış örüntü tanımadan veya harici olarak ödül ve cezadan kaynaklanabilir. Güçlendirilmiş makine öğreniminde geliştirilen teknikler ve algoritmalar, bu ek sinyalleri sıklıkla (işlemede zaman dilimleme kullanarak) veya sürekli olarak paralel işleme mimarilerinin işlem birimlerinin bağımsızlığını kullanarak kullanır.

Bu çalışma MIT'de Norbert Wiener tarafından öncülük edilmiş ve Sibernetik (MIT Press 1948) adlı kitabında ortaya konmuştur. Sibernetik kelimesi , Gemilerin yönlendirilmesi anlamına gelen daha eski bir kelimeden gelir . Dümenin rotada kalması için otomatik hareketi ilk mekanik geri besleme sistemi olabilir. Çim biçme makinenizde muhtemelen bir tane vardır.

Uyarlamalı Uygulamalar ve Öğrenme

Bir dümen konumu veya bir çim biçme makinesi gaz kelebeği için gerçek zamanlı olarak basit adaptasyon öğrenmemektedir. Bu adaptasyon genellikle bir çeşit doğrusal PID kontrol şeklidir. Günümüzde yaygınlaşan makine öğrenimi teknolojisi, matematikçilerin kaotik olarak adlandırdığı karmaşık, doğrusal olmayan sistemlerin değerlendirilmesini ve kontrolünü kapsamaktadır.

Kaotik olarak, tarif edilen işlemlerin çılgınca olduğu veya düzensiz olduğu anlamına gelmez. Kaoslular on yıllar önce basit doğrusal olmayan denklemlerin yüksek düzeyde organize davranışlara yol açabileceğini keşfettiler. Demek istedikleri, fenomenin, bunları tahmin etmek için bazı sabit algoritma veya formül bulmak için küçük değişikliklere karşı çok hassas olmasıdır.

Dil böyledir. Aynı ifade, bir düzine farklı vokal bükülmeyle birlikte bir düzine farklı şey anlamına gelebilir. İngilizce cümle "Gerçekten" bir örnektir. Takviye tekniklerinin gelecekteki makinelerin bu ifadenin çeşitli anlamları arasında yüksek başarı olasılıklarını ayırt etmesine izin vermesi muhtemeldir.

Neden Önce Oyunlar?

Oyunların çok basit ve kolay tanımlanmış bir dizi olası senaryosu vardır. Bilgisayarın gelişine en büyük katkıda bulunanlardan biri olan John von Neumann, Oskar Morgenstern ile birlikte yazdığı bir oyun olan Teori ve Ekonomik Davranış'ta , tüm planlama ve karar vermenin aslında çeşitli karmaşıklıkların oyun oynaması olduğunu savundu .

Zamanla, eğitimli insanlar gibi üç ipucu kaynağından gelebilecek bir ifadenin anlamını belirleyebilecek sistemler oluşturacak beyin koleksiyonunun eğitim örneği setini düşünün.

Bir konuşma veya sosyal senaryodaki bağlam
Konuşmacının vokal bükülmeleri
Konuşmacının yüz ifadeleri ve vücut dili

Satranç ve Go Game'in Ötesinde

Oyunlardan dil sistemlerine doğru anlama ve daha derin dinleme yetenekleri ile birlikte, dünya ve insan deneyimi için çok daha önemli olan pek çok güçlendirilmiş öğrenme uygulaması vardır.

Işıkları, cihazları, dijital sistemleri, HVAC ve diğer enerji tüketen cihazları nasıl kapatacağınızı veya zayıflatacağınızı öğrenen sistemler - Enerji, zaman içinde fosil yakıt kaynağının tükenmesi nedeniyle belki de insanlık tarihinin en jeo-politik olarak etkili ürünüdür.)
Otonom araç geliştirme - Açık yollarda bilinmeyen devletlerde bulunan kişilerin uçak, karavan, kamyon, otobüs ve traktör römorku gibi ağır ekipmanların işletilmesinin tehlikeli eğilimi, gelecekteki insanlar tarafından delilik olarak görülecektir.
Bilgi güvenilirliğinin derecesi - Bilgi her yerdedir ve% 99'undan fazlası kısmen veya tamamen hatalıdır. Düzgün tasarlanmış ve yorumlanmış çift kör randomize çalışmalar veya doğrulanabilir laboratuvar testleri ve analizleri gerçek araştırmalarla çok az doğrulanır.
Daha iyi teşhis, ilaçları kişiye göre uyarlayan ve nüksü önlemek için sürekli bakıma yardımcı olan sağlık uygulamaları.

Bu dört ve daha pek çoğu, tek bir kişinin ailesinin sadece bir veya iki neslini etkileyen iki otomatik merkezli makine öğrenme ilgisi olan otomatik yüksek hızlı ticaret veya kazanan oyun yarışmaları yoluyla servet birikiminden çok daha önemlidir.

Zenginlik ve şöhret oyun teorisinde sıfır toplamlı oyun olarak adlandırılır . Başkalarının ve ailelerinin bizim için eşit öneme sahip olduğu daha yüksek Altın Kural felsefesini düşünürseniz, kazançlar olduğu kadar çok kayıp üretirler.

CAD (Bilgisayar Destekli Tasarım) Yazılımı için Güçlendirilmiş Öğrenme

Bilgisayar destekli tasarım, bilgisayar tasarımının (insanlardan yardım almadan) doğal olarak öncüsüdür, tıpkı anti-lock kırılmaları doğal olarak tamamen otonom araçlara yol açar.

"Duş için bana bir sabunluk yaratın, ailemin ilk denemede gözlerini açmadan sabunu kapma ve sabunu ve duş yüzeylerini temiz tutma zorluğunu en aza indirme olasılığını en üst düzeye çıkarın. aile üyelerim ve duş alanından bazı resimler. " Daha sonra bir 3D yazıcı, kurulum talimatlarıyla birlikte cihazı takmaya hazır olarak çıkarır.

Tabii ki, böyle bir CD sistemi (A olmadan CAD), temizlik, vizyonsuz insan davranışı, fayanslara ürün bağlama yolları, ortalama tüketicinin araçları ve ev bakım yetenekleri, 3D yazıcının yetenekleri konusunda eğitilmelidir. ve diğer bazı şeyler.

İmalat otomasyonundaki bu tür gelişmeler büyük olasılıkla "Bu iki parçayı seri üretilen bağlantı elemanları ve en iyi uygulamaları kullanarak ekleyin" gibi daha basit komutların güçlendirilmiş öğrenmesiyle başlayacaktır. CAD programı daha sonra donanım, vidalar, perçinler, yapıştırıcılar ve diğer seçenekler arasından seçim yapabilir, belki de tasarımcıya çalışma sıcaklığı ve titreşim aralıkları hakkında sorular sorabilir. Seçim, konum ve açı uygun CAD parçaları ve montaj çizimlerine ve malzeme listelerine eklenir.

— Douglas Daseeco
kaynak

Normalde bu iyi yazılmış cevaba eleştirel bir yorum yapmazdım, ama eleştiriyi sorduğunuzdan beri: Bence Güçlendirme , Geribildirim ve Güçlendirme ve Uyarlanabilir Uygulamalar ve Öğrenme için Dayanak bölümlerinin ilginç olsa da, OP'nin sorusu zaten RL hakkında bazı bilgiler anlamına geliyor ve orijinal soruyu ele almadan önce bu ilgili arka plan tartışmasını ayarlamak için çok zaman harcıyorsunuz.

— Neil Slater

OP'nin soruyu sorduğu, sahada yeni birini gösteren mevcut araştırma durumunu ya da önceki bölümlerde primere ihtiyaç duyabileceği deliklerini göstermektedir. Son bölüm daha doğrudan soruyu cevaplıyor.

— FauChristian