«reinforcement-learning» etiketlenmiş sorular

Bir algoritmanın, kazanılan ödülleri en üst düzeye çıkarmak için farklı ödüllerle ilişkili eylemleri uyarlayarak eylemler yaparak çevrimiçi ortamın yapısını öğrenebileceği bir dizi dinamik strateji.

5
Politika dışı ve politika dışı öğrenme arasındaki fark nedir?
Yapay zeka web sitesi politika dışı ve politika dışı öğrenmeyi şu şekilde tanımlamaktadır: "Politika dışı bir öğrenci, aracı kurumun eylemlerinden bağımsız olarak en uygun politikanın değerini öğrenir. Q-öğrenme, politika dışı bir öğrencidir. Politikaya dayalı bir öğrenci, araştırma adımları dahil olmak üzere, aracı tarafından yürütülen politikanın değerini öğrenir ." Bu konudaki …

3
Güçlendirme öğreniminde indirim faktörünün rolünü anlama
Kendimi takviye öğrenmeyi öğretiyorum ve indirimli ödül kavramını anlamaya çalışıyorum. Bu nedenle, sisteme hangi devlet-eylem çiftlerinin iyi, hangilerinin kötü olduğunu söylemek için ödül gereklidir. Fakat anlamadığım, neden indirimli ödülün gerekli olduğudur. Niçin iyi bir duruma, daha sonra değil, kısa sürede ulaşılması önemli olsun? Bunun bazı özel durumlarda konuyla ilgili olduğunu …

2
Neden AlphaGo’ya benzeyen satranç için sağlam bir güçlendirme öğrenme motoru yok?
Bilgisayarlar uzun zamandır "kaba kuvvet" tekniğini kullanarak, belirli bir derinliği araştırarak ve daha sonra konumunu değerlendirerek satranç oynayabildiler. Ancak AlphaGo bilgisayarı, pozisyonları değerlendirmek için sadece bir YSA kullanıyor (bildiğim kadarıyla derinlemesine arama yapmıyor). AlphaGo'nun Go ile oynadığı gibi satranç oynayan bir satranç motoru oluşturmak mümkün mü? Neden kimse bunu yapmadı? …


2
Denetimli öğrenme, denetimsiz öğrenme ve güçlendirici öğrenme: İş akışı temelleri
Denetimli öğrenme 1) İnsan, girdi ve çıktı verilerine dayalı bir sınıflandırıcı oluşturur. 2) Bu sınıflandırıcı bir veri eğitim seti ile eğitilmiştir. 3) Bu sınıflandırıcı bir veri test seti ile test edilmiştir. 4) Çıktı tatmin edici ise dağıtım "Bu verileri nasıl sınıflandıracağımı biliyorum, sıralamanız için yalnızca size (sınıflandırıcı) ihtiyacım var." Yöntem …


3
Günlük Zaman Serileri Analizi
Zaman serisi analizi yapmaya çalışıyorum ve bu alanda yeniyim. 2006-2009 yılları arasında günlük bir etkinlik sayım var ve buna bir zaman serisi modeli uydurmak istiyorum. İşte kaydettiğim ilerleme: timeSeriesObj = ts(x,start=c(2006,1,1),frequency=365.25) plot.ts(timeSeriesObj) Sonuçta elde ettiğim komplo: Verilerde mevsimsellik ve eğilim olup olmadığını doğrulamak için bu yazıda belirtilen adımları takip ediyorum …

4
Angry Birds'ü oynamak için nasıl bir makine öğrenme sistemi tasarlarsınız?
Çok fazla Angry Birds oynadıktan sonra kendi stratejilerimi izlemeye başladım. Her seviyede 3 yıldız almak için çok özel bir yaklaşım geliştirdiğim ortaya çıktı. Bu beni Angry Birds oynayabilecek bir makine öğrenme sistemi geliştirmenin zorlukları hakkında merak etti. Oyun ile etkileşime girme ve kuşları başlatma önemsizdir. Ancak sahip olduğum tek soru …

2
Tekrarlayan Takviye Öğrenme Nedir?
Geçenlerde "Tekrarlayan Takviye Öğrenme" kelimesiyle karşılaştım. "Tekrarlayan Sinir Ağı" nın ne olduğunu ve "Takviye Öğrenme" nin ne olduğunu anlıyorum, ancak "Tekrarlayan Takviye Öğrenme" nin ne olduğu hakkında fazla bilgi bulamadım. Birisi bana "Tekrarlayan Takviye öğrenme" nedir ve "Tekrarlayan Takviye öğrenme" ile Q-Öğrenme algoritması gibi normal "Takviye öğrenme" arasındaki farkın ne …

1
SARSA vs. Q Learning ne zaman seçilmeli
SARSA ve Q Learning benzer şekilde çalışan pekiştirici öğrenme algoritmalarıdır. En çarpıcı fark, Q Learning politika dışındayken SARSA'nın politikada olmasıdır. Güncelleme kuralları aşağıdaki gibidir: Q Öğrenme: Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γmaxa′Q(st+1,a′)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γ\max_{a'}Q(s_{t+1},a')−Q(s_t,a_t)] SARSA: Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)−Q(st,at)]Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γQ(s_{t+1},a_{t+1})−Q(s_t,a_t)] burada st,atst,ats_t,\,a_t ve rtrtr_t durum, eylem ve ttt adımında ödül ve γγ\gamma bir indirim faktörüdür. SARSA'da gerçek eylemi gerçekleştirmemiz ve Q …

4
Q-Learning test sırasında neden epsilon-greedy kullanıyor?
DeepMind'in Atari video oyunları için Deep Q-Learning ( burada ) makalesinde, eğitim sırasında keşif için epsilon açgözlü bir yöntem kullanıyorlar. Bu, eğitimde bir eylem seçildiğinde, en yüksek q değerine sahip eylem veya rastgele bir eylem olarak seçildiği anlamına gelir. Bu ikisi arasında seçim yapmak rastgele ve epsilon'un değerine dayalıdır ve …

2
pekiştirme öğreniminde nasıl ödül fonksiyonu yapılır
Takviye Öğrenimi üzerinde çalışırken, ödül fonksiyonunun birçok formuyla karşılaştım: R(s,a)R(s,a)R(s,a) , R(s,a,s′)R(s,a,s′)R(s,a,s') ve hatta sadece mevcut duruma bağlı bir ödül fonksiyonu. Bunu söyledikten sonra, bir ödül fonksiyonu 'yapmanın' veya 'tanımlamanın' çok kolay olmadığını fark ettim. Sorularım: Ödül işlevlerinin nasıl yapılacağına dair kurallar var mı? Ödül fonksiyonunun başka formları var mı? …



4
Ne tür gerçek yaşam durumlarında çok kollu bir haydut algoritması kullanabiliriz?
Çok kollu haydutlar, seçenekleriniz olduğu ve hangisinin sağlığınızı en üst düzeye çıkaracağından emin olmadığınız durumlarda iyi çalışır. Algoritmayı bazı gerçek yaşam durumları için kullanabilirsiniz. Örnek olarak, öğrenme iyi bir alan olabilir: Bir çocuk marangozluk öğreniyorsa ve bu konuda kötü ise, algoritma ona muhtemelen devam etmesi gerektiğini söyleyecektir. Eğer bu konuda …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.