Takviye Öğrenme neden yol bulmada nadiren kullanılır?


12

Saygıdeğer en kısa yol grafik teorik algoritması A * ve müteakip iyileştirmeler (örn., Hiyerarşik Açıklamalı A *), oyun geliştirmede yol bulma için açıkça seçilen tekniktir.

Bunun yerine, bana öyle geliyor ki RL, bir karakteri bir oyun alanı etrafında taşımak için daha doğal bir paradigma.

Yine de, Takviye Öğrenme tabanlı bir yol bulma motoru uygulayan tek bir oyun geliştiricisinin farkında değilim. (Rf yol bulmada RL uygulamasının 0 olduğunu, sadece A * ve arkadaşlarına göre çok küçük olduğunu anlamıyorum.)

Nedeni ne olursa olsun, bu geliştiricilerin RL'nin oyun motorunun başka bir yerinde sıkça kullanıldığı gerçeği ile kanıtlandığı gibi RL'den habersiz olmaları değildir.

Bu soru yol bulmada RL hakkında görüş bildirmek için bir bahane değildir ; aslında, A * ve ark. RL'ye göre doğrudur - ama bu tercih benim için açık değildir ve bunun sebebini çok merak ediyorum, özellikle yol bulma için RL'yi kullanmaya çalışan herkesden.


1
"Bu geliştiriciler RL'nin farkında olmadığı için değil" Emin misiniz? Bu büyük bir varsayım gibi görünüyor.
Tetrad

Yol bulmada RL ile ilgili bazı bağlantıları veya makaleleri paylaşmak ister misiniz?
falstro

3
A * (ve ilgili algoritmalar) için çeşitli optimallik / sınır kanıtları göz önüne alındığında, RL'nin yol bulma için tabloya ne getirdiğini düşünüyorsunuz?

1
İlgili (bunu farklı bir Soruda buldu): ai-blog.net/archives/000178.html
Tetrad

Yanıtlar:


14

Bunun, oyuncak problemleri dışında hiçbir şeyden herhangi bir yararlı genelleme elde edemeyeceğinizi ve ödül fonksiyonunun şüpheli bir A * sezgisel gibi görüneceğini düşündüğüm için, RL kullanma olasılığı gerçekten gibi görünme eğilimindedir. A * 'larla aynı olan, ancak muhtemelen bu kadar iyi olmayacak sonuçları elde etmenin, verimsiz bir yolu.

Bu, RL için haksız olabilir ve eğer öyleyse nedenini duymakla ilgilenirim, ancak bunu gösterecek hiçbir şey görmüyorum.

Birçoğumuz, A * 'nın yaygın olarak benimsenmesinden önce oyunlarda yol bulmanın nasıl olduğunu hatırlıyoruz ve oyunculara o günlere benzeyen herhangi bir şey vermek için istekli değiliz veya bunu yapmanın piyasa sonuçlarına maruz kalıyoruz.


1
Ödül işlevine ilişkin ifadeniz için +1. Ve hayır, bunun adil bir karakterizasyon olduğuna inanıyorum. RL yaptığı gibi harika olabilir, ancak bu sette katı yol bulmayı beklemem. ( Hareket planlamasını bu tartışmadan kasten hariç tuttuğumu unutmayın . RL bu tür bir soruna başarıyla uygulanmıştır).
Throwback1986

5

RL hakkında çok şey bilmeden, sorunuzu diğer sorularla cevaplamaya çalışacağım:

RL kullanarak, A noktasına B noktasından ulaşmanın mümkün olup olmadığını belirleyebilir misiniz?

RL tekrarlanabilir / tutarlı / test edilebilir navigasyon davranışını garanti edebilir mi?

Bellek ve CPU çalışma süresi gereksinimleri A * ile karşılaştırıldığında nasıl? Benzer şekilde, örneğin nav mesh'lere kıyasla ne kadar ön hesaplama yapabilirsiniz?

RL dinamik çarpışma olan bir ortamda nasıl adil olur?

Direksiyon davranışlarına karşı RL'yi doğru bir şekilde anlamak ve uygulamak ne kadar daha zor?

RL için iyi ara katman sağlayıcıları var mı?

Belki bu sorular cevabınızda size yardımcı olabilir.


Hızlı bir bakışla, A * uygulaması daha ucuz, daha hızlı işlenir, daha az bellek alır, RL'den daha öngörülebilir vb. Bununla birlikte, RL daha gerçekçi sonuçlar verebilir.
Jari Komppa

4
Aksine, RL ajanları ilk öğrenme aşamalarında çok gerçekçi olmayan sonuçlar üretme eğilimindedir. Bazı küçük direksiyon davranışlarına sahip A * çok daha doğal görünüyor.

Tamam, daha gerçekçi sonuçlar sonunda =)
Jari Komppa

RL esasen mükemmel yol bulma davranışını önceden hesaplar. A * 'dan daha hızlı ve basittir, ancak çok daha fazla bellek alır. Bellek gereksinimlerini azaltmaya çalıştığınızda karmaşık ve / veya tutarsız hale gelir.
Don Reba

5

RL'nin "daha doğal bir paradigma" olduğu fikrinden kafam karıştı. Takviye öğreniminin, grafik aramanın yaptığı kadar temiz veya doğru bir yerde sorunlu alanla nasıl eşleştiğini görmüyorum. Genellikle bir temsilcinin öğrenmesini istemezsiniz - rotayı zaten bildiğini varsaydınız. Bunun yerine, mevcut en doğrudan rotayı seçmelerini ve kullanmasını istersiniz ve grafik arama bunu neredeyse en uygun şekilde kolaylaştırır. Belirli bir hedef için herhangi bir düğümde almak için en iyi yönü hesaplamak için RL'yi çevrimdışı kullanırsanız, sonuçta önemli ölçüde daha fazla bellek * gerektirmesi ve geliştiricilerin eğitim sırasında tüm düğümlerin yeterince araştırıldığından emin olun. Ve bu eğitim, önceden grafiğin Öklid uzaklık kurallarına uyduğunu bilmek nedeniyle, Pisagor denklemi ile çok iyi tahmin edebileceğimiz bir değer verecektir. (Bu, elbette, grafik arama ve / veya pekiştirme öğreniminin kullanılabileceği tüm durumlar için geçerli değildir.)

(Bellek sorunuyla ilgili olarak: Bir haritada 1000 olası sayısal konumunuz varsa, bu 1000 düğüm artı 1000 * M kenarlarıdır (burada M, başka bir düğümden erişilebilen ortalama düğüm sayısıdır.) Bu, artı sezgisel olarak, Takviye öğrenmenin çalışması için, en azından öngördüğüm şekilde, 1000 * M kenarlarının her biri için 1000 girişe ihtiyacınız olacak ve 1000'den herhangi biri için bu kenarı takip etmenin ödül değerini alacaksınız. Bu çok fazla veri - ve döngülerden, sapmalardan veya çıkmaz noktalardan kaçınmak için her bir bitinin makul derecede doğru olması gerekir.


3

Yol bulma nispeten "çözülmüş" bir sorundur, RL değildir.

A * ile, geliştiriciler hızlı bir şekilde sezgisel tarama oluşturabilir ve bunları zamanla geliştirebilir. RL (Q-Learning'den bahsediyorum, burada RL'ye atıfta bulunurken), en iyi öğrenme oranlarını ve indirim faktörlerini (oyunun diğer yönlerine harcamaya değer zaman) hesaplamak için zaman alır.


1

Gerçekten oyunun türüne bağlı. Oyundaki her şey statikse, A * aramasını kullanmak daha verimlidir. Bununla birlikte, aynı alanda hareket eden başka insan oyuncular varsa, A * aramasının başarısız olduğu garanti edilir. A * aramasının, diğer oyuncuların nereye gittiği hakkında hiçbir fikri yoktur. Öte yandan, RL diğer oyuncuların davranışlarını modelleyebilir ve diğer oyuncuların hareketlerini dikkate alan daha iyi bir yol bulabilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.