Sorunu aşağıdaki gibi çözebiliriz:
İlk olarak, bir düzlemde iki noktanız varsa ve bu noktaların koordinatlarını bir sinir ağına (örneğin, bir ) ve gerçek mesafe olan bir etikette (ör. ), bu ilişkiyi keyfi olarak yakın doğrulukla öğrenebilmelidir.< x0, y0, x1, y1>( x0- y0)2+ ( x1- y1)2------------------√
Daha sonra, açıkladığınız şeye benzer bir görüntünüz varsa ve bunu farklı bir sinir ağı üzerinden (ör. CNN) besleyin ve etiket olarak iki noktanın noktalarını (bir kez daha ), o zaman bir kez daha keyfi olarak yakın doğrulukla bu ilişkiyi öğrenebilmelidir.< x0, y0, x1, y1>
Tabii ki, bunu iki ayrı sinir ağında yapmak için bir neden yok, bu yüzden iki uçtan uca görüntüyü giriş olarak ve çıkış olarak mesafeyi alan bir modelimiz var.
Bununla birlikte, bu modelin etiketli veriler üzerinde eğitilmesi gerekir, bu nedenle verileri kendiniz oluşturmanız veya görüntüleri etiketlemeniz gerekir.
Ancak, mesafeyi daha az denetimli bir şekilde kapatma fikrini öğrenmesini istiyorsanız, takviye öğrenimini kullanmanız gerekir. Bu durumda, aracıyı mesafeyi azaltmak için teşvik eden bir ortam kurmanız gerekir. Bir eylem mesafeyi azaltırsa, ödül kazanmak kadar basit olabilir.
Başka bir yaklaşım da gelecekteki ödülü kullanarak ajanı teşvik etmek olacaktır. Yani, ödülü sadece bir sonraki dolaysız durumun sonuçlarından gelmez, aynı zamanda bir sonraki olası durumun ve bundan sonraki durumun katkıları da vardır. Derin Q-Learning'in arkasındaki fikir budur ve bu not defterine basit bir örnek (tanımladığınıza çok benzer) uyguluyorum .
Şimdi soru şu: bu uygulama başarıya giden yolu takip edene kadar rastgele hareket etmekten başka bir şey yaptı mı?
Örneğinizde, ajanı hedefe ulaştığında ödüllendirmekten bahsediyorsunuz. Ama tarif ettiğim şeyde, hedefe yaklaşarak (Q-Function veya doğrudan çevreden) ödül kazandı. Bunu, bazı soyut mesafe fikrini öğrenerek yapabilir (denetlenen versiyonda gösterilebilir).
Bir insan bunu öğrendiğinde, aynı sebepten ötürü: İnsan bu yönde ilerideki ödüller duygusu ile hareket ettiği için ödül kazanıyor.
Yeterli eğitim ve veri verildiğinde, takviye öğreniminin bu kavramı kolaylıkla öğrenebileceğini söyleyebilirim. Tahtada diğer ödüller olduğu sürece (örneğin, "tahtanın entropisini en aza indirin ve ödüller almaya çalışın"), ne istediğini düşünmeniz gerekir. Temsilcinin mesafeyi en aza indirmesini veya ödülü en üst düzeye çıkarmasını tercih eder misiniz? Çünkü genel olarak ikisini birden yapamaz. Eğer ikisi arasında bir denge arıyorsanız, o zaman gerçekten sadece mesafeyi de dikkate almak için ödülü yeniden tanımlıyorsunuz.