Örneğin, bu makalenin başlığı şu şekildedir: "Deneyim Tekrarlamalı Örnek Etkin Aktör-Eleştirmen".
Numune verimliliği nedir ve bunu başarmak için önem örneklemesi nasıl kullanılabilir?
Örneğin, bu makalenin başlığı şu şekildedir: "Deneyim Tekrarlamalı Örnek Etkin Aktör-Eleştirmen".
Numune verimliliği nedir ve bunu başarmak için önem örneklemesi nasıl kullanılabilir?
Yanıtlar:
Bir algoritma, her numuneden en iyi şekilde yararlanabiliyorsa örnek verimlidir . İlk kez PONG oynamayı öğrenmeye çalıştığınızı hayal edin. Bir insan olarak, oyunu çok az örneğe göre nasıl oynayacağınızı öğrenmek birkaç saniye içinde sürer. Bu çok "örnek verimli" yapar. Modern RL algoritmalarının sizden bin kat daha fazla veri görmesi gerekir, bu nedenle bunlar örnek verimsizdir.
Onlar ilgilenen olduğunu dağıtımın parçası olmadıklarını off-politika öğrenme durumunda, tüm numuneler yararlıdır. Önemi örneklemebu örnekleri filtrelemek için kullanılan bir tekniktir. Orijinal kullanımı, sadece farklı fakat ilgili bir dağıtımdan numune alabilmekle birlikte bir dağılımı anlamaktı. RL'de, bu genellikle politika dışı öğrenmeye çalışırken ortaya çıkar. Yani, örnekleriniz bir davranış politikası tarafından üretilir, ancak bir hedef politika öğrenmek istersiniz. Dolayısıyla, üretilen numunelerin hedef politikanın yapmış olabileceği numuneler için ne kadar önemli / benzer olduğunu ölçmek gerekir. Dolayısıyla, bu "önemli" numuneleri tercih eden ağırlıklı bir dağılımdan örnekleme yapılmaktadır. Bununla birlikte, neyin önemli olduğunu karakterize etmek için birçok yöntem vardır ve bunların etkinliği uygulamaya bağlı olarak değişebilir.
Politika dışı öneme sahip bu örnekleme stiline en yaygın yaklaşım, bir numunenin hedef politika tarafından üretilme olasılığının bir oranını bulmaktır. Tang ve Abbeel tarafından Önem Örneklemesi ve Olabilirlik Oranı Politikası Gradyanı (2010) Arasındaki Bağlantı Üzerine Bu makale bu konuyu kapsamaktadır.
Örnek Verimlilik, belirli bir performans seviyesine ulaşmak için eğitim sırasında bir ajanın / algoritmanın bir ortamda üretmesi gereken deneyim miktarını (örn. Gerçekleştirdiği eylemlerin sayısı ve sonuçlanan durumların + gözlemlediği ödüllerin sayısı) ifade eder. Sezgisel olarak, bir algoritmanın, politikasını oluşturmak ve hızla geliştirmek için meydana gelen her bir deneyimden faydalanabiliyorsa örnek etkin olduğunu söyleyebilirsiniz. Bir algoritma, birçok deneyim örneğinden yararlı bir şey öğrenemezse ve hızlı bir şekilde gelişmezse, örnek verimliliği zayıftır.
Jaden'in cevabındaki önem örneklemesinin açıklaması çoğunlukla doğru görünüyor.
Sorunuzdaki makalede, önem örneklemesi, 1) çok aşamalı yörüngelerden öğrenme ve 2) tekrar tamponları deneyiminin doğru kombinasyonunu sağlayan bileşenlerden biridir. Bu iki şeyi daha önce birleştirmek kolay değildi (çünkü önemsiz örnekleme olmadan çok adımlı geri dönüşler sadece politika üstü öğrenmede doğrudur ve tekrar tamponundaki eski örnekler eski bir politika tarafından üretilmiştir, bu da onlardan öğrenmenin politika dışı olduğu anlamına gelir. ). Her iki şey de bireysel olarak numune verimliliğini arttırır, bu da yine de bir şekilde birleştirilebileceklerse numune verimliliği için de yararlı olduğunu gösterir.
..finding a ratio of how likely a sample is to be generated by the target policy
Yalnızca davranış politikasını bildiğimiz göz önüne alındığında buna nasıl karar veririz? Hedef politika bulmamız gereken bir şey değil mi?