Numune verimliliği nedir ve bunu başarmak için önem örneklemesi nasıl kullanılabilir?


Yanıtlar:


14

Bir algoritma, her numuneden en iyi şekilde yararlanabiliyorsa örnek verimlidir . İlk kez PONG oynamayı öğrenmeye çalıştığınızı hayal edin. Bir insan olarak, oyunu çok az örneğe göre nasıl oynayacağınızı öğrenmek birkaç saniye içinde sürer. Bu çok "örnek verimli" yapar. Modern RL algoritmalarının sizden 100 bin kat daha fazla veri görmesi gerekir, bu nedenle bunlar örnek verimsizdir.

Onlar ilgilenen olduğunu dağıtımın parçası olmadıklarını off-politika öğrenme durumunda, tüm numuneler yararlıdır. Önemi örneklemebu örnekleri filtrelemek için kullanılan bir tekniktir. Orijinal kullanımı, sadece farklı fakat ilgili bir dağıtımdan numune alabilmekle birlikte bir dağılımı anlamaktı. RL'de, bu genellikle politika dışı öğrenmeye çalışırken ortaya çıkar. Yani, örnekleriniz bir davranış politikası tarafından üretilir, ancak bir hedef politika öğrenmek istersiniz. Dolayısıyla, üretilen numunelerin hedef politikanın yapmış olabileceği numuneler için ne kadar önemli / benzer olduğunu ölçmek gerekir. Dolayısıyla, bu "önemli" numuneleri tercih eden ağırlıklı bir dağılımdan örnekleme yapılmaktadır. Bununla birlikte, neyin önemli olduğunu karakterize etmek için birçok yöntem vardır ve bunların etkinliği uygulamaya bağlı olarak değişebilir.

Politika dışı öneme sahip bu örnekleme stiline en yaygın yaklaşım, bir numunenin hedef politika tarafından üretilme olasılığının bir oranını bulmaktır. Tang ve Abbeel tarafından Önem Örneklemesi ve Olabilirlik Oranı Politikası Gradyanı (2010) Arasındaki Bağlantı Üzerine Bu makale bu konuyu kapsamaktadır.


2
Tekrar teşekkürler. Temel soru: ..finding a ratio of how likely a sample is to be generated by the target policyYalnızca davranış politikasını bildiğimiz göz önüne alındığında buna nasıl karar veririz? Hedef politika bulmamız gereken bir şey değil mi?
Gokul NC

1
Hedef politikanın oranını, pi'yi, bu eylemi davranış politikasına aykırı olarak alarak, mu. Bu nedenle oran P = pi (s, a) / mu (s, a) 'dır; burada a ve s, sırasıyla mu ve durum tarafından seçilen eylemdir.
Jaden Travnik

1
Benim sorum, sadece mu (s, a) varken pi (s, a) 'dan nereden temin edebiliriz? Yani, hedef politikamız onu bulmaktayken hedef politikayı nereden alıyoruz?
Gokul NC

1
Hedef politikanız rastgele olarak başlatıldı, sadece güncelleme ile ilgili.
Jaden Travnik

5

Örnek Verimlilik, belirli bir performans seviyesine ulaşmak için eğitim sırasında bir ajanın / algoritmanın bir ortamda üretmesi gereken deneyim miktarını (örn. Gerçekleştirdiği eylemlerin sayısı ve sonuçlanan durumların + gözlemlediği ödüllerin sayısı) ifade eder. Sezgisel olarak, bir algoritmanın, politikasını oluşturmak ve hızla geliştirmek için meydana gelen her bir deneyimden faydalanabiliyorsa örnek etkin olduğunu söyleyebilirsiniz. Bir algoritma, birçok deneyim örneğinden yararlı bir şey öğrenemezse ve hızlı bir şekilde gelişmezse, örnek verimliliği zayıftır.

Jaden'in cevabındaki önem örneklemesinin açıklaması çoğunlukla doğru görünüyor.

Sorunuzdaki makalede, önem örneklemesi, 1) çok aşamalı yörüngelerden öğrenme ve 2) tekrar tamponları deneyiminin doğru kombinasyonunu sağlayan bileşenlerden biridir. Bu iki şeyi daha önce birleştirmek kolay değildi (çünkü önemsiz örnekleme olmadan çok adımlı geri dönüşler sadece politika üstü öğrenmede doğrudur ve tekrar tamponundaki eski örnekler eski bir politika tarafından üretilmiştir, bu da onlardan öğrenmenin politika dışı olduğu anlamına gelir. ). Her iki şey de bireysel olarak numune verimliliğini arttırır, bu da yine de bir şekilde birleştirilebileceklerse numune verimliliği için de yararlı olduğunu gösterir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.