Takviye Öğrenmeyi PID Kontrolüne karşı ne zaman kullanmalıyım?


12

OpenAIGym'deki Lunar Lander gibi sorunlara çözüm tasarlarken , Takviye Öğrenme, acenteye başarılı bir şekilde inmek için yeterli eylem kontrolü sağlamanın cazip bir yoludur.

Ancak, PID kontrolörleri gibi kontrol sistemi algoritmalarının Takviye Öğrenme'den daha iyi olmasa da yeterli bir iş yapacağı durumlar nelerdir?

Gibi sorular bu bir bu soruya teorisini ele büyük bir iş yapmak, ancak pratik bileşeni gidermek için pek yok.

Bir Yapay Zeka mühendisi olarak, bir problem alanının hangi unsurları bana bir PID kontrolörünün bir problemi çözmek için yetersiz olduğunu ve bunun yerine bir Takviye Öğrenme algoritmasının kullanılmasını önermelidir (ya da tam tersi)?


PID hakkında temel fikrim tasarımın kolay olmadığını söylüyor. Çok sayıda integral ve diferansiyel var. Yani bu temel olarak istatistikleri ML yaklaşımlarıyla değiştirdiğinizde aynı fikirdir. Kontrol sistemleri kesinlikle kusursuz ama çok fazla iş var.
DuttaA

2
aslında çok fazla iş değil, endüstrideki oldukça standart, MATLAB gibi modern sistem tasarım araçlarını kullanarak PID veya diğer kontrol cihazlarını ihtiyaçlarınıza göre kolayca ayarlayabilirsiniz. Takviye öğrenimi pratikte uygulanmaz çünkü veri bolluğuna ihtiyaç duyar ve klasik kontrol teorisi gibi teorik garantiler yoktur. Bu arada, contoller tasarımı doğrudan integraller / diferansiyellerle çalışmayı içermez, lineer sistemler için tüm işler basit cebirsel manipülasyonları içeren Laplace alanında yapılır
Brale_

@Brale_ ama yine de çok fazla teorik bilgi içeriyor .. Laplace alanı sadece farkı basitleştirir, ancak sistemlerin kararsız hale gelmeyeceği şeyleri (kutuplar ve sıfırlar) nasıl tasarlayacağınızı bilmeniz gerekir. Bu şeylerin gerçekte nasıl çalıştığını görmek bana çok zor geliyor.
DuttaA

2
Geçmiş projelerde bana yardımcı olan iyi bir kural olarak, birkaç politikayla optimal politikayı (PID, RL veya başka türlü) açıklayamazsanız, PID'ler gerçekten zor olacaktır. Pacman için en uygun politika nedir?
Jaden Travnik

Yanıtlar:


5

Bence yorumlar temel olarak doğru yolda.

PID denetleyicileri, sürekli dinamik sistemlerde en uygun ilkeleri bulmak için kullanışlıdır ve çoğu zaman, bu alanlar RL için kıstas olarak da kullanılır, çünkü tam olarak kolayca türetilebilen bir optimal politika vardır. Bununla birlikte, pratikte, kolayca bir tane tasarlayabileceğiniz herhangi bir etki alanı için bir PID denetleyicisini tercih edersiniz: denetleyicinin davranışları iyi anlaşılırken, RL çözümlerinin yorumlanması genellikle zordur.

RL'nin parladığı yerlerde, iyi davranışın neye benzediğini bildiğimiz görevlerde (yani ödül işlevini biliyoruz) ve sensör girişlerinin neye benzediğini biliyoruz (yani belirli bir durumu sayısal olarak tamamen ve doğru bir şekilde tanımlayabiliriz), ancak çok azımız var. ya da acentenin bu ödülleri kazanmak için ne yapmasını istediğimizi bilmiyoruz.

İşte iyi bir örnek:

  • Bilinen hareket biçimleri olan bir düşman uçağının önünden arkasına, en az miktarda yakıt kullanarak bir manevra yapmak için bir ajan yapmak isteseydim, bir PID kontrolörü kullanmayı tercih ederim .

  • Bir uçağı kontrol etmek ve düşman uçağını karaya yetecek kadar yakıt bırakarak düşürmek için bir ajan yapmak istedim , ancak düşman uçağının nasıl saldırabileceğine dair resmi bir açıklama olmadan (belki de bir insan uzman uçağımıza karşı simülasyonlarda pilot olacak) , RL'yi çok tercih ederim .

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.