Bence yorumlar temel olarak doğru yolda.
PID denetleyicileri, sürekli dinamik sistemlerde en uygun ilkeleri bulmak için kullanışlıdır ve çoğu zaman, bu alanlar RL için kıstas olarak da kullanılır, çünkü tam olarak kolayca türetilebilen bir optimal politika vardır. Bununla birlikte, pratikte, kolayca bir tane tasarlayabileceğiniz herhangi bir etki alanı için bir PID denetleyicisini tercih edersiniz: denetleyicinin davranışları iyi anlaşılırken, RL çözümlerinin yorumlanması genellikle zordur.
RL'nin parladığı yerlerde, iyi davranışın neye benzediğini bildiğimiz görevlerde (yani ödül işlevini biliyoruz) ve sensör girişlerinin neye benzediğini biliyoruz (yani belirli bir durumu sayısal olarak tamamen ve doğru bir şekilde tanımlayabiliriz), ancak çok azımız var. ya da acentenin bu ödülleri kazanmak için ne yapmasını istediğimizi bilmiyoruz.
İşte iyi bir örnek:
Bilinen hareket biçimleri olan bir düşman uçağının önünden arkasına, en az miktarda yakıt kullanarak bir manevra yapmak için bir ajan yapmak isteseydim, bir PID kontrolörü kullanmayı tercih ederim .
Bir uçağı kontrol etmek ve düşman uçağını karaya yetecek kadar yakıt bırakarak düşürmek için bir ajan yapmak istedim , ancak düşman uçağının nasıl saldırabileceğine dair resmi bir açıklama olmadan (belki de bir insan uzman uçağımıza karşı simülasyonlarda pilot olacak) , RL'yi çok tercih ederim .