Neden Q harfi Q-öğrenme adına seçildi?
Çoğu harfler gibi bir kısaltma olarak seçilmiştir politikası ve için ayakta değeri simgeler. Ama Q'nun herhangi bir kelimenin kısaltması olduğunu düşünmüyorum.
Neden Q harfi Q-öğrenme adına seçildi?
Çoğu harfler gibi bir kısaltma olarak seçilmiştir politikası ve için ayakta değeri simgeler. Ama Q'nun herhangi bir kelimenin kısaltması olduğunu düşünmüyorum.
Yanıtlar:
Herkesi hayal kırıklığına uğrattığım için üzgünüm, ama Q hiçbir şey ifade etmiyor :)
Q-learning, Watkins tarafından 1989'da doktora tezinde önerildi , bkz. S.96. Bu sayfadaki denklemdeki Q, her adımda belirli bir şekilde güncellenir. Q, belirli bir durumda eylemden beklenen dönüştür , bkz. Geri dönüş ekonomik veya oyun teorisi anlamındadır, yani bir fonksiyonun geri dönüşü gibi bir bilgisayar bilim terimi değil, indirimli olasılık ağırlıklı ödüller.
Dikkat edin, olasılık için P'yi ve ödül için R'yi nasıl kullandı, bu yüzden dönüş için Q'yu aldı. Bu kadar. Q harfinin seçimi için daha derin bir anlam yoktur.
But the actual question in my view is why Q-Learning is called so. Though there does not seem to be a satisfactory answer, this link mentions that Andrew Barto, who is one of the founders of Modern Reinforcement Learning, thinks that stands for Quality, called so because it characterizes how good the result of pulling an arm would be.