Q-öğreniminde neden Q harfi seçildi?


17

Neden Q harfi Q-öğrenme adına seçildi?

Çoğu harfler gibi bir kısaltma olarak seçilmiştir π politikası ve için ayakta v değeri simgeler. Ama Q'nun herhangi bir kelimenin kısaltması olduğunu düşünmüyorum.


1
Mecazi anlayışımda Q, belirli bir durumdaki bir eylem için bir miktarı (ödül, maliyet veya optimize edilen her şey olarak adlandırın) ilişkilendiren bir işlevdir.
knk

1
@sycorax çerçevelendi orijinal soru Q-öğrenme bir anlayış ima ve bir açıklama sunmak için, bağlam eklemek yardımcı olacaktır. OP herhangi bir açıklama yapmadan bir temel oluşturmadan kaybolacaktır.
16'da knk

Metaforik Q = Miktar yardımcı olur mu? Bunu devletlerin verdiği eylemin bir
ölçüsü

Yanıtlar:


35

Herkesi hayal kırıklığına uğrattığım için üzgünüm, ama Q hiçbir şey ifade etmiyor :)

Q-learning, Watkins tarafından 1989'da doktora tezinde önerildi , bkz. S.96. Bu sayfadaki denklemdeki Q, her adımda belirli bir şekilde güncellenir. Q, belirli bir durumda eylemden beklenen dönüştür , bkz. Geri dönüş ekonomik veya oyun teorisi anlamındadır, yani bir fonksiyonun geri dönüşü gibi bir bilgisayar bilim terimi değil, indirimli olasılık ağırlıklı ödüller.

Dikkat edin, olasılık için P'yi ve ödül için R'yi nasıl kullandı, bu yüzden dönüş için Q'yu aldı. Bu kadar. Q harfinin seçimi için daha derin bir anlam yoktur.


3
Hiçbir derin anlam ama olduğu (P ve alfabesinde R ile Q'nun uyan o) ve açılımı bir anlam şey .
Sextus Empiricus

2
@MartijnWeterings Hiç bir anlamı değil. Bu tamamen sözdizimsel bir mektup seçimidir, hiçbir anlamsal kaygısı yoktur.
David Richerby

Elbette, semantik düşünceler az olabilir (ve latin veya Yunan harfleri, alfabenin farklı konumlarındaki harfler veya büyük harf ile küçük harf arasındaki farklar sözdizimi ve anlambilim arasında gri bir alan oluşturabileceği için bu tartışılabilir). Q'nun seçimini 'anlamlı' olarak görüyorum çünkü harf biçimi (biraz keyfi) bazı değişken / parametrenin anlamını genişletmek için ifade ediyor. Anlam, harf seçimi ile ilgilidir. U veya v seçildiğinde veya i, j, k veya x, y, z veya iyi bir seçim olmazdı . α,β,γ
Sextus Empiricus

@MartijnWeterings, Q da sıraya benziyor , bu da biraz ilgili çağrışımlar getiriyor
Aksakal

@Aksakal, bu Q'nun kullanımını güçlendiriyor olabilir. Ama, bunun güçlü olduğunu düşünmüyorum. Bu konu hakkında fazla bir bilgim yok, ama bu tezin hızlı bir incelemesinde, harfinin i R i P i veya i V i P i gibi bir miktar için kullanılmış olması çok makul görünüyor . Sonunda 'action-value' gibi 'bazı isimler' verildi ama bu tezde kullanılan harfler alfabeye çok daha fazla bağlı görünüyor. Örn. F g h işlevleri için x y değişkenleri için V U değer işlevi için ve yaklaşık değerlerdir. , vb.QiRiPiiViPif g hx yV U
Sextus Empiricus

0

Q(st,at)Q(st,at)+α(rt+γ×maxaQ(st+1,a)Q(st,at))

But the actual question in my view is why Q-Learning is called so. Though there does not seem to be a satisfactory answer, this link mentions that Andrew Barto, who is one of the founders of Modern Reinforcement Learning, thinks that Q stands for Quality, called so because it characterizes how good the result of pulling an arm would be.


2
Read that thesis and tell me how "quality" makes a sense in the context of the expected return
Aksakal

Though I agree with you, the thesis was written after Watkins consulted Andy about a number of things. Andy may have had a better idea than you think he does.
Ameet Deshpande

Quality doesn't even exist as a distinct concept in learning. You can use the word in its usual sense from English, of course. The expected return, on the other hand, is very well defined in game theory, there's no need to dilute it by attaching vague concepts such as quality. You're not maximizing quality, you're maximizing discounted rewards under the suitable probability measure. If you want to be a little more broad, then you can maximize the utility.
Aksakal
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.