Andrew Ng'in pekiştirme öğrenimi hakkındaki ders notlarını okuyordum ve politika yinelemesinin neden ve optimum politika en iyi değer fonksiyonuna dönüştüğünü anlamaya çalışıyordum .
Politika yinelemesini hatırlayın:
Açgözlü bir algoritmanın neden en uygun politikaya ve en uygun değer işlevine götürmesi neden? (Açgözlü algoritmaların her zaman bunu garanti etmediğini veya yerel optima'larda takılıp kalmayacağını biliyorum, bu yüzden sadece algoritmanın en iyiliği için bir kanıt görmek istedim).
Ayrıca, bana göre politika yinelemesi, kümelenme veya gradyan inişine benzer bir şey. Kümelemeye, çünkü parametrelerin mevcut ayarıyla optimize ediyoruz. Degrade inişe benzer, çünkü sadece bazı işlevleri arttırıyor gibi görünen bir değer seçer. Bu iki yöntem her zaman optimal maksimuma yaklaşmaz ve bu algoritmanın bahsettiğim öncekilerden nasıl farklı olduğunu anlamaya çalışıyordum.
Bunlar benim düşüncelerim:
Diyelim ki bazı politikalarla başlıyoruz o zaman, ilk adımdan sonra, bu sabit politika için:
Burada V ^ {(1)}, ilk yineleme için değer işlevidir. Sonra ikinci adımdan sonra değerini artırmak için yeni bir politika . Şimdi, yeni politika , algoritmanın ikinci adımını yaparsak aşağıdaki eşitsizlik geçerli olur:
Biz seçim Çünkü önceki adımda değer fonksiyonunu artırmak için ikinci aşamada (yani artırmak için . Şimdiye kadar, onun seçimi açık olduğunu sadece artabilmektedir V ^ {(1)}, çünkü bu şekilde . Ancak, karışıklığım tekrar adımında geliyor çünkü tekrar edip 1. adıma geri döndüğümüzde, aslında tamamen değiştiriyoruz çünkü yeni politika için yeniden hesaplıyoruz . Hangi verir:
ama değil:
i iyileştirmek için seçildiği için bu yeni bir değil, çünkü bir sorun gibi görünüyor . Temel sorun, yani geliştirmek için garanti yaparak yerine arasında değer fonksiyonu olduğunda, . Ancak yineleme adımında değerini , ancak değer işlevinin her tekrarda tekdüze bir şekilde geliştiğini nasıl garanti ettiğini göremiyorum çünkü değer fonksiyonunu iyileştirmek için hesaplandığında değer işlevleriancak 1. adım değerini (bu kötüdür, çünkü I yalnızca önceki değer işlevini geliştirdi).