在强化学习第四课中,我参考了《Reinforcement Learning: An Introduction》 一书的内容,而这本书对动态规划同样有着精准的定义: “The term dynamic programming (DP) refers to a collection of algorithms that can be used to compute optimal policies given a perfect model of the environment as a Markov decision process (MDP).”所以讨论动态规划前,需要确定所讨论的过程是一个有限马尔可夫过程,即物体在环境中具备状态(s,集合为S),可以完成行动(a,集合为A),会获得环境给予的相应奖励(r, 集合为R),而这一切都是具有概率的 ,而每一次动作的概率,就像我们股票每次的买进卖出一样,关乎我们的长期收益。
넶228
18-07-25