人工智能强化学习07|动态规划：策略

首页 ꄲ 技术博文 ꄲ 强化学习 ꄲ 人工智能强化学习07|动态规划：策略

在上节课中，我们完成了V值的学习过程，并阐述了Q值的计算过程。

强化学习与我们的人生很像，充满了各种挑战与机遇、诱惑与磨难，这是生活给予我们最好的礼物，当你能够把握住这一切，就能收获成功、收获幸福，反之将留下遗憾与悔恨。诸如机会这样的东西，在世界中存在已久，不管你是否能抓住它，都不能否认它的存在，这类东西就是 V值。那些愿意努力，经历过失败、挫折与磨难并积累经验的人更具有抓住机会并创造成功的可能，他们有很好的 Q 值，他们每走一步之前对接下来所发生的事情往往有着神预测，因为他们充分了解往下走每个时间步所要付出的代价与能够收获的财富。

强化学习08

Q值学习过程

在上节课中，你已经亲身体验到Q值的计算方式：计算它需要两个参数，第一个是做出行动时能够获得的奖励 r ，例如小狗知道正确完成主人的指令会获得美食的奖励；第二个是完成行动之后能够获得的资源v，例如小狗在正确完成主人的指令之后智力会有所成长。所以一旦下一步的 r跟v 都知道了，整个Q值的学习过程就是把每一步任何可能的q值计算出来，伪代码如下(凡大写字母都是表示整体，小写字母表示该整体中的一个)：

Function 计算Q值(R, V)：

For s in S：

For a in A:

Return Q(s,a)

讲解一下：Q值的计算是基于V值已知这个前提的，也就是说AI在行走时应该提前知道它下一步的状态是啥，即游戏地图。例如AlphaGo需要在下棋之前了解到围棋棋盘上格子的数量，不能把棋子放置在棋盘外面。所以这个更新算法中，对于每一个格子s和每一个可以选择的动作行为a，在s处做了动作a后会抵达处，AI要使用V值公式将处的V值计算出来，然后用于计算这个条件下的q值，并将其更新到Q矩阵中。通过对所有状态S下的所有可能行为A的遍历，更新好的Q矩阵就是我们想要的Q值，也就是AI的行为倾向。

强化学习08-01

高级智能——策略π

下面我们来看看更加高级的内容：策略！想象一下AlphaGo，如果它下围棋时完全按照我们玩冰面游戏那么做，每两次落棋非要选择相邻的位置，那就完全失去大师级的光环了。但它是如何学会那些厉害的下棋策略呢？其实我们的冰面游戏也有策略的事，例如下面两种走法看起来好像是等价的。

强化学习08-02 强化学习08-03

都是正确的路线，但是如何选择一条相对来说最好的路，就是策略π要做的事了，我们称计算并选择策略的过程为——策略优化过程。这个优化过程是通过已知的V值与Q值，来试图寻找一个比当前策略更好的策略，看看下面的详细步骤。

格子名称：s1

V(s1) = 0

r(s1_右) = +1

q(s1_右) = 3

r(s1_下) = +1

q(s1_下) = 2

格子名称：s2

V(s2) = 2

r(s2_左) = -1

q(s2_左) = -1

r(s2_下) = +5

q(s2_下) = 10

格子名称：s3

V(s2) = 1

r(s2_上) = -1

q(s2_上) = -1

r(s2_右) = +5

q(s2_右) = 10

终点

V=5

如上图所示，从s1走向终点有两条路可以选择，s1-s2-终点与s1-s3-终点。首先，所有返回的路都具备负值奖励（例如s3-s1），AI都不会选择。然后AI就需要使用各种r值q值进行计算，决定到底走哪条路作为最好策略。观看s1位置的q值，如果向右去到s2会变为3，向下去到s3则会变为2，似乎从行为倾向上，AI更倾向于向右。再看看终点，任何一条路抵达终点都会获得10点的q值，所以我们就有下面的表来支持我们选择s1-s2-终点这条路：

路线	Q值	Q值
S1 – S2 – 终点	3	10
S1 – S3 – 终点	2	10

回顾一下这个过程，我们的AI在S1位置执行了思考与决策，比较了当时情况下的Q值，选出了Q值较大的那条路。如果对于每一条从起点到终点的可行路径规划，AI在所有路径的每个时间步都深思熟虑一下，考察一下自己即将做出选择之后的Q值，再做出行动，那么当AI思考完所有可能的路线后，就可以总结出全程奖励最高的路线，这就是最优策略。虽然这种最优只是相对的，但总好过不思考就乱走。

Try it yourself!

如果你看明白了，就赶紧拿张纸，把完整的冰面游戏画出来，按你的心情初始化所有的V值，计算Q值，设计至少两条路，并计算这两条路的Q表，选择最优路线吧！

(The End)

2018年8月29日 18:30

ꄘ浏览量：0

ꂃ前一个：无

ꁹ后一个：无

VUE考试注册预约电话：010-82608710

全国热线：400-004-8626

人工智能强化学习07|动态规划：策略