IT课程

line-W

IT技术专业学习平台
IT人才专业服务提供商

 

line-W

全国热线:400-004-8626

line-W

04|马尔科夫决策过程

首页    技术博文    强化学习    04|马尔科夫决策过程

人生在世,难免会遇到选择题,甚至每天都充满了选择题。例如早餐是吃牛奶面包还是豆浆油条?开车加汽油是加95还是92?晚上做运动是去打球还是游泳?这一系列的问题都与我们的生活息息相关,所以现代人总会被一种称为“选择困难症”的新型疾病所困扰。而这种疾病的产生恐怕要从几十年前说起,因为我们的父母辈们似乎很少感染到“选择困难症”,而那正是因为当时的社会相对于现在而言没有很高的信息自由度。

信息就如同太阳所辐射的光线,只要有介质就可以自由传播,随着社会的进步,人类似乎对信息的传播效率有着疯狂的追求,例如十几年前并没有人想过水果可以煮茶,但如今几乎卖咖啡的西餐厅都会有水果茶。各种创造、创意不断在我们的世界中生根发芽,而这种创造力为信息的自由传播提供了极强的动力。

强化学习第四课01

人类为何如此热衷于创造呢?因为每件事情对我们来说都有一定的难度,当一件事情我们无法完成,甚至没有任何思路寻找任何一个方法时,我们称这样的问题为NP-Hard问题。这种问题已经困难到连上帝都无能为力,例如“如何找个最好的男朋友?”。显然这样的问题无论怎样回答或研究,都无法得到最优解,生活中存在大量NP-Hard问题,于是人们开始对问题进行分解转化:

  • 爱做家务的比不爱做家务的好;

  • 家庭富有的比家庭贫穷的好;

  • 不花心的比花心的好。

还有一大堆类似的限制条件,人类在面对无解问题时,总试图将其分解为若干二分类问题,因为处理二分类问题时人们感觉舒服的多。但是大量二分类问题连接起来也会有点接受不了:

  • 面包是否需要烤边?

  • 奶茶要热还是冻?

  • 冻的话多冰还是少冰?

  • 多糖还是少糖?

  • 三文治加火腿还是鸡蛋?

  • 蔬菜要蒜蓉还是清炒?

简简单单吃个饭都要面对这么多连续产生的二分类问题,总有一个会让你感到“选择困难”,但终究这些二分类问题的产生都是为了让我们的生活更加美好,贫与富有时只是区别于有没有选择而已。

强化学习第四课02

然而,真正对我们产生挑战的,不是问题本身,而是问题之后的问题,例如对食物甜度的要求会进而引发我们对肥胖的思考,即考虑到未来可能变胖,摆在面前的食物就决定不加糖了。可见人们做出决策的过程是需要结合社会环境来完成的,并不是简简单单回答一个二分类问题“要不要加糖”,毕竟在吃完这顿之后就该接受环境带来的“奖赏”了:“生活很开心 OR 增胖一公斤”。

强化学习第四课03

让我们再来看一个例子,假如我们在广场上设置一个可以拾取垃圾的机器人,它有以下几种行动方式:

  • 去充电(Recharge);

  • 原地等待(Wait);

  • 狂奔寻找垃圾(Search)。

强化学习第四课04

我们来整理一些关于行动(a)的场景。

机器人在正常情况下时:

  • 行动1:拼命寻找垃圾,这可能会导致电量降低;

  • 行动2:现场没有垃圾时,它选择原地等待,这会节省电量。

机器人电量不足时:

  • 行动3:寻找充电站,这会导致电量恢复正常;

  • 行动4:原地等待工程师来帮助它,这是个保守策略,当然选择这样的策略不会增加自己的电量;

  • 行动5:继续工作,可能会在工作途中偶遇充电站,导致自己电量恢复正常,但也可能不会遇到充电站,这显然是一个风险策略。

以上这些场景我们可以用下面这幅图来表示(其中high跟low分别表示电量的高与低):

强化学习第四课05

解释一下图中的内容。

环境状态(s):机器人身处的环境只有两种状态:high与low

行动概率(p):

  • 行动1:机器人高电量时等待就肯定会维持高电量,所以概率为1(100%);

  • 行动2:机器人高电量时继续工作有α的概率维持高电量,那么就有1-α的概率变为低电量;

  • 行动3:机器人低电量时寻找充电站,会有1(100%)的概率恢复为高电量;

  • 行动4:机器人低电量时原地等待,电量不会发生变化,所以保持低电量的概率为1(100%);

  • 行动5:机器人低电量时继续工作,会有β概率维持低电量,也会有1-β概率偶遇充电站。

接下来就是需要教会机器人哪些策略是对它的人生有益的,哪些是有害的,毕竟我们希望机器人电量低时无需继续工作而电量高时应该拼命寻找垃圾。我们将这种环境对机器人的反馈称为奖励(r),总结下来各种参数如下表所示:

强化学习第四课06

像这样给予机器人环境和奖励机制,并由其自然行动的决策过程,我们称为马尔科夫决策过程。同时,马尔科夫决策过程也是强化学习的基础结构,目前人工智能的任何强化学习都必须建立在马尔科夫决策过程之上,它已成为人工智能技术不可或缺的设计蓝本。

强化学习第四课07

如果正式开始讲解马尔科夫决策过程,就会有大堆的公式要说明。所以我们先不进入深层次的理论研究,先来看看它是如何被应用在我们实际生活中的。

“强化学习最早可以追溯到巴甫洛夫的条件反射实验,它从动物行为研究和优化控制两个领域独立发展,最终经Bellman之手将其抽象为马尔可夫决策过程(Markov Decision Process,MDP)问题而完成形式化。对于环境反馈的有利奖赏,Agent将强化引发这种奖赏的动作,并在以后与环境交互的过程中更偏向于执行该动作。我们尝试将强化学习方法引入商品的搜索排序中,以优化用户在整个搜索过程中的收益为目标,根据用户实时行为反馈进行学习,实现商品排序的实时调控。”

强化学习第四课08

以上是阿里巴巴技术专家在自己的书中,阐释的将强化学习应用于淘宝搜索点击排序问题的说明。可见马尔科夫决策过程已经可以与主流应用相结合,而基于马尔科夫决策过程的强化学习技术,则一定会在人工智能的舞台上扮演举足轻重的角色。


参考文献:

《Reinforcement Learning: An Introduction》 Richard S. Sutton and Andrew G. Barto 2018;

《强化学习在阿里的技术演进与业务创新》 阿里巴巴搜索事业部等 2018


2018年9月5日 14:35
浏览量:0
收藏
本网站由阿里云提供云计算及安全服务 Powered by CloudDream