文章分类结果页

盘点五大人工智能应用行业

技术是一种变革力量，目前人工智能（AI）技术已成为技术变革的领导者。因为AI不仅自身表现优越，同时它还涵盖了许多不同的领域。从深度学习技术应用于医疗、金融、机器人开发以及自动驾驶等现状来看，AI已经取得了丰硕的成果，但还不能被称为成熟，毕竟我们确实很难量化AI对经济和个别行业的确切影响。

넶156 19-04-22
感受人工智能的强大！Open AI 2:0碾压TI8冠军OG战队

人工智能OpenAI在当地时间4月13日于美国旧金山迎战去年Ti8冠军OG战队，把Dota 2世界冠军打得落花流水，在刚刚结束的三局两胜比赛中轻松获胜。两局比赛加在一起，人类只推掉了AI两座外塔。最惨烈的第二局，人类直到最后击杀人头数还是个位数。

넶200 19-04-19
Randomly Wired Neural Networks

最近AI圈又被大神何恺明等人刷屏了，计算机视觉领域又出现更加有效的方法，即让神经网络回归连接主义的本质又创造了新的模型思维。众所周知，人工智能的发展过程包含了符号主义、行为主义与连接主义，基于计算机视觉的人工智能程序自AlexNet以来就大量采用了神经网络技术，其特征提取的优秀效果为自动驾驶等AI应用创造了基本条件。

넶354 19-04-11
经典 | DRQN神经网络

本文是一篇将强化学习与深度学习结合应用的经典论文，文章来自德克萨斯大学奥斯汀分校，最后一版于2017年修订。DQN神经网络是用于像Atari游戏这样的游戏AI程序，它通过观察游戏屏幕内容，由卷积网络（CNN）捕获屏幕中每一帧的特征来使AI能够“理解”玩游戏的过程，通过强化学习的奖罚机制，让AI成为游戏大师。然而DQN存在一个重要问题：那就是对屏幕捕获的记忆量有限。

넶620 19-03-15
案例分析 | 谷歌人工智能机器人TossBot

投掷、滑动、旋转、摆动、捕捉和其他运动技能是未来智能机器人运动系统的基础，这些技能对目前最先进的机器人系统来说也仍然存在挑战。尽管在目前的技术能够使机器人有效掌握物体，视觉上自我适应以及从实际经验中进行学习，但机器人的操作过程仍需要仔细考虑如何拾取、处理和放置各种物体，这需要大量的计算与耗时。

넶112 19-04-03
人工智能强化学习11|小白都能秒懂的蒙特卡罗

蒙特卡罗方法（Monte Carlo Methods）一词最早是由计算机之父冯·诺伊曼等人于20世纪40年代提出的。Monte Carlo本身是一座非常著名的赌城，所以这一算法与“赌”就结下了不解之缘。如今，蒙特卡罗方法在金融工程学、宏观经济学、生物医学、计算物理学（如粒子输运计算、量子热力学计算、空气动力学计算、核工程）等领域都获得了广泛的应用。在人工智能（AI）领域，蒙特卡罗方法则是强化学习的三大基本学习方法之一。本篇是蒙特卡罗方法的上篇，旨在解释蒙特卡罗方法的基本算法规则。

넶157 19-04-04
人工智能强化学习08|Q-Learning Algorithm

在上节课中，我们学会了如何为一个强化学习过程建立Q表。建立Q表的先决条件是，AI知道游戏地图（地图价值）与游戏规则（奖励机制）。泛化理解一下这个概念，如果你想创造一个具备智能并帮你买买买的AI，即AI可以通过不断的浏览某宝，然后不断的尝试购买来测试你的心情。显然你不希望AI买一大堆你不用的东西，真正智能的AI是完全懂你的，帮你在最短时间内找到心仪物品的靠谱商家。AI通过建立Q表来完成它的一系列购买动作，Q表上的得分越高说明AI买的东西越正确

넶224 18-09-19
人工智能强化学习07|动态规划：策略

强化学习与我们的人生很像，充满了各种挑战与机遇、诱惑与磨难，这是生活给予我们最好的礼物，当你能够把握住这一切，就能收获成功、收获幸福，反之将留下遗憾与悔恨。诸如机会这样的东西，在世界中存在已久，不管你是否能抓住它，都不能否认它的存在，这类东西就是 V值。那些愿意努力，经历过失败、挫折与磨难并积累经验的人更具有抓住机会并创造成功的可能，他们有很好的 Q 值，他们每走一步之前对接下来所发生的事情往往有着神预测，因为他们充分了解往下走每个时间步所要付出的代价与能够收获的财富。

넶117 18-08-29
人工智能强化学习06|动态规划：价值与学习

在强化学习第五课中，我们构建了一个冰面游戏，并描述了动态规划过程中的状态价值函数v的计算方式，眼神不错的同学可能已经注意到了，我在第五课中对于状态价值函数，既使用过小写的v也使用过大写的V，到底哪个才是状态价值函数的真身呢？答案非常梦幻：v是状态价值函数的最终形态，是一个实数价值，而V则是AI处于不同格子s时的状态价值函数V(s)的集合，是一个矩阵！

넶99 18-08-08
人工智能强化学习05|动态规划：场景

在强化学习第四课中，我参考了《Reinforcement Learning: An Introduction》一书的内容，而这本书对动态规划同样有着精准的定义： “The term dynamic programming (DP) refers to a collection of algorithms that can be used to compute optimal policies given a perfect model of the environment as a Markov decision process (MDP).”所以讨论动态规划前，需要确定所讨论的过程是一个有限马尔可夫过程，即物体在环境中具备状态（s,集合为S），可以完成行动（a，集合为A），会获得环境给予的相应奖励（r, 集合为R），而这一切都是具有概率的，而每一次动作的概率，就像我们股票每次的买进卖出一样，关乎我们的长期收益。

넶115 18-07-25