强化学习算法入门实战 曾我部东马 著,段琼 译 中国水利水电出版社

  编辑推荐

  《强化学习算法入门实战》读者对象:大中专院校计算机、人工智能相关专业学生,对机器学习、强化学习算法感兴趣的程序员。

  ● 《强化学习算法入门实战》从初高中学生都熟悉的“平均值计算”的角度出发,简单易懂地解释复杂的强化学习原理。

  ● 使用常见的例子(多臂老虎机问题和网格世界问题)对各种算法进行比较,使它们的特点更易理解。

  ● 对于强化学习的核心算法,提供了Python 3和MATLAB两种类型的代码。执行代码,可直观理解“原理 → 公式 → 程序”这一系列流程。

  内容简介

  作为第一个战胜围棋世界冠军的人工智能机器人AlphaGo,我们知道其主要工作原理是深度学习。随着AlphaGo Zero和Alpha Zero的相继发布,作为机器学习经典算法之一的强化学习,在人工智能领域受到了更多的关注。

  《强化学习算法入门》使用通俗易懂的语言,按照“原理-公式-程序”的方式,对强化学习的基础知识进行了详细讲解。《强化学习算法入门实战》书中先让大家从熟悉的“平均值计算”作为切入点,学习强化学习的基本概念,然后结合实例学习了函数近似方法、深度强化学习的原理和方法等,比较了各算法的特点和应用,并用Python和MATLAB两种语言进行了编程实现。

  《强化学习算法入门》内容丰富,实践性强,特别适合高校人工智能相关专业学生,机器学习、深度学习工程师等学习强化学习算法。

  作者简介

  [日] 曾我部东马

  理学博士(物理学专业)。曾任马克斯·普朗克研究所(德国)博士研究员、剑桥大学(英国)研究员。2009年回到日本,参与创立了Grid公司,担任董事兼首席技术官。2011年起先后担任东京大学尖端科学技术研究中心特聘助理教授、特聘副教授。2016年3月起任电气通信大学副教授,同时兼任Grid公司首席技术顾问、东京大学尖端科学技术研究中心客座研究员至今。

  他以开发具有“深度学习—深度强化学习—回归预测—优化”功能的跨功能机器学习框架∞ReNom而闻名,目前在开发以量子机器学习为代表的最先进量子算法∞ReNomQ的同时,还致力于使用深度强化学习的“在线优化问题”的研究。

  目录

  第1章 基于“平均”的强化学习的基本概念

   1.0 简介

   1.1 平均值与期望值

   1.1.1 平均值

   1.1.2 期望值

   1.1.3 期望值与平均值的关系

   1.2 平均值和价值

   总结

   1.3 平均值和马尔可夫性

   1.3.1 平均值的计算公式及其变形

   1.3.2 逐次平均值表达和MP

   1.4 用平均值推导贝尔曼方程

   1.4.1 平均值表达和价值函数的引入

   1.4.2 决策型贝尔曼方程式的推导

   1.4.3 概率型贝尔曼方程式的推导

   1.5 蒙特卡罗方法的平均值推导

   1.5.1 总奖励函数G(St)的引入

   1.5.2 总奖励函数G(St)与价值函数V(St)的比较

   1.5.3 总奖励函数G(St)平均值的价值函数v(St)

   1.6 用平均值推导TD方法

   1.6.1 TD(0) 方法的计算公式的推导

   1.6.2 TD(n)方法的计算公式的推导

   总结

  第2章 强化学习中算法的特点及应用

   2.0 简介

   2.1 强化学习中的策略(alS)

   2.1.1 多臂老虎机问题

   2.1.2 E-Greedy策略

   2.1.3 UCB-1策略

   2.1.4 Bayes sampling 策略

   2.2 动态规划法

   2.2.1 E-Greedy (ε=1)策略迭代法

   2.2.2 E-Greedy (ε=0)策略迭代法(On-Policy)

   2.2.3 E -Greedy (ε=0)价值迭代法(Off-Policy)

   2.3 蒙特卡罗方法

   2.4 TD(0)方法

   2.4.1 从策略迭代法推导SARSA方法

   2.4.2 TD(0)-SARSA方法

   2.4.3 由价值迭代法推导TD(0)-Q方法

   2.4.4 完全Off-Policy的TD(0)-Q方法

   2.4.5 局部 Off-Policy的TD(0)-Q方法

   2.4.6 TD(0)-0方法与TD(0)-SARSA方法的比较

   总结

  第3章 函数近似方法

   3.0 简介

   3.1 函数近似的基本概念

   3.2 使用函数近似模型的V(St)表达方式

   3.3 机器学习的价值函数回归

   3.3.1 从误差函数得出的回归和分类

   3.3.2 误差函数的设计与概率梯度下降法

   3.3.3 强化学习中的回归分析机制

   3.4 使用蒙特卡罗方法进行价值函数回归

   3.5 使用TD(0)-SARSA方法进行行动状态价值函数回归

   3.6 使用TD(0)-Q方法进行行动状态价值函数回归

   总结

  第4章 深度强化学习的原理和方法

   4.0 简介

   4.1 TD-Q方法中基于NN的行动价值函数回归

   4.2 基于DQN方法的行动状态价值函数的近似

   4.3 概率策略梯度法

   4.3.1 蒙特卡罗离散策略梯度法

   4.3.2 基线蒙特卡罗离散策略梯度法

   4.3.3 离散型Actor-Critic法

   4.3.4 连续型Actor-Critic法

   4.4 决策型策略梯度法

   4.4.1 DDPG方法

   4.4.2 混合DDPG方法

   4.5 TRPO/PPO方法有Code

   4.5.1 EM算法

   4.5.2 信赖域和自然梯度

   4.5.3 信赖域策略梯度法

   4.6 AlphaGo Zero学习法有Code

   4.6.1 AlphaGo Zero的学习误差函数

   4.6.2 AlphaGo的学习策略π

   4.7 总结与展望

   总结

  参考文献

        《强化学习算法入门实战》https://www.netshop168.com/goods-979881.html