深入浅出强化学习：原理入门(博文视点出品)：“从马尔科夫决策过程MDP，到决策/动作状态转移概率矩阵已知时的基于模型的动态规划方法，转移概率矩阵未...”

你好，请登录免费注册
我的订单
◇ 我的京东
京东会员
企业采购
◇ 手机京东
◇关注京东
◇客户服务
◇网站导航

京东

> 我的购物车

全部商品分类

商品信息

商品名称：深入浅出强化学习：原理入门(博文视点出品)

评价得分：

(5分)

评论数： 0条

购***晨

PLUS会员

从马尔科夫决策过程MDP，到决策/动作状态转移概率矩阵已知时的基于模型的动态规划方法，转移概率矩阵未知的基于无模型的强化学习方法。无论转移概率矩阵是否已知，都需要策略迭代算法/值迭代算法/策略搜索算法。就像强化学习（或增强学习）的名字暗示的那样，其中还包括bootstrapping算法。无模型的强化学习中的蒙特卡洛MC算法/时间差分TD算法。连续空间下的值函数逼近算法。顺带补充了一些统计/优化/gym/TensorFlow/Python/强化学习前沿等内容。好书推荐。不过别用这个入门！入门概念不清晰！推荐去看吴恩达和david silver的课程。优点是后面的数学证明比较全。有个问题，发现主线和配图公式以及例子几乎照搬ucl的ppt.

强化学习入门 2019-12-09 14:25 来自京东Android客户端

举报 | 分享 | 2 | 0 |

还可以输入200字提交

多品类齐全，轻松购物快多仓直发，极速配送好正品行货，精致服务省天天低价，畅选无忧

购物指南: 购物流程

会员介绍

生活旅行/团购

常见问题

大家电

联系客服

配送方式: 上门自提

211限时达

配送服务查询

配送费收取标准

海外配送

支付方式: 货到付款

在线支付

分期付款

邮局汇款

公司转账

售后服务: 售后政策

价格保护

退款说明

返修/退换货

取消订单

特色服务: 夺宝岛

DIY装机

延保服务

京东E卡

京东通信

京东JD+

京公网安备 11000002000088号  |  京ICP证070359号  |  互联网药品信息服务资格证编号(京)-经营性-2014-0008  |  新出发京零字第大120007号
音像制品经营许可证苏宿批005号  |  出版物经营许可证编号新出发(苏)批字第N-012号  |  互联网出版许可证编号新出网证(京)字150号
网络文化经营许可证京网文[2014]2148-348号  违法和不良信息举报电话：4006561155  Copyright © 2004-2016  京东JD.com 版权所有
京东旗下网站：360TOP  拍拍网   网银在线