购***晨
购***晨
PLUS会员
从马尔科夫决策过程MDP,到决策/动作状态转移概率矩阵已知时的基于模型的动态规划方法,转移概率矩阵未知的基于无模型的强化学习方法。无论转移概率矩阵是否已知,都需要策略迭代算法/值迭代算法/策略搜索算法。就像强化学习(或增强学习)的名字暗示的那样,其中还包括bootstrapping算法。无模型的强化学习中的蒙特卡洛MC算法/时间差分TD算法。连续空间下的值函数逼近算法。顺带补充了一些统计/优化/gym/TensorFlow/Python/强化学习前沿等内容。好书推荐。不过别用这个入门!入门概念不清晰!推荐去看吴恩达和david silver的课程。 优点是后面的数学证明比较全。有个问题,发现主线和配图公式以及例子几乎照搬ucl的ppt.
强化学习入门 2019-12-09 14:25 来自京东Android客户端
还可以输入200 提交
品类齐全,轻松购物 多仓直发,极速配送 正品行货,精致服务 天天低价,畅选无忧
购物指南
购物流程
会员介绍
生活旅行/团购
常见问题
大家电
联系客服
配送方式
上门自提
211限时达
配送服务查询
配送费收取标准
海外配送
支付方式
货到付款
在线支付
分期付款
邮局汇款
公司转账
售后服务
售后政策
价格保护
退款说明
返修/退换货
取消订单
特色服务
夺宝岛
DIY装机
延保服务
京东E卡
京东通信
京东JD+