炼厂环境管理体系手册 9787518323258 国外炼油化工新技术丛书【铭悦好书】
¥117.94定价:¥117.94
正版书籍 策略前展、策略迭代与分布式强化学习 清华大学出版社 正版图书支持发票 七天无理由退货让您购物无忧
通过本书可以了解强化学习中策略迭代,特别是Rollout方法在分布式和多智能体框架下的新进展和应用。本书可用作人工智能或系统与控制科学等相关专业的高年级本科生或研究生作为一个学期的课程教材。也适用于开展相关研究工作的专业技术人员作为参考书阅读。
¥104.25定价:¥386.11 (2.71折)
Product Details 基本信息 ISBN-13 书号 9787302599814 Author 作者 (美)德梅萃·P.博赛卡斯 Format 版本 平装-胶订 Pages Number 页数 364页 Publisher 出版社 清华大学出版社 Publication Date 出版日期 2022-04-01 Product Dimensions 商品尺寸 16开 Language 语种 其它(含多语) Book Contents 内容简介 本书利用不动点理论问题的紧密关联性,阐述以总成本为目标的序贯决策问题的核心理论和算法的近期新研究进展,重点讨论以动态规划为基础的抽象映射,并定义了相关的数学特征。本书聚焦于抽象映射的两个基本性质——单调性和(加权超范数)压缩性。事实上,动态规划理论分析和算法的本质主要取决于这两种属性是否存在,而问题的其余结构在很大程度上是无关紧要的。除了极特别的情况,本书将始终假设单调性成立,围绕抽象映射的压缩
¥71.00定价:¥142.00 (5折)
策略前展、策略迭代与分布式强化学习 9787302599388
Product Details 基本信息 ISBN-13 书号 9787302599388 Author 作者 (美)德梅萃·P.博赛卡斯 Format 版本 平装-胶订 Pages Number 页数 500页 Publisher 出版社 清华大学出版社 Publication Date 出版日期 2022-04-01 Product Dimensions 商品尺寸 16开 Language 语种 其它(含多语) Book Contents 内容简介 本书主要内容:第1章为动态规划原理;第2章为策略前展与策略改进;第3章为专用策略前展算法;第4章为值和策略的学习;第5章为无限时间分布式和多智能体算法。 横空出世的围棋软件AlphaZero算法对本书有很大影响。本书内容同样基于策略迭代、值网络和策略网络的神经网络近似表示、并行与分布式计算和前瞻*小化约简技术的核心框架构建,并对算法的适用范围做了拓展。本书的特色在于给出了分布式计算和多智能体系统框架下的强化学习策略
¥116.00定价:¥232.00 (5折)
强化学习与最优控制 德梅萃·P. 博塞克斯 清华大学出版社 人工智能 翻译 MIT教材自营同款
¥158.40定价:¥158.40
强化学习与控制 (美)德梅萃·P.博塞克斯 著 李宇超 译 人工智能 专业科技 清华大学出版社 978730265644 可开发票 联系在线客服索取
¥161.12定价:¥161.12
《指南针英语·成功英语阅读》是一套英语阅读训练丛书,符合初中生的认知水平,有助于激发英语阅读兴趣,提高阅读能力,熟记初中阶段需要掌握的核心词汇。 符合《英语课程标准》对初中英语阅读的目标、技能、知识、学习策略的要求。 内容贴近初中生生活,具有极强的时代感和真实感。 语言鲜活地道,很多文章可以作为习作范文。 体裁丰富,形式多样,包括故事、日记、信件、对话、演讲、广告、图表等。 练习新颖活泼,有助于提高学生推理判断、分析归纳等逻辑思维能力。 每篇文章均标有词汇量与所需阅读时间,便于自测。
¥11.90定价:¥15.80 (7.54折)