超值優(yōu)惠券
¥50
滿100可用 有效期2天

全場圖書通用(淘書團除外)

不再提示
關(guān)閉
2024個人購書報告 2024中圖網(wǎng)年度報告
歡迎光臨中圖網(wǎng) 請 | 注冊
> >
強化學(xué)習(xí)的數(shù)學(xué)原理(英文版)

強化學(xué)習(xí)的數(shù)學(xué)原理(英文版)

作者:趙世鈺 著
出版社:清華大學(xué)出版社出版時間:2024-07-01
開本: 16開 頁數(shù): 312
中 圖 價:¥94.4(8.0折) 定價  ¥118.0 登錄后可看到會員價
加入購物車 收藏
運費6元,滿39元免運費
?新疆、西藏除外
本類五星書更多>

強化學(xué)習(xí)的數(shù)學(xué)原理(英文版) 版權(quán)信息

強化學(xué)習(xí)的數(shù)學(xué)原理(英文版) 本書特色

·從零開始到透徹理解,知其然并知其所以然; ·本書在GitHub收獲2000 星; ·課程視頻全網(wǎng)播放超過80萬; ·國內(nèi)外讀者反饋口碑爆棚; ·教材、視頻、課件三位一體。

強化學(xué)習(xí)的數(shù)學(xué)原理(英文版) 內(nèi)容簡介

本書從強化學(xué)習(xí)*基本的概念開始介紹, 將介紹基礎(chǔ)的分析工具, 包括貝爾曼公式和貝爾曼* 優(yōu)公式, 然后推廣到基于模型的和無模型的強化學(xué)習(xí)算法, *后推廣到基于函數(shù)逼近的強化學(xué)習(xí)方 法。本書強調(diào)從數(shù)學(xué)的角度引入概念、分析問題、分析算法, 并不強調(diào)算法的編程實現(xiàn)。本書不要求 讀者具備任何關(guān)于強化學(xué)習(xí)的知識背景, 僅要求讀者具備一定的概率論和線性代數(shù)的知識。如果讀者 已經(jīng)具備強化學(xué)習(xí)的學(xué)習(xí)基礎(chǔ), 本書可以幫助讀者更深入地理解一些問題并提供新的視角。 本書面向?qū)娀瘜W(xué)習(xí)感興趣的本科生、研究生、研究人員和企業(yè)或研究所的從業(yè)者。 

強化學(xué)習(xí)的數(shù)學(xué)原理(英文版) 目錄

Overview of this BookChapter 1 Basic Concepts1.1 A grid world example1.2 State and action1.3 State transition1.4 Policy1.5 Reward1.6 Trajectories, returns, and episodes1.7 Markov decision processes1.8 Summary1.9 Q&AChapter 2 State Values and the Bellman Equation2.1 Motivating example 1: Why are returns important?2.2 Motivating example 2: How to calculate returns?2.3 State values2.4 The Bellman equation2.5 Examples for illustrating the Bellman equation2.6 Matrix-vector form of the Bellman equation2.7 Solving state values from the Bellman equation2.7.1 Closed-form solution2.7.2 Iterative solution2.7.3 Illustrative examples2.8 From state value to action value2.8.1 Illustrative examples2.8.2 The Bellman equation in terms of action values2.9 Summary2.10 Q&AChapter 3 Optimal State Values and the Bellman Optimality Equation3.1 Motivating example: How to improve policies?3.2 Optimal state values and optimal policies3.3 The Bellman optimality equation3.3.1 Maximization of the right-hand side of the BOE3.3.2 Matrix-vector form of the BOE3.3.3 Contraction mapping theorem3.3.4 Contraction property of the right-hand side of the BOE3.4 Solving an optimal policy from the BOE3.5 Factors that influence optimal policies3.6 Summary3.7 Q&AChapter 4 Value Iteration and Policy Iteration4.1 Value iteration4.1.1 Elementwise form and implementation4.1.2 Illustrative examples4.2 Policy iteration4.2.1 Algorithm analysis4.2.2 Elementwise form and implementation4.2.3 Illustrative examples4.3 Truncated policy iteration4.3.1 Comparing value iteration and policy iteration4.3.2 Truncated policy iteration algorithm4.4 Summary4.5 Q&AChapter 5 Monte Carlo Methods5.1 Motivating example: Mean estimation5.2 MC Basic: The simplest MC-based algorithm5.2.1 Converting policy iteration to be model-free5.2.2 The MC Basic algorithm5.2.3 Illustrative examples5.3 MC Exploring Starts5.3.1 Utilizing samples more efficiently5.3.2 Updating policies more efficiently5.3.3 Algorithm description5.4 MC ∈-Greedy: Learning without exploring starts5.4.1 ∈-greedy policies5.4.2 Algorithm description5.4.3 Illustrative examples5.5 Exploration and exploitation of ∈-greedy policies5.6 Summary5.7 Q&AChapter 6 Stochastic Approximation6.1 Motivating example: Mean estimation6.2 Robbins-Monro algorithm6.2.1 Convergence properties6.2.2 Application to mean estimation6.3 Dvoretzky's convergence theorem6.3.1 Proof of Dvoretzky's theorem6.3.2 Application to mean estimation6.3.3 Application to the Robbins-Monro theorem6.3.4 An extension of Dvoretzky's theorem6.4 Stochastic gradient descent6.4.1 Application to mean estimation6.4.2 Convergence pattern of SGD6.4.3 A deterministic formulation of SGD6.4.4 BGD, SGD, and mini-batch GD6.4.5 Convergence of SGD6.5 Summary6.6 Q&AChapter 7 Temporal-Difference Methods7.1 TD learning of state values7.1.1 Algorithm description7.1.2 Property analysis7.1.3 Convergence analysis7.2 TD learning of action values: Sarsa7.2.1 Algorithm description7.2.2 Optimal policy learning via Sarsa7.3 TD learning of action values: n-step Sarsa7.4 TD learning of optimal action values: Q-learning7.4.1 Algorithm description7.4.2 Off-policy vs. on-policy7.4.3 Implementation7.4.4 Illustrative examples7.5 A unifed viewpoint7.6 Summary7.7 Q&AChapter 8 Value Function Approximation8.1 Value representation: From table to function8.2 TD learning of state values with function approximation8.2.1 O
展開全部

強化學(xué)習(xí)的數(shù)學(xué)原理(英文版) 作者簡介

趙世鈺,西湖大學(xué)工學(xué)院AI分支特聘研究員,智能無人系統(tǒng)實驗室負(fù)責(zé)人,國家海外高層次人才引進計劃青年項目獲得者;本碩畢業(yè)于北京航空航天大學(xué),博士畢業(yè)于新加坡國立大學(xué),曾任英國謝菲爾德大學(xué)自動控制與系統(tǒng)工程系Lecturer;致力于研發(fā)有趣、有用、有挑戰(zhàn)性的下一代機器人系統(tǒng),重點關(guān)注多機器人系統(tǒng)中的控制、決策與感知等問題。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
返回頂部
中圖網(wǎng)
在線客服