强化学习数学基础精讲

马尔可夫决策过程与贝尔曼方程详解

4 个模块13 节课约 3.7 小时初学者

课程介绍

本课程面向强化学习领域的初学者，旨在帮助学员掌握强化学习的核心数学基础。通过本课程，学员将深入理解马尔可夫决策过程（MDP）和贝尔曼方程的基本概念及其应用，为进一步学习强化学习算法打下坚实的理论基础。课程适合有一定数学基础但尚未接触强化学习的学员，学习后将具备分析简单强化学习问题的能力。

共 4 个模块

1.1 马尔可夫过程的基本概念

1.2 状态转移矩阵与马尔可夫链

1.3 马尔可夫过程的应用实例

2.1 马尔可夫决策过程的核心要素

2.2 MDP模型的实际构建

2.3 策略与状态值函数的初步理解

3.1 贝尔曼方程的推导与核心思想

3.2 状态值函数的计算方法

3.3 贝尔曼方程的应用案例

4.1 贝尔曼最优方程的概念与推导

4.2 最优策略的求解方法

4.3 最优策略的应用与案例分析

4.4 贝尔曼最优方程的数值解法