算法实现挑战：SARSA与Q-Learning对比实验

从零实现两大经典强化学习算法，在实验对比中深入理解时序差分学习的核心思想

6 个模块22 节课约 6.4 小时初学者

课程介绍

本课程面向对强化学习感兴趣的编程初学者，引导你从基础概念出发，亲手实现SARSA和Q-Learning两大经典算法，并通过系统的对比实验揭示二者在策略学习上的本质差异。课程以"动手实现"为核心驱动，所有理论均通过代码和可视化实验加以验证。完成本课程后，你将具备独立搭建强化学习实验环境的能力，深刻理解On-Policy与Off-Policy的区别，并掌握设计对比实验、分析实验结果的科学方法。

你将掌握

系统化的课程知识体系
实际应用的操作技能
项目实战经验

适合人群

对该领域感兴趣的初学者
需要快速提升技能的从业者
希望通过项目巩固知识的学习者

课程目录

共 6 个模块

1.1 强化学习的世界观——智能体与环境的交互循环

1.2 策略、值函数与马尔可夫决策过程（MDP）

1.3 从蒙特卡洛到时序差分——TD学习的核心思想

1.4 关键概念检验——从MDP到TD学习

2.1 Python环境配置与Gymnasium入门

2.2 认识实验战场——CliffWalking与FrozenLake环境详解

2.3 构建可复用实验框架——Q表、ε-贪心策略与训练循环

2.4 工具与框架理解检验

3.1 SARSA算法原理——名字里藏着的秘密

3.2 编码实现SARSA——从公式到可运行代码

3.3 观察SARSA的行为——安全路径与训练指标记录

3.4 SARSA实现理解检验

4.1 Q-Learning算法原理——贪心的野心

4.2 编码实现Q-Learning——一行代码的本质区别

4.3 观察Q-Learning的行为——最优路径与激进策略

4.4 SARSA与Q-Learning核心差异检验

5.1 科学实验方法论——如何设计公平的对比实验

5.2 运行对比实验——多种子批量实验与数据收集

5.3 超参数敏感性分析——ε、α、γ的影响

5.4 策略可视化与深度结果分析

5.5 对比实验方法与结论检验

6.1 新课时