已发布
AI 生成课程

算法实现挑战:SARSA与Q-Learning对比实验

从零实现两大经典强化学习算法,在实验对比中深入理解时序差分学习的核心思想

6 个模块22 节课 6.4 小时初学者

课程介绍

本课程面向对强化学习感兴趣的编程初学者,引导你从基础概念出发,亲手实现SARSA和Q-Learning两大经典算法,并通过系统的对比实验揭示二者在策略学习上的本质差异。课程以"动手实现"为核心驱动,所有理论均通过代码和可视化实验加以验证。 完成本课程后,你将具备独立搭建强化学习实验环境的能力,深刻理解On-Policy与Off-Policy的区别,并掌握设计对比实验、分析实验结果的科学方法。

你将掌握

  • 系统化的课程知识体系
  • 实际应用的操作技能
  • 项目实战经验

适合人群

  • 对该领域感兴趣的初学者
  • 需要快速提升技能的从业者
  • 希望通过项目巩固知识的学习者

课程目录

6 个模块
1.1 强化学习的世界观——智能体与环境的交互循环
1.2 策略、值函数与马尔可夫决策过程(MDP)
1.3 从蒙特卡洛到时序差分——TD学习的核心思想
1.4 关键概念检验——从MDP到TD学习
2.1 Python环境配置与Gymnasium入门
2.2 认识实验战场——CliffWalking与FrozenLake环境详解
2.3 构建可复用实验框架——Q表、ε-贪心策略与训练循环
2.4 工具与框架理解检验
3.1 SARSA算法原理——名字里藏着的秘密
3.2 编码实现SARSA——从公式到可运行代码
3.3 观察SARSA的行为——安全路径与训练指标记录
3.4 SARSA实现理解检验
4.1 Q-Learning算法原理——贪心的野心
4.2 编码实现Q-Learning——一行代码的本质区别
4.3 观察Q-Learning的行为——最优路径与激进策略
4.4 SARSA与Q-Learning核心差异检验
5.1 科学实验方法论——如何设计公平的对比实验
5.2 运行对比实验——多种子批量实验与数据收集
5.3 超参数敏感性分析——ε、α、γ的影响
5.4 策略可视化与深度结果分析
5.5 对比实验方法与结论检验
6.1 新课时