SDSC6007 课程信息
SDSC6007 课程信息
#SDSC6007
#course information
English / 中文
课程概览
课程代码: SDSC6007 & SDSC8006
课程名称: 动态规划与强化学习
学期: 2025学年第一学期
授课教师: Clint Chin Pang Ho
办公室: LAU-16-228
答疑时间: 需预约
助教 (TAs):
-
Yanbo He (
yanbohe3-c@my.cityu.edu.hk
) -
Ellen Yi Wong (
ywong692-c@my.cityu.edu.hk
) -
Yuqi Zha (
charlie.yqzha@my.cityu.edu.hk
)
考核方式
组成部分 | 权重 | 详情 |
---|---|---|
作业 | 20% | 两次作业(每次10%)。通过Canvas在线提交,格式为.pdf、.py、.mp4、.txt。 |
期中考试 | 20% | 闭卷考试。 |
小组项目 | 30% | 一个小组项目。详情见下文。 |
期末考试 | 30% | 闭卷考试。 |
-
逾期提交政策: 若逾期 ( ) 天 (( )),最高得分为 ( )。
-
GenAI政策: 允许用于非考试任务(作业和项目),但需正确引用。学生对所有提交内容负全责。
时间安排与教学
主题领域 | 核心内容 | 备注 |
---|---|---|
动态规划算法 | 基础概念与框架。 | 包括Richard Bellman的历史背景。 |
确定性系统与最短路径 | 序列决策问题建模。 | |
马尔可夫决策过程 (MDPs) | 在运筹学与控制中的应用理论。 | |
值迭代、策略迭代、线性规划 | MDP的求解方法。 | |
模型自由预测与控制 | 无显式环境模型的学习。 | |
值函数近似 | 大规模问题处理技术。 | |
策略梯度 | 优化方法。 | |
多臂老虎机 | 探索与利用的平衡。 |
项目要求 (占总分30%)
-
性质: 一个小组项目,专注于使用动态规划或强化学习解决实际问题。
-
关键规则:
- 项目必须为本课程原创设计,禁止复用其他课程或论文内容。
- 使用GenAI工具需明确引用。
- 通过Canvas提交,格式为.pdf、.py、.mp4、.txt。
-
评分标准: 基于科学价值和创新性;抄袭将受处罚。
课程目标与主题
-
目标:
- 理解DP与RL的概念和原理。
- 将问题建模为DP/RL问题并用Python实现求解器。
- 应用方法论于实际场景。
-
主题:
- 动态规划算法
- 马尔可夫决策过程
- 值迭代与策略迭代
- 模型自由控制
- 值函数近似
- 策略梯度
- 多臂老虎机
参考书籍
-
Bertsekas, D.P. (2019). 强化学习与最优控制。
-
Sutton, R.S. & Barto, A.G. (2018). 强化学习导论。
-
Puterman, M.L. (2005). 马尔可夫决策过程: 离散随机动态规划。
-
附加资源:Silver(2015)和Brunskill(2019)讲座系列。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 迷麟の小站!