SDSC6007 课程信息
#SDSC6007 #course information
English / 中文
课程概览
课程代码: SDSC6007 & SDSC8006
课程名称: 动态规划与强化学习
学期: 2025学年第一学期
授课教师: Clint Chin Pang Ho
办公室: LAU-16-228
答疑时间: 需预约
助教 (TAs):
-
Yanbo He (
yanbohe3-c@my.cityu.edu.hk) -
Ellen Yi Wong (
ywong692-c@my.cityu.edu.hk) -
Yuqi Zha (
charlie.yqzha@my.cityu.edu.hk)
考核方式
| 组成部分 | 权重 | 详情 |
|---|---|---|
| 作业 | 20% | 两次作业(每次10%)。通过Canvas在线提交,格式为.pdf、.py、.mp4、.txt。 |
| 期中考试 | 20% | 闭卷考试。 |
| 小组项目 | 30% | 一个小组项目。详情见下文。 |
| 期末考试 | 30% | 闭卷考试。 |
-
逾期提交政策: 若逾期 ( ) 天 (( )),最高得分为 ( )。
-
GenAI政策: 允许用于非考试任务(作业和项目),但需正确引用。学生对所有提交内容负全责。
时间安排与教学
| 主题领域 | 核心内容 | 备注 |
|---|---|---|
| 动态规划算法 | 基础概念与框架。 | 包括Richard Bellman的历史背景。 |
| 确定性系统与最短路径 | 序列决策问题建模。 | |
| 马尔可夫决策过程 (MDPs) | 在运筹学与控制中的应用理论。 | |
| 值迭代、策略迭代、线性规划 | MDP的求解方法。 | |
| 模型自由预测与控制 | 无显式环境模型的学习。 | |
| 值函数近似 | 大规模问题处理技术。 | |
| 策略梯度 | 优化方法。 | |
| 多臂老虎机 | 探索与利用的平衡。 |
项目要求 (占总分30%)
-
性质: 一个小组项目,专注于使用动态规划或强化学习解决实际问题。
-
关键规则:
- 项目必须为本课程原创设计,禁止复用其他课程或论文内容。
- 使用GenAI工具需明确引用。
- 通过Canvas提交,格式为.pdf、.py、.mp4、.txt。
-
评分标准: 基于科学价值和创新性;抄袭将受处罚。
项目组成与要求(占总分30%)
1. 项目组成部分
项目包含以下几个必须提交的内容:
| 组成部分 | 说明 | 提交格式与命名规范 |
|---|---|---|
| 演示幻灯片 | 15分钟演示所用幻灯片,需录制未剪辑的ZOOM视频 | Group_[组名]_slides.pdf(如:Group_A_slides.pdf) |
| 项目报告 | 详细报告,内容应与演示一致,可包含附录,不超过15页 | Group_[组名]_report.pdf |
| 代码 | 可复现实验结果的代码(Python为主,可接受C++等,需提前说明) | Group_[组名]_c_[文件名].txt 或 .py(如:Group_A_c_main.py) |
| 演示视频 | 可选,展示训练前、中、后的性能对比 | Group_[组名]_demo_[编号]_[阶段].mp4(如:Group_A_demo_1_before.mp4) |
| 压缩包 | 所有文件打包为一个zip文件提交 | Group_[组名].zip |
2. 时间安排与提交节点
| 时间节点 | 任务 |
|---|---|
| 10月7日前 | 组建小组(4-5人),在Canvas上公布组员名单 |
| 10月14日前 | 在Canvas上确认选题,一旦确认不可更改 |
| 11月23日下午6点前 | 提交所有材料(幻灯片、报告、代码、视频等) |
| 11月25日(第13周) | 随机抽取小组进行现场演示(15分钟) + Q&A(5-10分钟) |
3. 评分细则(共30分)
| 项目 | 分值 | 说明 |
|---|---|---|
| 演示 | 12分 | 内容组织、表达清晰度、时间控制、幻灯片设计等 |
| 内容 | 12分 | 理论深度、实验设计、创新性、报告结构与逻辑性等 |
| 参与度 | 6分 | 出勤率、对他组演示的提问与反馈(匿名) |
📌 注意:现场演示虽为随机抽取,但不影响最终分数(除非缺席或未参与提问反馈)。
可选主题范围
每组需选择以下两类之一作为项目方向:
A. 课程内容延伸(举例)
-
部分可观测MDP(POMDPs)
-
连续状态/动作/时间的MDP
-
平均代价MDP
-
随机最短路径问题
-
深度强化学习(DRL)
-
随机逼近与RL方法
-
逆强化学习
-
多臂老虎机(高级主题)
B. 2010年后的研究论文(须来自顶级会议/期刊)
-
NeurIPS, ICML, COLT, ICLR, AISTATS, JMLR, IEEE TAC 等
✅ 演示与报告建议
-
禁止读稿:演示时不可朗读稿件或手机内容,仅以幻灯片为参考;
-
幻灯片设计:避免大段文字,多用图表、算法伪代码、实验结果可视化;
-
语言表达:语速适中、减少“呃”“啊”等语气词,可提前录制练习;
-
技术准备:自带转接头,保存多种格式的幻灯片副本,预防设备故障;
-
互动与反馈:提问环节表现会计入“参与度”分数。
⚠️ 学术诚信说明
-
项目必须为本课程原创,不可复用以往课程或论文中的内容;
-
使用GenAI工具(如ChatGPT)需明确引用;
-
抄袭或重复使用他人作品将按学校政策处理。
课程目标与主题
-
目标:
- 理解DP与RL的概念和原理。
- 将问题建模为DP/RL问题并用Python实现求解器。
- 应用方法论于实际场景。
-
主题:
- 动态规划算法
- 马尔可夫决策过程
- 值迭代与策略迭代
- 模型自由控制
- 值函数近似
- 策略梯度
- 多臂老虎机
参考书籍
-
Bertsekas, D.P. (2019). 强化学习与最优控制。
-
Sutton, R.S. & Barto, A.G. (2018). 强化学习导论。
-
Puterman, M.L. (2005). 马尔可夫决策过程: 离散随机动态规划。
-
附加资源:Silver(2015)和Brunskill(2019)讲座系列。
