#SDSC6007 #course information

English / 中文

课程概览

课程代码: SDSC6007 & SDSC8006

课程名称: 动态规划与强化学习

学期: 2025学年第一学期

授课教师: Clint Chin Pang Ho

邮箱: client.ho@cityu.edu.hk

办公室: LAU-16-228

答疑时间: 需预约

助教 (TAs):

  • Yanbo He (yanbohe3-c@my.cityu.edu.hk)

  • Ellen Yi Wong (ywong692-c@my.cityu.edu.hk)

  • Yuqi Zha (charlie.yqzha@my.cityu.edu.hk)

考核方式

组成部分 权重 详情
作业 20% 两次作业(每次10%)。通过Canvas在线提交,格式为.pdf、.py、.mp4、.txt。
期中考试 20% 闭卷考试。
小组项目 30% 一个小组项目。详情见下文。
期末考试 30% 闭卷考试。
  • 逾期提交政策: 若逾期 ( tt ) 天 (( t>0t > 0 )),最高得分为 ( (0.75)t×100%(0.75)^t \times 100\%)。

  • GenAI政策: 允许用于非考试任务(作业和项目),但需正确引用。学生对所有提交内容负全责。

时间安排与教学

主题领域 核心内容 备注
动态规划算法 基础概念与框架。 包括Richard Bellman的历史背景。
确定性系统与最短路径 序列决策问题建模。
马尔可夫决策过程 (MDPs) 在运筹学与控制中的应用理论。
值迭代、策略迭代、线性规划 MDP的求解方法。
模型自由预测与控制 无显式环境模型的学习。
值函数近似 大规模问题处理技术。
策略梯度 优化方法。
多臂老虎机 探索与利用的平衡。

项目要求 (占总分30%)

  • 性质: 一个小组项目,专注于使用动态规划或强化学习解决实际问题。

  • 关键规则:

    • 项目必须为本课程原创设计,禁止复用其他课程或论文内容。
    • 使用GenAI工具需明确引用。
    • 通过Canvas提交,格式为.pdf、.py、.mp4、.txt。
  • 评分标准: 基于科学价值和创新性;抄袭将受处罚。

项目组成与要求(占总分30%)

1. 项目组成部分

项目包含以下几个必须提交的内容:

组成部分 说明 提交格式与命名规范
演示幻灯片 15分钟演示所用幻灯片,需录制未剪辑的ZOOM视频 Group_[组名]_slides.pdf(如:Group_A_slides.pdf)
项目报告 详细报告,内容应与演示一致,可包含附录,不超过15页 Group_[组名]_report.pdf
代码 可复现实验结果的代码(Python为主,可接受C++等,需提前说明) Group_[组名]_c_[文件名].txt.py(如:Group_A_c_main.py)
演示视频 可选,展示训练前、中、后的性能对比 Group_[组名]_demo_[编号]_[阶段].mp4(如:Group_A_demo_1_before.mp4)
压缩包 所有文件打包为一个zip文件提交 Group_[组名].zip

2. 时间安排与提交节点

时间节点 任务
10月7日前 组建小组(4-5人),在Canvas上公布组员名单
10月14日前 在Canvas上确认选题,一旦确认不可更改
11月23日下午6点前 提交所有材料(幻灯片、报告、代码、视频等)
11月25日(第13周) 随机抽取小组进行现场演示(15分钟) + Q&A(5-10分钟)

3. 评分细则(共30分)

项目 分值 说明
演示 12分 内容组织、表达清晰度、时间控制、幻灯片设计等
内容 12分 理论深度、实验设计、创新性、报告结构与逻辑性等
参与度 6分 出勤率、对他组演示的提问与反馈(匿名)

📌 注意:现场演示虽为随机抽取,但不影响最终分数(除非缺席或未参与提问反馈)。


可选主题范围

每组需选择以下两类之一作为项目方向:

A. 课程内容延伸(举例)

  • 部分可观测MDP(POMDPs)

  • 连续状态/动作/时间的MDP

  • 平均代价MDP

  • 随机最短路径问题

  • 深度强化学习(DRL)

  • 随机逼近与RL方法

  • 逆强化学习

  • 多臂老虎机(高级主题)

B. 2010年后的研究论文(须来自顶级会议/期刊)

  • NeurIPS, ICML, COLT, ICLR, AISTATS, JMLR, IEEE TAC 等


✅ 演示与报告建议

  • 禁止读稿:演示时不可朗读稿件或手机内容,仅以幻灯片为参考;

  • 幻灯片设计:避免大段文字,多用图表、算法伪代码、实验结果可视化;

  • 语言表达:语速适中、减少“呃”“啊”等语气词,可提前录制练习;

  • 技术准备:自带转接头,保存多种格式的幻灯片副本,预防设备故障;

  • 互动与反馈:提问环节表现会计入“参与度”分数。

⚠️ 学术诚信说明

  • 项目必须为本课程原创,不可复用以往课程或论文中的内容;

  • 使用GenAI工具(如ChatGPT)需明确引用;

  • 抄袭或重复使用他人作品将按学校政策处理。

课程目标与主题

  • 目标:

    • 理解DP与RL的概念和原理。
    • 将问题建模为DP/RL问题并用Python实现求解器。
    • 应用方法论于实际场景。
  • 主题:

    • 动态规划算法
    • 马尔可夫决策过程
    • 值迭代与策略迭代
    • 模型自由控制
    • 值函数近似
    • 策略梯度
    • 多臂老虎机

参考书籍

  • Bertsekas, D.P. (2019). 强化学习与最优控制

  • Sutton, R.S. & Barto, A.G. (2018). 强化学习导论

  • Puterman, M.L. (2005). 马尔可夫决策过程: 离散随机动态规划

  • 附加资源:Silver(2015)和Brunskill(2019)讲座系列。