SDSC6007 课程信息

#SDSC6007 #course information

English / 中文

课程概览

课程代码: SDSC6007 & SDSC8006

课程名称: 动态规划与强化学习

学期: 2025学年第一学期

授课教师: Clint Chin Pang Ho

邮箱: client.ho@cityu.edu.hk

办公室: LAU-16-228

答疑时间: 需预约

助教 (TAs):

  • Yanbo He (yanbohe3-c@my.cityu.edu.hk)

  • Ellen Yi Wong (ywong692-c@my.cityu.edu.hk)

  • Yuqi Zha (charlie.yqzha@my.cityu.edu.hk)

考核方式

组成部分 权重 详情
作业 20% 两次作业(每次10%)。通过Canvas在线提交,格式为.pdf、.py、.mp4、.txt。
期中考试 20% 闭卷考试。
小组项目 30% 一个小组项目。详情见下文。
期末考试 30% 闭卷考试。
  • 逾期提交政策: 若逾期 ( tt ) 天 (( t>0t > 0 )),最高得分为 ( (0.75)t×100%(0.75)^t \times 100\%)。

  • GenAI政策: 允许用于非考试任务(作业和项目),但需正确引用。学生对所有提交内容负全责。

时间安排与教学

主题领域 核心内容 备注
动态规划算法 基础概念与框架。 包括Richard Bellman的历史背景。
确定性系统与最短路径 序列决策问题建模。
马尔可夫决策过程 (MDPs) 在运筹学与控制中的应用理论。
值迭代、策略迭代、线性规划 MDP的求解方法。
模型自由预测与控制 无显式环境模型的学习。
值函数近似 大规模问题处理技术。
策略梯度 优化方法。
多臂老虎机 探索与利用的平衡。

项目要求 (占总分30%)

  • 性质: 一个小组项目,专注于使用动态规划或强化学习解决实际问题。

  • 关键规则:

    • 项目必须为本课程原创设计,禁止复用其他课程或论文内容。
    • 使用GenAI工具需明确引用。
    • 通过Canvas提交,格式为.pdf、.py、.mp4、.txt。
  • 评分标准: 基于科学价值和创新性;抄袭将受处罚。

课程目标与主题

  • 目标:

    • 理解DP与RL的概念和原理。
    • 将问题建模为DP/RL问题并用Python实现求解器。
    • 应用方法论于实际场景。
  • 主题:

    • 动态规划算法
    • 马尔可夫决策过程
    • 值迭代与策略迭代
    • 模型自由控制
    • 值函数近似
    • 策略梯度
    • 多臂老虎机

参考书籍

  • Bertsekas, D.P. (2019). 强化学习与最优控制

  • Sutton, R.S. & Barto, A.G. (2018). 强化学习导论

  • Puterman, M.L. (2005). 马尔可夫决策过程: 离散随机动态规划

  • 附加资源:Silver(2015)和Brunskill(2019)讲座系列。