SDSC5002 课程信息
#SDSC5002 #course information
English / 中文
课程概览
课程代码: SDSC5002C61
课程名称: 探索性数据分析与可视化
学期: 2025/26 学年第一学期
授课教师: 王立佳教授
办公室: 刘璧如楼 16-272 室
授课时间: 未指定(请查看Canvas更新)
答疑时间: 未指定
教学模式: 面授
助教:
-
李明和 (
mingheli2-c@my.cityu.edu.hk) 负责 Tableau -
尹彦新 (
wl.z@cityu.edu.hk) 负责 Python
考核方式
| 考核项目 | 描述 | 权重或分数 |
|---|---|---|
| 小组项目 | 需4-8人组队,在周11-13进行演示,评估团队合作和数据分析能力。 | 40% |
| 个人课程作业 | 基于作业表现评分,注重个人实践技能。 | 25% |
| 测验 | 按时提交得2分,延迟提交得1分,考核及时参与和理解。 | 点数制(贡献总体评分) |
| 作业 | 基于性能评分,满分10分,评估具体任务完成质量。 | 10点 |
| 中期考试 | 在周10举行,无期末考试,测试理论知识和应用能力。 | 35% |
时间安排与教学
| 周数 | 日期 | 活动 | 内容 | 截止日期 |
|---|---|---|---|---|
| 1 | 9月6日 | 讲座 | 探索性数据分析和可视化的关键概念 | |
| 2 | 9月13日 | 讲座 | 机器学习的统计分析和可视化 | |
| 辅导课 1 | Python和Tableau入门 | |||
| 3 | 9月20日 | 讲座 | 高维数据可视化 | |
| 辅导课 2 | 数据探索实战(如鸢尾花数据集) | |||
| 4 | 9月27日 | 讲座 | 机器学习可视化、线性回归 | |
| 辅导课 3 | 交叉验证与线性回归实践 | |||
| 5 | 10月4日 | 国庆节 | 停课 | 小组分组截止 |
| 6 | 10月11日 | 讲座 | 模型选择、正则化、分类方法 | |
| 辅导课 4 | 子集选择、收缩方法、PCR与PLS | |||
| 7 | 10月18日 | 讲座 | 分类方法、期中考试答疑 | |
| 辅导课 5 | 分类方法实践 | |||
| 8 | 10月25日 | 讲座 | 高维数据技术 | |
| 9 | 11月1日 | 重阳节 | 停课 | 项目提案提交 |
| 10 | 11月8日 | 期中考试 | 期中测试(闭卷;允许携带1张A4笔记) | |
| 11 | 11月15日 | 讲座 | 网络可视化 | 项目展示开始 |
| 12 | 11月22日 | 项目展示 | ||
| 13 | 11月29日 | 项目展示、课程总结 | 最终项目报告提交 |
项目要求 (占总分 40%)
项目是课程“探索性数据分析与可视化”的核心组成部分,旨在通过实践应用探索性数据分析(EDA)和可视化技术。以下是对项目要求的详细阐述,基于课程文档中的项目提案指南。
项目概述
项目要求学生在小组中(4-8人)完成一个完整的数据分析项目,从选题到最终演示。项目提案需在周9(重阳节)前提交,并在周11-13进行演示。项目旨在培养学生的团队合作、数据清理、分析和可视化技能,同时强调研究问题的明确性和方法的合理性。
项目提案组成部分
项目提案必须包括以下部分,每个部分都需要详细描述以确保清晰性和可行性。
1. 标题(Title)
-
要求:提供一个清晰、简洁的标题,准确反映项目主题。标题应直接关联到所选数据集和研究问题,避免模糊或过于宽泛的表述。
-
示例:例如,“基于COVID-19数据的传播模式可视化分析”或“消费者行为分析:智能手机品牌转换趋势”。
2. 介绍(Introduction)
-
要求:简要描述项目的动机和背景。解释为什么选择这个主题,包括其现实意义、相关性或学术价值。介绍应提供上下文,帮助读者理解项目的重要性。
-
内容要点:
- 动机:例如,基于当前社会问题、行业趋势或个人兴趣。
- 相关性:说明主题如何与数据科学、机器学习或可视化技术相关。
- 背景信息:简要概述相关领域或先前研究(如果适用)。
3. 研究问题(Research Questions)
-
要求:指定1-3个明确的研究问题,这些问题将指导整个分析过程。研究问题应具体、可衡量,并且能够通过EDA和可视化来回答。
-
示例问题:
- “哪些因素影响智能手机用户的品牌忠诚度?”
- “COVID-19数据中,哪些变量与传播速率相关?”
- “如何通过可视化识别数据中的异常模式?”
-
重要性:研究问题应作为项目框架,确保分析有焦点和方向。
4. 数据集描述(Dataset Description)
-
要求:详细描述所选数据集,包括来源、大小、特性和适用性。这部分需证明数据集足以支持研究问题。
-
内容要点:
- 来源:提供数据集的获取链接或引用(例如,来自Kaggle、UCI机器学习库、政府开放数据等)。
- 大小:说明记录数(行)和特征数(列),例如,“数据集包含10,000条记录和20个特征”。
- 特性:描述数据类型(如数值型、分类型、时间序列)、任何特殊特征(如缺失值、异常值),以及数据的基本结构。
- 适用性:解释为什么这个数据集适合回答研究问题,例如,数据集包含相关变量或足够的历史数据。
5. EDA和可视化计划(EDA and Data Visualization Plan)
-
要求:详细描述将使用的EDA技术和可视化方法。计划应包括数据清理、摘要统计、可视化类型和相关性分析。
-
具体步骤:
- 数据清理:
- 处理缺失值:使用插值、删除或填充方法。
- 处理重复项:识别并移除重复记录。
- 处理异常值:使用统计方法(如IQR)或可视化(如箱线图)检测和处理异常。
- 摘要统计:
- 计算基本统计量:均值、中位数、众数、标准差、分位数等,以描述数据分布。
- 使用表格或简短报告呈现统计结果。
- 数据可视化:
- 列出计划创建的可视化类型,例如:
- 直方图:用于分布分析。
- 散点图:用于变量间关系探索。
- 箱线图:用于比较组间差异。
- 热图:用于相关性可视化。
- 时间序列图:用于趋势分析(如果数据包含时间元素)。
- 解释每种可视化如何帮助识别趋势、模式或异常,例如,“散点图将用于探索教育年限与收入之间的关系”。
- 列出计划创建的可视化类型,例如:
- 相关性分析:
- 使用相关系数(如Pearson或Spearman)或可视化工具(如散点图矩阵)探索变量间的关系。
- 讨论如何利用这些分析来支持研究问题。
- 数据清理:
6. 其他方法(Optional Methods)
-
要求:描述任何额外的方法,如机器学习算法或统计测试,以增强分析。这部分是可选的,但鼓励使用以提升项目深度。
-
可能的方法:
- 分类:例如,使用逻辑回归或决策树预测类别变量。
- 聚类:例如,使用K-means进行客户分群。
- 回归:例如,线性回归用于预测连续变量。
- 假设检验:例如,t-test或ANOVA用于比较组间差异。
- 特征选择:使用方法如PCA或随机森林重要性评分来减少维度。
-
理由:解释为什么这些方法适合项目,以及它们如何补充EDA和可视化。
7. 预期成果(Expected Outcomes)
-
要求:讨论项目可能带来的发现和见解。预期成果应基于研究问题,并包括可视化结果和数据分析结论。
-
内容要点:
- 见解:例如,识别关键趋势、模式或因果关系。
- 可视化输出:描述将生成的可视化图表及其预期影响(如帮助决策或沟通结果)。
- 应用价值:说明成果如何应用于现实世界,例如,为政策制定或商业策略提供建议。
评分标准
项目提案将根据以下标准评分,总分为10分:
-
清晰度(3分):提案是否结构清晰、逻辑连贯?介绍是否有效设定了项目背景?
-
理由充分(4分):主题选择是否有说服力?是否展示了其重要性和相关性?
-
研究计划合理(3分):提出的方法(如EDA、可视化或其他技术)是否与研究问题对齐?计划是否可行且全面?
附加说明
-
团队合作:项目需以小组形式完成,鼓励分工合作,例如,有人负责数据清理,有人负责可视化。
-
工具使用:建议使用课程教授的Python和Tableau进行实现,但其他工具(如R或D3.js)也可接受,前提是能有效展示结果。
-
演示要求:在周11-13的演示中,小组需展示可视化结果和分析过程,强调沟通和展示技能。
通过遵循这些详细要求,学生可以确保项目提案全面且高效,最终成功完成课程目标。
