#SDSC5002 #course information

English / 中文

课程概览

课程代码: SDSC5002C61

课程名称: 探索性数据分析与可视化

学期: 2025/26 学年第一学期

授课教师: 王立佳教授

邮箱: lijiwang@cityu.edu.hk

办公室: 刘璧如楼 16-272 室

授课时间: 未指定(请查看Canvas更新)

答疑时间: 未指定

教学模式: 面授

助教:

  • 李明和 (mingheli2-c@my.cityu.edu.hk) 负责 Tableau

  • 尹彦新 (wl.z@cityu.edu.hk) 负责 Python

考核方式

考核项目 描述 权重或分数
小组项目 需4-8人组队,在周11-13进行演示,评估团队合作和数据分析能力。 40%
个人课程作业 基于作业表现评分,注重个人实践技能。 25%
测验 按时提交得2分,延迟提交得1分,考核及时参与和理解。 点数制(贡献总体评分)
作业 基于性能评分,满分10分,评估具体任务完成质量。 10点
中期考试 在周10举行,无期末考试,测试理论知识和应用能力。 35%

时间安排与教学

周数 日期 活动 内容 截止日期
1 9月6日 讲座 探索性数据分析和可视化的关键概念
2 9月13日 讲座 机器学习的统计分析和可视化
辅导课 1 Python和Tableau入门
3 9月20日 讲座 高维数据可视化
辅导课 2 数据探索实战(如鸢尾花数据集)
4 9月27日 讲座 机器学习可视化、线性回归
辅导课 3 交叉验证与线性回归实践
5 10月4日 国庆节 停课 小组分组截止
6 10月11日 讲座 模型选择、正则化、分类方法
辅导课 4 子集选择、收缩方法、PCR与PLS
7 10月18日 讲座 分类方法、期中考试答疑
辅导课 5 分类方法实践
8 10月25日 讲座 高维数据技术
9 11月1日 重阳节 停课 项目提案提交
10 11月8日 期中考试 期中测试(闭卷;允许携带1张A4笔记)
11 11月15日 讲座 网络可视化 项目展示开始
12 11月22日 项目展示
13 11月29日 项目展示、课程总结 最终项目报告提交

项目要求 (占总分 40%)

项目是课程“探索性数据分析与可视化”的核心组成部分,旨在通过实践应用探索性数据分析(EDA)和可视化技术。以下是对项目要求的详细阐述,基于课程文档中的项目提案指南。

项目概述

项目要求学生在小组中(4-8人)完成一个完整的数据分析项目,从选题到最终演示。项目提案需在周9(重阳节)前提交,并在周11-13进行演示。项目旨在培养学生的团队合作、数据清理、分析和可视化技能,同时强调研究问题的明确性和方法的合理性。

项目提案组成部分

项目提案必须包括以下部分,每个部分都需要详细描述以确保清晰性和可行性。

1. 标题(Title)

  • 要求:提供一个清晰、简洁的标题,准确反映项目主题。标题应直接关联到所选数据集和研究问题,避免模糊或过于宽泛的表述。

  • 示例:例如,“基于COVID-19数据的传播模式可视化分析”或“消费者行为分析:智能手机品牌转换趋势”。

2. 介绍(Introduction)

  • 要求:简要描述项目的动机和背景。解释为什么选择这个主题,包括其现实意义、相关性或学术价值。介绍应提供上下文,帮助读者理解项目的重要性。

  • 内容要点

    • 动机:例如,基于当前社会问题、行业趋势或个人兴趣。
    • 相关性:说明主题如何与数据科学、机器学习或可视化技术相关。
    • 背景信息:简要概述相关领域或先前研究(如果适用)。

3. 研究问题(Research Questions)

  • 要求:指定1-3个明确的研究问题,这些问题将指导整个分析过程。研究问题应具体、可衡量,并且能够通过EDA和可视化来回答。

  • 示例问题

    • “哪些因素影响智能手机用户的品牌忠诚度?”
    • “COVID-19数据中,哪些变量与传播速率相关?”
    • “如何通过可视化识别数据中的异常模式?”
  • 重要性:研究问题应作为项目框架,确保分析有焦点和方向。

4. 数据集描述(Dataset Description)

  • 要求:详细描述所选数据集,包括来源、大小、特性和适用性。这部分需证明数据集足以支持研究问题。

  • 内容要点

    • 来源:提供数据集的获取链接或引用(例如,来自Kaggle、UCI机器学习库、政府开放数据等)。
    • 大小:说明记录数(行)和特征数(列),例如,“数据集包含10,000条记录和20个特征”。
    • 特性:描述数据类型(如数值型、分类型、时间序列)、任何特殊特征(如缺失值、异常值),以及数据的基本结构。
    • 适用性:解释为什么这个数据集适合回答研究问题,例如,数据集包含相关变量或足够的历史数据。

5. EDA和可视化计划(EDA and Data Visualization Plan)

  • 要求:详细描述将使用的EDA技术和可视化方法。计划应包括数据清理、摘要统计、可视化类型和相关性分析。

  • 具体步骤

    • 数据清理
      • 处理缺失值:使用插值、删除或填充方法。
      • 处理重复项:识别并移除重复记录。
      • 处理异常值:使用统计方法(如IQR)或可视化(如箱线图)检测和处理异常。
    • 摘要统计
      • 计算基本统计量:均值、中位数、众数、标准差、分位数等,以描述数据分布。
      • 使用表格或简短报告呈现统计结果。
    • 数据可视化
      • 列出计划创建的可视化类型,例如:
        • 直方图:用于分布分析。
        • 散点图:用于变量间关系探索。
        • 箱线图:用于比较组间差异。
        • 热图:用于相关性可视化。
        • 时间序列图:用于趋势分析(如果数据包含时间元素)。
      • 解释每种可视化如何帮助识别趋势、模式或异常,例如,“散点图将用于探索教育年限与收入之间的关系”。
    • 相关性分析
      • 使用相关系数(如Pearson或Spearman)或可视化工具(如散点图矩阵)探索变量间的关系。
      • 讨论如何利用这些分析来支持研究问题。

6. 其他方法(Optional Methods)

  • 要求:描述任何额外的方法,如机器学习算法或统计测试,以增强分析。这部分是可选的,但鼓励使用以提升项目深度。

  • 可能的方法

    • 分类:例如,使用逻辑回归或决策树预测类别变量。
    • 聚类:例如,使用K-means进行客户分群。
    • 回归:例如,线性回归用于预测连续变量。
    • 假设检验:例如,t-test或ANOVA用于比较组间差异。
    • 特征选择:使用方法如PCA或随机森林重要性评分来减少维度。
  • 理由:解释为什么这些方法适合项目,以及它们如何补充EDA和可视化。

7. 预期成果(Expected Outcomes)

  • 要求:讨论项目可能带来的发现和见解。预期成果应基于研究问题,并包括可视化结果和数据分析结论。

  • 内容要点

    • 见解:例如,识别关键趋势、模式或因果关系。
    • 可视化输出:描述将生成的可视化图表及其预期影响(如帮助决策或沟通结果)。
    • 应用价值:说明成果如何应用于现实世界,例如,为政策制定或商业策略提供建议。

评分标准

项目提案将根据以下标准评分,总分为10分:

  • 清晰度(3分):提案是否结构清晰、逻辑连贯?介绍是否有效设定了项目背景?

  • 理由充分(4分):主题选择是否有说服力?是否展示了其重要性和相关性?

  • 研究计划合理(3分):提出的方法(如EDA、可视化或其他技术)是否与研究问题对齐?计划是否可行且全面?

附加说明

  • 团队合作:项目需以小组形式完成,鼓励分工合作,例如,有人负责数据清理,有人负责可视化。

  • 工具使用:建议使用课程教授的Python和Tableau进行实现,但其他工具(如R或D3.js)也可接受,前提是能有效展示结果。

  • 演示要求:在周11-13的演示中,小组需展示可视化结果和分析过程,强调沟通和展示技能。

通过遵循这些详细要求,学生可以确保项目提案全面且高效,最终成功完成课程目标。