课程概览

课程代码: SDSC5002C61

课程名称: 探索性数据分析与可视化

学期: 2025/26 学年第一学期

授课教师: 王立佳教授

邮箱: lijiwang@cityu.edu.hk

办公室: 刘璧如楼 16-272 室

授课时间: 未指定（请查看Canvas更新）

答疑时间: 未指定

教学模式: 面授

助教:

李明和 (mingheli2-c@my.cityu.edu.hk) 负责 Tableau
尹彦新 (wl.z@cityu.edu.hk) 负责 Python

考核方式

考核项目	描述	权重或分数
小组项目	需4-8人组队，在周11-13进行演示，评估团队合作和数据分析能力。	40%
个人课程作业	基于作业表现评分，注重个人实践技能。	25%
测验	按时提交得2分，延迟提交得1分，考核及时参与和理解。	点数制（贡献总体评分）
作业	基于性能评分，满分10分，评估具体任务完成质量。	10点
中期考试	在周10举行，无期末考试，测试理论知识和应用能力。	35%

时间安排与教学

周数	日期	活动	内容	截止日期
1	9月6日	讲座	探索性数据分析和可视化的关键概念
2	9月13日	讲座	机器学习的统计分析和可视化
		辅导课 1	Python和Tableau入门
3	9月20日	讲座	高维数据可视化
		辅导课 2	数据探索实战（如鸢尾花数据集）
4	9月27日	讲座	机器学习可视化、线性回归
		辅导课 3	交叉验证与线性回归实践
5	10月4日	国庆节	停课	小组分组截止
6	10月11日	讲座	模型选择、正则化、分类方法
		辅导课 4	子集选择、收缩方法、PCR与PLS
7	10月18日	讲座	分类方法、期中考试答疑
		辅导课 5	分类方法实践
8	10月25日	讲座	高维数据技术
9	11月1日	重阳节	停课	项目提案提交
10	11月8日	期中考试	期中测试（闭卷；允许携带1张A4笔记）
11	11月15日	讲座	网络可视化	项目展示开始
12	11月22日		项目展示
13	11月29日		项目展示、课程总结	最终项目报告提交

项目要求 (占总分 40%)

项目是课程“探索性数据分析与可视化”的核心组成部分，旨在通过实践应用探索性数据分析（EDA）和可视化技术。以下是对项目要求的详细阐述，基于课程文档中的项目提案指南。

项目概述

项目要求学生在小组中（4-8人）完成一个完整的数据分析项目，从选题到最终演示。项目提案需在周9（重阳节）前提交，并在周11-13进行演示。项目旨在培养学生的团队合作、数据清理、分析和可视化技能，同时强调研究问题的明确性和方法的合理性。

项目提案组成部分

项目提案必须包括以下部分，每个部分都需要详细描述以确保清晰性和可行性。

1. 标题（Title）

要求：提供一个清晰、简洁的标题，准确反映项目主题。标题应直接关联到所选数据集和研究问题，避免模糊或过于宽泛的表述。
示例：例如，“基于COVID-19数据的传播模式可视化分析”或“消费者行为分析：智能手机品牌转换趋势”。

2. 介绍（Introduction）

要求：简要描述项目的动机和背景。解释为什么选择这个主题，包括其现实意义、相关性或学术价值。介绍应提供上下文，帮助读者理解项目的重要性。
内容要点：
- 动机：例如，基于当前社会问题、行业趋势或个人兴趣。
- 相关性：说明主题如何与数据科学、机器学习或可视化技术相关。
- 背景信息：简要概述相关领域或先前研究（如果适用）。

3. 研究问题（Research Questions）

要求：指定1-3个明确的研究问题，这些问题将指导整个分析过程。研究问题应具体、可衡量，并且能够通过EDA和可视化来回答。
示例问题：
- “哪些因素影响智能手机用户的品牌忠诚度？”
- “COVID-19数据中，哪些变量与传播速率相关？”
- “如何通过可视化识别数据中的异常模式？”
重要性：研究问题应作为项目框架，确保分析有焦点和方向。

4. 数据集描述（Dataset Description）

要求：详细描述所选数据集，包括来源、大小、特性和适用性。这部分需证明数据集足以支持研究问题。
内容要点：
- 来源：提供数据集的获取链接或引用（例如，来自Kaggle、UCI机器学习库、政府开放数据等）。
- 大小：说明记录数（行）和特征数（列），例如，“数据集包含10,000条记录和20个特征”。
- 特性：描述数据类型（如数值型、分类型、时间序列）、任何特殊特征（如缺失值、异常值），以及数据的基本结构。
- 适用性：解释为什么这个数据集适合回答研究问题，例如，数据集包含相关变量或足够的历史数据。

5. EDA和可视化计划（EDA and Data Visualization Plan）

要求：详细描述将使用的EDA技术和可视化方法。计划应包括数据清理、摘要统计、可视化类型和相关性分析。
具体步骤：
- 数据清理：
  - 处理缺失值：使用插值、删除或填充方法。
  - 处理重复项：识别并移除重复记录。
  - 处理异常值：使用统计方法（如IQR）或可视化（如箱线图）检测和处理异常。
- 摘要统计：
  - 计算基本统计量：均值、中位数、众数、标准差、分位数等，以描述数据分布。
  - 使用表格或简短报告呈现统计结果。
- 数据可视化：
  - 列出计划创建的可视化类型，例如：
    - 直方图：用于分布分析。
    - 散点图：用于变量间关系探索。
    - 箱线图：用于比较组间差异。
    - 热图：用于相关性可视化。
    - 时间序列图：用于趋势分析（如果数据包含时间元素）。
  - 解释每种可视化如何帮助识别趋势、模式或异常，例如，“散点图将用于探索教育年限与收入之间的关系”。
- 相关性分析：
  - 使用相关系数（如Pearson或Spearman）或可视化工具（如散点图矩阵）探索变量间的关系。
  - 讨论如何利用这些分析来支持研究问题。

6. 其他方法（Optional Methods）

要求：描述任何额外的方法，如机器学习算法或统计测试，以增强分析。这部分是可选的，但鼓励使用以提升项目深度。
可能的方法：
- 分类：例如，使用逻辑回归或决策树预测类别变量。
- 聚类：例如，使用K-means进行客户分群。
- 回归：例如，线性回归用于预测连续变量。
- 假设检验：例如，t-test或ANOVA用于比较组间差异。
- 特征选择：使用方法如PCA或随机森林重要性评分来减少维度。
理由：解释为什么这些方法适合项目，以及它们如何补充EDA和可视化。

7. 预期成果（Expected Outcomes）

要求：讨论项目可能带来的发现和见解。预期成果应基于研究问题，并包括可视化结果和数据分析结论。
内容要点：
- 见解：例如，识别关键趋势、模式或因果关系。
- 可视化输出：描述将生成的可视化图表及其预期影响（如帮助决策或沟通结果）。
- 应用价值：说明成果如何应用于现实世界，例如，为政策制定或商业策略提供建议。

评分标准

项目提案将根据以下标准评分，总分为10分：

清晰度（3分）：提案是否结构清晰、逻辑连贯？介绍是否有效设定了项目背景？
理由充分（4分）：主题选择是否有说服力？是否展示了其重要性和相关性？
研究计划合理（3分）：提出的方法（如EDA、可视化或其他技术）是否与研究问题对齐？计划是否可行且全面？

附加说明

团队合作：项目需以小组形式完成，鼓励分工合作，例如，有人负责数据清理，有人负责可视化。
工具使用：建议使用课程教授的Python和Tableau进行实现，但其他工具（如R或D3.js）也可接受，前提是能有效展示结果。
演示要求：在周11-13的演示中，小组需展示可视化结果和分析过程，强调沟通和展示技能。

通过遵循这些详细要求，学生可以确保项目提案全面且高效，最终成功完成课程目标。