SDSC5002 课程 2-EDA
#sdsc5002
English / 中文
数据基础
什么是数据?
数据是从个体(人、物体等)中对某些变量进行测量所得到的值。
变量类型
-
分类变量(定性)
- 例如:性别、血型、疾病状态
- 若类别可排序,则称为有序分类变量(例如:课程等级、COVID-19严重程度)
-
数值变量(定量)
- 例如:身高、体重、年龄、收入、血压
- 只有数值变量支持算术运算
数据表结构
-
列(Columns):对应变量(Variables)
-
行(Rows):对应个体或观测值(Observations),数量通常记为
| Song | Artist | Genre | Size(MB) | Length(sec) |
|---|---|---|---|---|
| My Friends | D. Williams | Alternative | 3.83 | 247 |
| Up the Road | E. Clapton | Rock | 5.62 | 378 |
数据收集方法
-
观察法:直接观察或比较
-
测试与实验:使用工具(如软尺)测量
-
调查法:
- 问卷
- 访谈
- 电子邮件/电话
-
文档分析:如查阅医疗记录
📌 注意:问卷设计顺序可能影响回答一致性(例如:先问具体问题再问一般问题,或反之)
探索性数据分析(EDA)
EDA 定义与目标
由 John Tukey 在 1970 年代提出,是对数据进行初步检查的方法,主要包括:
- 检查每个变量
- 检查变量间关系
方法分为:
-
数值摘要(计算数字)
-
图形摘要(绘制图表)
分布(Distribution)
-
描述变量可能取值及其频率
-
关键问题:
- 变量有哪些可能取值?
- 这些取值出现的频率如何?
分类变量的摘要
数值摘要
使用计数或百分比描述每个类别的分布:
| 教育水平 | 计数(百万) | 百分比(%) |
|---|---|---|
| 高中以下 | 4.7 | 12.3 |
| 高中毕业 | 11.8 | 30.7 |
| 大学在读 | 10.9 | 28.3 |
| 学士学位 | 8.5 | 22.1 |
| 高级学位 | 2.5 | 6.6 |
图形摘要
-
条形图(Bar Chart):条形高度与计数/百分比成比例
- 若按频率排序,称为 Pareto 图
-
饼图(Pie Chart):扇形面积与计数/百分比成比例
💡 条形图比饼图更容易比较实际数值(比较高度比比较角度更直观)
数值变量的摘要
图形摘要:直方图(Histogram)
-
将取值范围分成等宽区间
-
每个区间绘制矩形,高度与落入该区间的观测数成比例
例如:鸢尾花数据集中“萼片长度”变量的直方图,区间为 [4, 8],分成8个等宽区间
密度曲线与密度图
-
密度曲线:近似表示每个取值范围内的比例
-
密度图:通过核密度估计方法平滑得到,更连续地显示数据分布
分布形状描述
-
单峰(Unimodal):一个主要峰值
-
双峰(Bimodal):两个主要峰值
-
对称(Symmetric):中间对称
-
右偏(Skewed to the right):右侧尾部较长
-
左偏(Skewed to the left):左侧尾部较长
数值摘要
中心位置度量
-
均值(Mean):平均值
-
中位数(Median):50% 分位数
- 若观测数为偶数,取中间两数的平均值
🔍 中位数对极端值(异常值)更稳健(Robust)
变异性度量
-
方差(Variance):偏离均值的平方差的“平均值”
-
标准差(SD):方差的平方根
为什么除以 ?为了得到方差的无偏估计(当 较大时影响很小)
其他变异性度量
-
极差(Range):最大值 - 最小值
-
四分位距(IQR):第三四分位数与第一四分位数之差
五数概括与箱线图
-
五数概括:最小值、Q1、中位数、Q3、最大值
-
箱线图(Boxplot):
- 箱子:Q1 到 Q3,中位数在箱内
- 须线:延伸至最小值和最大值(或1.5×IQR范围内的最远端)
- 异常值:须线外的点
⚠ 仅用箱线图和数值摘要可能无法完整描述分布形状(如双峰分布),建议辅以直方图
两个变量间的关系
两个分类变量:列联表(Contingency Table)
-
包含计数或比例(百分比)
-
可计算:
- 联合分布:每个单元格的比例
- 边际分布:单个变量的分布
- 条件分布:给定另一个变量取值后的分布
辛普森悖论(Simpson’s Paradox)
当考虑第三个变量(隐藏变量或混淆变量)时,两个变量间的关联方向可能发生逆转
两个数值变量:散点图(Scatterplot)
-
横轴和纵轴分别表示两个变量
-
每个观测值为一个点
-
可添加分类变量(用不同颜色/符号)
散点图解读:
-
形式:聚类、线性关联等
-
方向:
- 正相关:一个变量高于平均值时,另一个也倾向于高于平均值
- 负相关:一个变量高于平均值时,另一个倾向于低于平均值
-
强度:点与形式的接近程度
-
异常值:偏离整体模式的点
相关系数(Correlation, )
-
衡量两个数值变量间线性关系的方向和强度
-
取值范围:
-
特点:
- 无单位
- 不受测量单位影响
- 仅衡量线性关系,不描述曲线关系
- 对异常值敏感
📌 注意:相关不等于因果(Correlation does not imply causation)
关键公式总结
-
均值:
-
方差:
-
标准差:
-
相关系数:
