#sdsc5002

English / 中文

数据基础

什么是数据?

数据是从个体(人、物体等)中对某些变量进行测量所得到的值。

变量类型

  • 分类变量(定性)

    • 例如:性别、血型、疾病状态
    • 若类别可排序,则称为有序分类变量(例如:课程等级、COVID-19严重程度)
  • 数值变量(定量)

    • 例如:身高、体重、年龄、收入、血压
    • 只有数值变量支持算术运算

数据表结构

  • 列(Columns):对应变量(Variables)

  • 行(Rows):对应个体或观测值(Observations),数量通常记为 nn

Song Artist Genre Size(MB) Length(sec)
My Friends D. Williams Alternative 3.83 247
Up the Road E. Clapton Rock 5.62 378

数据收集方法

  • 观察法:直接观察或比较

  • 测试与实验:使用工具(如软尺)测量

  • 调查法

    • 问卷
    • 访谈
    • 电子邮件/电话
  • 文档分析:如查阅医疗记录

📌 注意:问卷设计顺序可能影响回答一致性(例如:先问具体问题再问一般问题,或反之)

探索性数据分析(EDA)

EDA 定义与目标

由 John Tukey 在 1970 年代提出,是对数据进行初步检查的方法,主要包括:

  1. 检查每个变量
  2. 检查变量间关系

方法分为:

  • 数值摘要(计算数字)

  • 图形摘要(绘制图表)

分布(Distribution)

  • 描述变量可能取值及其频率

  • 关键问题:

    • 变量有哪些可能取值?
    • 这些取值出现的频率如何?

分类变量的摘要

数值摘要

使用计数百分比描述每个类别的分布:

教育水平 计数(百万) 百分比(%)
高中以下 4.7 12.3
高中毕业 11.8 30.7
大学在读 10.9 28.3
学士学位 8.5 22.1
高级学位 2.5 6.6

图形摘要

  • 条形图(Bar Chart):条形高度与计数/百分比成比例

    • 若按频率排序,称为 Pareto 图
  • 饼图(Pie Chart):扇形面积与计数/百分比成比例

💡 条形图比饼图更容易比较实际数值(比较高度比比较角度更直观)


数值变量的摘要

图形摘要:直方图(Histogram)

  1. 将取值范围分成等宽区间

  2. 每个区间绘制矩形,高度与落入该区间的观测数成比例

例如:鸢尾花数据集中“萼片长度”变量的直方图,区间为 [4, 8],分成8个等宽区间

密度曲线与密度图

  • 密度曲线:近似表示每个取值范围内的比例

  • 密度图:通过核密度估计方法平滑得到,更连续地显示数据分布

分布形状描述

  • 单峰(Unimodal):一个主要峰值

  • 双峰(Bimodal):两个主要峰值

  • 对称(Symmetric):中间对称

  • 右偏(Skewed to the right):右侧尾部较长

  • 左偏(Skewed to the left):左侧尾部较长


数值摘要

中心位置度量

  • 均值(Mean):平均值

    xˉ=x1+x2++xnn\bar{x} = \frac{x_1 + x_2 + \cdots + x_n}{n}

  • 中位数(Median):50% 分位数

    • 若观测数为偶数,取中间两数的平均值

🔍 中位数对极端值(异常值)更稳健(Robust)

变异性度量

  • 方差(Variance):偏离均值的平方差的“平均值”

    s2=(x1xˉ)2+(x2xˉ)2++(xnxˉ)2n1s^2 = \frac{(x_1 - \bar{x})^2 + (x_2 - \bar{x})^2 + \cdots + (x_n - \bar{x})^2}{n-1}

  • 标准差(SD):方差的平方根

    s=s2s = \sqrt{s^2}

为什么除以 n1n-1?为了得到方差的无偏估计(当 nn 较大时影响很小)

其他变异性度量

  • 极差(Range):最大值 - 最小值

  • 四分位距(IQR):第三四分位数与第一四分位数之差

    IQR=Q3Q1IQR = Q3 - Q1

五数概括与箱线图

  • 五数概括:最小值、Q1、中位数、Q3、最大值

  • 箱线图(Boxplot)

    • 箱子:Q1 到 Q3,中位数在箱内
    • 须线:延伸至最小值和最大值(或1.5×IQR范围内的最远端)
    • 异常值:须线外的点

⚠ 仅用箱线图和数值摘要可能无法完整描述分布形状(如双峰分布),建议辅以直方图


两个变量间的关系

两个分类变量:列联表(Contingency Table)

  • 包含计数或比例(百分比)

  • 可计算:

    • 联合分布:每个单元格的比例
    • 边际分布:单个变量的分布
    • 条件分布:给定另一个变量取值后的分布

辛普森悖论(Simpson’s Paradox)

当考虑第三个变量(隐藏变量或混淆变量)时,两个变量间的关联方向可能发生逆转

两个数值变量:散点图(Scatterplot)

  • 横轴和纵轴分别表示两个变量

  • 每个观测值为一个点

  • 可添加分类变量(用不同颜色/符号)

散点图解读:

  • 形式:聚类、线性关联等

  • 方向

    • 正相关:一个变量高于平均值时,另一个也倾向于高于平均值
    • 负相关:一个变量高于平均值时,另一个倾向于低于平均值
  • 强度:点与形式的接近程度

  • 异常值:偏离整体模式的点

相关系数(Correlation, rr

  • 衡量两个数值变量间线性关系的方向和强度

  • 取值范围:[1,1][-1, 1]

  • 特点:

    • 无单位
    • 不受测量单位影响
    • 仅衡量线性关系,不描述曲线关系
    • 对异常值敏感

📌 注意:相关不等于因果(Correlation does not imply causation)


关键公式总结

  • 均值:xˉ=1ni=1nxi\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i

  • 方差:s2=1n1i=1n(xixˉ)2s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2

  • 标准差:s=s2s = \sqrt{s^2}

  • 相关系数:r=(xixˉ)(yiyˉ)(n1)sxsyr = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{(n-1) s_x s_y}