#sdsc5001

English / 中文

数据定义

数据是 数据对象(data objects) 及其 属性(attributes) 的集合。

  • 数据对象也称为记录、点、样本、实体或实例。

  • 属性是对象的性质或特征,例如年龄、身高、体重、教育程度等。

  • 属性也称为变量、字段、特征。

例如,一个关于人的数据集可能包含“年龄”、“身高”等属性。


数据类型

1. 连续变量(Continuous Variable)

  • 例如:长度、时间、计数、重量、高度。

  • 取值是连续的数值。

2. 名义变量 / 分类变量(Nominal / Categorical Variable)

  • 例如:种族、性别、婚姻状况、眼睛颜色。

  • 取值是离散的类别,没有顺序关系。

3. 序数变量(Ordinal Variable)

  • 例如:年龄组(儿童、青年、成人、老年)、字母等级、满意度评分(不喜欢、中立、喜欢)。

  • 取值有顺序,但没有明确的数值间隔。

4. 区间变量(Interval Variable)

  • 例如:温度、工资范围。

  • 取值是数值,且有明确的间隔意义。


数据表示形式

数据矩阵(Data Matrix)

若所有对象具有相同的数值变量集,则可表示为 n×pn \times p 矩阵,其中:

  • nn:对象数量(行)

  • pp:变量数量(列)

示例:

患者编号 性别 年龄 吸烟 饮酒
1 F 28 N Y
2 M 35 N N
3 M 60 Y Y

文本数据(Text Data)

将文档表示为词频向量:

I love dogs hate and knitting is my hobby passion
Doc 1 1 1 1 0 0 0 0 0 0 0
Doc 2 1 0 1 1 1 1 0 0 0 0
Doc 3 0 0 0 0 1 1 1 1 1 1

交易数据(Transaction Data)

每条记录是一组项目的集合,例如购物篮数据:

ID 商品
1 口罩、面包、可乐、牛奶
2 口罩、啤酒、面包、尿布
3 口罩、啤酒、尿布

图数据(Graph Data)

  • 例如:社交网络、分子结构。

  • 用节点和边表示关系。


数据质量问题

1. 噪声与异常值(Noise and Outliers)

  • 噪声:对原始值的扰动。

    截屏2025-09-19 22.40.06.png

  • 异常值:明显不同于其他观测的值。

    截屏2025-09-19 22.40.45.png

2. 缺失值(Missing Values)

  • 原因:未收集、不适用等。

  • 处理方式

    • 删除含缺失值的对象
    • 插补缺失值
    • 在分析中部分使用缺失信息

3. 抽样偏差(Sampling Bias)

  • 样本与总体不匹配。

  • 常见原因:便利抽样、类别不平衡。


数据探索(Data Exploration)

目的

  • 初步了解数据特性

  • 帮助选择预处理或分析方法

  • 利用人类模式识别能力

技术方法

1. 汇总统计(Summary Statistics)

用于概括数据属性的数值,例如:

  • 频率(Frequency)

  • 众数(Mode)

  • 位置度量:均值、中位数、截尾均值、百分位数

  • 散布度量:极差、方差、标准差

  • 偏度(Skewness)

2. 可视化(Visualization)

将数据转换为视觉形式,便于分析关系和模式。


可视化技术

示例数据集:Iris

  • 三种鸢尾花:Setosa, Versicolor, Virginica
  • 四个变量:花萼长/宽、花瓣长/宽
  • 每类50个样本可视化技术常用于探索该数据集中的类别可分性。

1. 直方图(Histogram)

  • 展示单个变量的分布。

    截屏2025-09-19 22.51.40.png

    截屏2025-09-19 22.52.09.png

2. 散点图(Scatter Plot)

  • 展示两个变量之间的关系。

    截屏2025-09-19 22.50.22.png

3. 矩阵图(Matrix Plot)

  • 绘制数据矩阵,常用于分类排序后的数据。

  • 变量常需归一化以避免 dominance。

    截屏2025-09-19 22.43.41.png

4. 相似性矩阵(Similarity Matrix)

  • 用颜色深浅表示对象之间的相似度。

    截屏2025-09-19 22.44.19.png

5. 平行坐标图(Parallel Coordinates Plot)

  • 使用平行轴,每个对象是一条折线。

  • 变量顺序可能影响可视化效果。
    截屏2025-09-19 22.43.11.png

6. 其他技术

  • 星形图(Star Plots):每个对象是一个多边形。

  • 切尔诺夫脸谱图(Chernoff Faces):将变量映射为人脸特征。

这啥鬼映射方式