SDSC5001 课程 2-数据探索
#sdsc5001
English / 中文
数据定义
数据是 数据对象(data objects) 及其 属性(attributes) 的集合。
-
数据对象也称为记录、点、样本、实体或实例。
-
属性是对象的性质或特征,例如年龄、身高、体重、教育程度等。
-
属性也称为变量、字段、特征。
例如,一个关于人的数据集可能包含“年龄”、“身高”等属性。
数据类型
1. 连续变量(Continuous Variable)
-
例如:长度、时间、计数、重量、高度。
-
取值是连续的数值。
2. 名义变量 / 分类变量(Nominal / Categorical Variable)
-
例如:种族、性别、婚姻状况、眼睛颜色。
-
取值是离散的类别,没有顺序关系。
3. 序数变量(Ordinal Variable)
-
例如:年龄组(儿童、青年、成人、老年)、字母等级、满意度评分(不喜欢、中立、喜欢)。
-
取值有顺序,但没有明确的数值间隔。
4. 区间变量(Interval Variable)
-
例如:温度、工资范围。
-
取值是数值,且有明确的间隔意义。
数据表示形式
数据矩阵(Data Matrix)
若所有对象具有相同的数值变量集,则可表示为 矩阵,其中:
-
:对象数量(行)
-
:变量数量(列)
示例:
| 患者编号 | 性别 | 年龄 | 吸烟 | 饮酒 |
|---|---|---|---|---|
| 1 | F | 28 | N | Y |
| 2 | M | 35 | N | N |
| 3 | M | 60 | Y | Y |
文本数据(Text Data)
将文档表示为词频向量:
| I | love | dogs | hate | and | knitting | is | my | hobby | passion | |
|---|---|---|---|---|---|---|---|---|---|---|
| Doc 1 | 1 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
| Doc 2 | 1 | 0 | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 0 |
| Doc 3 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 1 | 1 |
交易数据(Transaction Data)
每条记录是一组项目的集合,例如购物篮数据:
| ID | 商品 |
|---|---|
| 1 | 口罩、面包、可乐、牛奶 |
| 2 | 口罩、啤酒、面包、尿布 |
| 3 | 口罩、啤酒、尿布 |
图数据(Graph Data)
-
例如:社交网络、分子结构。
-
用节点和边表示关系。
数据质量问题
1. 噪声与异常值(Noise and Outliers)
-
噪声:对原始值的扰动。

-
异常值:明显不同于其他观测的值。

2. 缺失值(Missing Values)
-
原因:未收集、不适用等。
-
处理方式:
- 删除含缺失值的对象
- 插补缺失值
- 在分析中部分使用缺失信息
3. 抽样偏差(Sampling Bias)
-
样本与总体不匹配。
-
常见原因:便利抽样、类别不平衡。
数据探索(Data Exploration)
目的
-
初步了解数据特性
-
帮助选择预处理或分析方法
-
利用人类模式识别能力
技术方法
1. 汇总统计(Summary Statistics)
用于概括数据属性的数值,例如:
-
频率(Frequency)
-
众数(Mode)
-
位置度量:均值、中位数、截尾均值、百分位数
-
散布度量:极差、方差、标准差
-
偏度(Skewness)
2. 可视化(Visualization)
将数据转换为视觉形式,便于分析关系和模式。
可视化技术
示例数据集:Iris
- 三种鸢尾花:Setosa, Versicolor, Virginica
- 四个变量:花萼长/宽、花瓣长/宽
- 每类50个样本可视化技术常用于探索该数据集中的类别可分性。
1. 直方图(Histogram)
-
展示单个变量的分布。


2. 散点图(Scatter Plot)
-
展示两个变量之间的关系。

3. 矩阵图(Matrix Plot)
-
绘制数据矩阵,常用于分类排序后的数据。
-
变量常需归一化以避免 dominance。

4. 相似性矩阵(Similarity Matrix)
-
用颜色深浅表示对象之间的相似度。

5. 平行坐标图(Parallel Coordinates Plot)
-
使用平行轴,每个对象是一条折线。
-
变量顺序可能影响可视化效果。

6. 其他技术
-
星形图(Star Plots):每个对象是一个多边形。
-
切尔诺夫脸谱图(Chernoff Faces):将变量映射为人脸特征。
这啥鬼映射方式
