SDSC5001 课程 3-统计机器学习概述
#sdsc5001 English / 中文 统计学与机器学习的术语对比 统计学 机器学习 分类/回归聚类含缺失响应的分类/回归(非线性)降维 监督学习无监督学习半监督学习流形学习 协变量/响应变量样本/总体统计模型误分类/预测误差 特征/结果训练集/测试集学习器泛化误差 多类逻辑函数截断线性函数 Softmax函数ReLU(线性整流单元) 关键说明:两个领域使用不同术语描述相似概念,但核心思想相通。例如统计学的"协变量"对应机器学习的"特征"。 实际应用案例 工资预测案例 任务:理解员工工资与多个因素之间的关联关系 数据来源:基于美国大西洋地区男性员工收集的数据集 垃圾邮件检测案例 任务:构建能够自动检测垃圾邮件的过滤器 数据表示: 观测值 make% address% … 总大写字母数 是否为垃圾邮件 1 0 0.64 … 278 1(是) 2 0.21 0.28 … 1028 1(是) 3 0 0 … 7 0(否) … … … … … … 4600 0.3 0 … 7...
SDSC5001 Course 2-Exploring Data
#sdsc5001 English / 中文 Data Definition Data is a collection of data objects and their attributes. Data objects are also called records, points, samples, entities, or instances. Attributes are properties or characteristics of objects, such as age, height, weight, education level, etc. Attributes are also called variables, fields, features. For example, a dataset about people might include attributes like ‘age’, ‘height’, etc. Data Types 1. Continuous Variable e.g., length, time, c...
SDSC5001 课程 2-数据探索
#sdsc5001 English / 中文 数据定义 数据是 数据对象(data objects) 及其 属性(attributes) 的集合。 数据对象也称为记录、点、样本、实体或实例。 属性是对象的性质或特征,例如年龄、身高、体重、教育程度等。 属性也称为变量、字段、特征。 例如,一个关于人的数据集可能包含“年龄”、“身高”等属性。 数据类型 1. 连续变量(Continuous Variable) 例如:长度、时间、计数、重量、高度。 取值是连续的数值。 2. 名义变量 / 分类变量(Nominal / Categorical Variable) 例如:种族、性别、婚姻状况、眼睛颜色。 取值是离散的类别,没有顺序关系。 3. 序数变量(Ordinal Variable) 例如:年龄组(儿童、青年、成人、老年)、字母等级、满意度评分(不喜欢、中立、喜欢)。 取值有顺序,但没有明确的数值间隔。 4. 区间变量(Interval Variable) 例如:温度、工资范围。 取值是数值,且有明确的间隔意义。 ...
SDSC5001 Course 1-Review: Probability and Statistics
#sdsc5001 English / 中文 Population and Sample Population: Refers to the entire set of individuals from which we attempt to draw conclusions. Sample: Refers to a subset observed from the population. Relationship: Samples are used to infer characteristics of the population; the core of statistics and machine learning is to estimate or predict population parameters based on sample data. For example, in a coin toss experiment, the population is all possible coin toss outcomes, while the s...
SDSC5001 课程 1-概率论与数理统计复习
#sdsc5001 English / 中文 总体与样本 总体(Population):研究对象的完整集合 样本(Sample):从总体中抽取的部分观察对象 关系:通过样本推断总体特征是统计与机器学习的核心 例如抛硬币实验中,总体是所有可能的抛硬币结果,样本是实际观察到的10,000次抛硬币结果 概率基础 实验(Experiment):任何产生观察结果的过程 样本空间(Sample Space):实验所有可能结果的集合,记为 SSS 事件(Event):样本空间 SSS 的子集 示例:掷六面骰子 实验:掷骰子 样本空间 S={1,2,3,4,5,6}S = \{1, 2, 3, 4, 5, 6\}S={1,2,3,4,5,6} 事件"得到偶数":{2,4,6}\{2, 4, 6\}{2,4,6} 集合运算 给定事件 AAA 和 BBB: A∪BA \cup BA∪B:AAA 与 BBB 的并集 A∩BA \cap BA∩B:AAA 与 BBB 的交集 A′A'A′:AAA 的补集 ...
SDSC6012 Course 3-Theory and Implementation
#sdsc6012 English / 中文 Fundamentals of Time Series Theory Definition and Properties of Time Series Time series is a sequence of random variables arranged in chronological order, denoted as {Xt:t∈T}\{X_t: t \in T\}{Xt:t∈T}, where TTT is the time index set. In practical applications, TTT is typically a discrete set (e.g., T={0,1,2,…}T = \{0, 1, 2, \ldots\}T={0,1,2,…}). Core Concept: Time series analysis aims to reveal internal dynamic dependencies within the sequence and build predictive mode...
SDSC6012 Course 2-Stationarity and autoregressive models
#sdsc6012 English / 中文 Components and Decomposition of Time Series A time series typically consists of three components: Trend Component: Long-term direction of change Seasonal Component: Fluctuations with fixed periods Random Noise: Unexplained random fluctuations Using Python’s Matplotlib and NumPy libraries, one can generate and visualize the combined effects of these components. Key Statistics: Measuring Dependence Mean Function μt=E(xt)=∫−∞∞xft(x)dx\mu_t=E\left(x_t\right)=\int...
SDSC6012 课程 2-平稳性与自回归模型
#sdsc6012 English / 中文 时间序列的构成与分解 一个时间序列通常包含三个成分: 趋势成分 (Trend):长期变化方向 季节性成分 (Seasonality):固定周期的波动 随机噪声 (Noise):无法解释的随机波动 通过Python的Matplotlib和NumPy库可以生成并可视化这些成分的组合效果。 关键统计量:衡量依赖性 均值函数 (Mean Function) μt=E(xt)=∫−∞∞xft(x)dx\mu_t=E\left(x_t\right)=\int_{-\infty}^{\infty} x f_t(x) d x μt=E(xt)=∫−∞∞xft(x)dx 表示时间序列在时刻 ttt 的平均水平 对连续随机变量,通过概率密度函数 f(x)f(x)f(x) 积分计算 自协方差函数 (Autocovariance Function) γ(s,t)=Cov(xs,xt)=E[(xs−μs)(xt−μt)]\gamma(s, t)=\operatorname{Cov}\left(x_{s}, x_{t}...
SDSC6012 Course 1-Introduction
#sdsc6012 English / 中文 Time Series Definition Core Concepts A time series is a sequence of data points indexed in chronological order. Application Areas: Economics: Daily stock prices, GDP, monthly unemployment rate Social Sciences: Population, birth rate, enrollment rate Epidemiology: Number of flu cases, mortality rate Medicine: Blood pressure monitoring, fMRI data Natural Sciences: Global temperature, monthly sunspot observations Supplementary Note: Time series are observational r...
SDSC6012 课程 1-简介
#sdsc6012 English/ 中文 时间序列定义 核心概念 时间序列是按时间顺序索引的数据点序列。 应用领域: 经济学:每日股价、GDP、月度失业率 社会科学:人口、出生率、入学率 流行病学:流感病例数、死亡率 医学:血压监测、fMRI数据 自然科学:全球温度、月度太阳黑子观测 补充说明:时间序列是现实世界动态过程的观测记录,核心特征是数据点按时间戳排序。 时间序列分析目标 分析意义 描述与解释:理解序列生成机制(如趋势/季节性) 例:分析气温序列中的长期变暖趋势 预测:预测未来值 例:预测下季度失业率 控制:评估干预措施影响 例:货币政策对失业率的影响 假设检验:验证理论模型 例:检验全球变暖假设 时间序列模型 基本分解模型 xt=mt+st+etx_t = m_t + s_t + e_t xt=mt+st+et 公式解释: xtx_txt:时间 ttt 的观测值 mtm_tmt:趋势项(长期变化趋势) sts_tst:季节项(周期性变化规则) ete_tet:残差项(随机波动/噪声) 随...
