SDSC5001 课程 2-数据探索
#sdsc5001 English / 中文 数据定义 数据是 数据对象(data objects) 及其 属性(attributes) 的集合。 数据对象也称为记录、点、样本、实体或实例。 属性是对象的性质或特征,例如年龄、身高、体重、教育程度等。 属性也称为变量、字段、特征。 例如,一个关于人的数据集可能包含“年龄”、“身高”等属性。 数据类型 1. 连续变量(Continuous Variable) 例如:长度、时间、计数、重量、高度。 取值是连续的数值。 2. 名义变量 / 分类变量(Nominal / Categorical Variable) 例如:种族、性别、婚姻状况、眼睛颜色。 取值是离散的类别,没有顺序关系。 3. 序数变量(Ordinal Variable) 例如:年龄组(儿童、青年、成人、老年)、字母等级、满意度评分(不喜欢、中立、喜欢)。 取值有顺序,但没有明确的数值间隔。 4. 区间变量(Interval Variable) 例如:温度、工资范围。 取值是数值,且有明确的间隔意义。 ...
SDSC5001 Course 1-Review: Probability and Statistics
#sdsc5001 English / 中文 Population and Sample Population: Refers to the entire set of individuals from which we attempt to draw conclusions. Sample: Refers to a subset observed from the population. Relationship: Samples are used to infer characteristics of the population; the core of statistics and machine learning is to estimate or predict population parameters based on sample data. For example, in a coin toss experiment, the population is all possible coin toss outcomes, while the s...
SDSC5001 课程 1-概率论与数理统计复习
#sdsc5001 English / 中文 总体与样本 总体(Population):研究对象的完整集合 样本(Sample):从总体中抽取的部分观察对象 关系:通过样本推断总体特征是统计与机器学习的核心 例如抛硬币实验中,总体是所有可能的抛硬币结果,样本是实际观察到的10,000次抛硬币结果 概率基础 实验(Experiment):任何产生观察结果的过程 样本空间(Sample Space):实验所有可能结果的集合,记为 SSS 事件(Event):样本空间 SSS 的子集 示例:掷六面骰子 实验:掷骰子 样本空间 S={1,2,3,4,5,6}S = \{1, 2, 3, 4, 5, 6\}S={1,2,3,4,5,6} 事件"得到偶数":{2,4,6}\{2, 4, 6\}{2,4,6} 集合运算 给定事件 AAA 和 BBB: A∪BA \cup BA∪B:AAA 与 BBB 的并集 A∩BA \cap BA∩B:AAA 与 BBB 的交集 A′A'A′:AAA 的补集 ...
SDSC6012 Course 3-Theory and Implementation
#sdsc6012 English / 中文 Fundamentals of Time Series Theory Definition and Properties of Time Series Time series is a sequence of random variables arranged in chronological order, denoted as {Xt:t∈T}\{X_t: t \in T\}{Xt:t∈T}, where TTT is the time index set. In practical applications, TTT is typically a discrete set (e.g., T={0,1,2,…}T = \{0, 1, 2, \ldots\}T={0,1,2,…}). Core Concept: Time series analysis aims to reveal internal dynamic dependencies within the sequence and build predictive mode...
SDSC6012 Course 2-Stationarity and autoregressive models
#sdsc6012 English / 中文 Components and Decomposition of Time Series A time series typically consists of three components: Trend Component: Long-term direction of change Seasonal Component: Fluctuations with fixed periods Random Noise: Unexplained random fluctuations Using Python’s Matplotlib and NumPy libraries, one can generate and visualize the combined effects of these components. Key Statistics: Measuring Dependence Mean Function μt=E(xt)=∫−∞∞xft(x)dx\mu_t=E\left(x_t\right)=\int...
SDSC6012 课程 2-平稳性与自回归模型
#sdsc6012 English / 中文 时间序列的构成与分解 一个时间序列通常包含三个成分: 趋势成分 (Trend):长期变化方向 季节性成分 (Seasonality):固定周期的波动 随机噪声 (Noise):无法解释的随机波动 通过Python的Matplotlib和NumPy库可以生成并可视化这些成分的组合效果。 关键统计量:衡量依赖性 均值函数 (Mean Function) μt=E(xt)=∫−∞∞xft(x)dx\mu_t=E\left(x_t\right)=\int_{-\infty}^{\infty} x f_t(x) d x μt=E(xt)=∫−∞∞xft(x)dx 表示时间序列在时刻 ttt 的平均水平 对连续随机变量,通过概率密度函数 f(x)f(x)f(x) 积分计算 自协方差函数 (Autocovariance Function) γ(s,t)=Cov(xs,xt)=E[(xs−μs)(xt−μt)]\gamma(s, t)=\operatorname{Cov}\left(x_{s}, x_{t}...
SDSC6012 Course 1-Introduction
#sdsc6012 English / 中文 Time Series Definition Core Concepts A time series is a sequence of data points indexed in chronological order. Application Areas: Economics: Daily stock prices, GDP, monthly unemployment rate Social Sciences: Population, birth rate, enrollment rate Epidemiology: Number of flu cases, mortality rate Medicine: Blood pressure monitoring, fMRI data Natural Sciences: Global temperature, monthly sunspot observations Supplementary Note: Time series are observational r...
SDSC6012 课程 1-简介
#sdsc6012 English/ 中文 时间序列定义 核心概念 时间序列是按时间顺序索引的数据点序列。 应用领域: 经济学:每日股价、GDP、月度失业率 社会科学:人口、出生率、入学率 流行病学:流感病例数、死亡率 医学:血压监测、fMRI数据 自然科学:全球温度、月度太阳黑子观测 补充说明:时间序列是现实世界动态过程的观测记录,核心特征是数据点按时间戳排序。 时间序列分析目标 分析意义 描述与解释:理解序列生成机制(如趋势/季节性) 例:分析气温序列中的长期变暖趋势 预测:预测未来值 例:预测下季度失业率 控制:评估干预措施影响 例:货币政策对失业率的影响 假设检验:验证理论模型 例:检验全球变暖假设 时间序列模型 基本分解模型 xt=mt+st+etx_t = m_t + s_t + e_t xt=mt+st+et 公式解释: xtx_txt:时间 ttt 的观测值 mtm_tmt:趋势项(长期变化趋势) sts_tst:季节项(周期性变化规则) ete_tet:残差项(随机波动/噪声) 随...
SDSC5002 Course 2-EDA
#sdsc5002 English / 中文 Data Fundamentals What is Data? Data are values obtained by measuring certain variables from individuals (people, objects, etc.). Types of Variables Categorical Variables (Qualitative) Examples: Gender, blood type, disease status If categories can be ordered, they are called ordinal categorical variables (e.g., course grades, COVID-19 severity) Numerical Variables (Quantitative) Examples: Height, weight, age, income, blood pressure Only numerical variables supp...
SDSC5002 课程 2-EDA
#sdsc5002 English / 中文 数据基础 什么是数据? 数据是从个体(人、物体等)中对某些变量进行测量所得到的值。 变量类型 分类变量(定性) 例如:性别、血型、疾病状态 若类别可排序,则称为有序分类变量(例如:课程等级、COVID-19严重程度) 数值变量(定量) 例如:身高、体重、年龄、收入、血压 只有数值变量支持算术运算 数据表结构 列(Columns):对应变量(Variables) 行(Rows):对应个体或观测值(Observations),数量通常记为 nnn Song Artist Genre Size(MB) Length(sec) My Friends D. Williams Alternative 3.83 247 Up the Road E. Clapton Rock 5.62 378 数据收集方法 观察法:直接观察或比较 测试与实验:使用工具(如软尺)测量 调查法: 问卷 访谈 电子邮件/电话 文档分析:如查阅医疗记录 📌 注意:问卷设计顺序可能影响回答...
