统计学基础)
欢迎来到统计学的基础世界如果说概率论是研究“已知总体规律推测随机现象”的学问那么统计学则是它的“逆问题”通过分析有限的数据样本来推断总体的特征和规律。我们将从数据本身出发学习如何描述数据、度量数据的特征并通过可视化来直观展示数据背后的信息。准备好了吗让我们开始吧1. 数据类型在分析任何数据之前首先要搞清楚数据属于哪种类型因为这决定了我们可以使用哪些统计方法和可视化手段。数据通常分为以下三类1.1 分类变量 (Nominal / Categorical)定义数据代表类别没有内在的顺序或大小关系。例子性别男、女颜色红、绿、蓝血型A、B、AB、O操作只能比较是否相等不能进行加减运算。1.2 有序变量 (Ordinal)定义数据有明确的顺序或等级但类别之间的“距离”不一定相等。例子教育程度小学、初中、高中、大学、研究生满意度调查非常不满意、不满意、一般、满意、非常满意操作可以比较大小如“大学” “高中”但不能说“大学”比“高中”多出多少“单位”。1.3 数值变量 (Numerical)定义数据是数字具有实际的数值意义可以进行算术运算。进一步分为离散变量取值是有限个或可数无限个通常是整数。例子家庭成员数、公交车上的乘客数、骰子点数。连续变量取值在一定范围内可以是任意实数。例子身高、体重、温度、时间。小贴士在数据分析中有时会把有序变量当作数值来处理尤其是在某些模型中但这样做需要谨慎因为它隐含了“等间距”的假设。2. 集中趋势度量集中趋势用来描述数据的“中心位置”或“典型值”。最常见的指标有三个均值、中位数和众数。2.1 均值 (Mean)算术均值x ˉ x 1 x 2 ⋯ x n n 1 n ∑ i 1 n x i \bar{x} \frac{x_1 x_2 \cdots x_n}{n} \frac{1}{n} \sum_{i1}^{n} x_ixˉnx1x2⋯xnn1i1∑nxi它是所有数据点的算术平均值也是最常用的集中趋势度量。加权均值当每个数据点具有不同的“权重”w i w_iwi时x ˉ w ∑ i 1 n w i x i ∑ i 1 n w i \bar{x}_w \frac{\sum_{i1}^{n} w_i x_i}{\sum_{i1}^{n} w_i}xˉw∑i1nwi∑i1nwixi例子一门课平时成绩占 30%期末成绩占 70%。平时 85 分期末 90 分则加权均值为( 0.3 × 85 0.7 × 90 ) 88.5 (0.3 \times 85 0.7 \times 90) 88.5(0.3×850.7×90)88.5分。2.2 中位数 (Median)将数据从小到大排序后位于中间位置的数值。如果数据个数为奇数中位数就是正中间那个数如果为偶数则是中间两个数的平均值。优点对异常值极端值不敏感具有很强的稳健性。缺点没有充分利用所有数据的信息。例子数据集[ 1 , 2 , 3 , 4 , 100 ] [1, 2, 3, 4, 100][1,2,3,4,100]均值为( 1 2 3 4 100 ) / 5 22 (1234100)/5 22(1234100)/522而中位数为 3。中位数更能代表这组数据的“典型”水平因为它没有被异常值 100 拉高。2.3 众数 (Mode)数据中出现次数最多的数值。一个数据集可能有一个众数单峰、多个众数多峰或没有众数。众数适用于所有数据类型尤其是分类变量。例子调查颜色偏好[红, 蓝, 红, 绿, 红, 蓝]众数是“红”。2.4 均值与中位数的比较对称分布均值 ≈ 中位数。右偏分布正偏数据右侧有长尾大的异常值均值 中位数。比如收入分布少数高收入者会将均值拉高。左偏分布负偏数据左侧有长尾小的异常值均值 中位数。选择建议当数据存在明显的异常值或分布严重偏斜时中位数是更稳健的选择例如房价、收入分析。当数据分布对称且没有异常值时均值能更充分地利用数据信息。3. 离散程度度量离散程度描述了数据的“分散性”或“变异性”。两个数据集可能有相同的均值但分散程度可能完全不同。3.1 极差 (Range)极差 最大值 − 最小值 \text{极差} \text{最大值} - \text{最小值}极差最大值−最小值优点计算简单。缺点只用了两个极端值对异常值极其敏感不能反映内部波动。3.2 方差与标准差总体方差σ 2 1 N ∑ i 1 N ( x i − μ ) 2 \sigma^2 \frac{1}{N} \sum_{i1}^{N} (x_i - \mu)^2σ2N1i1∑N(xi−μ)2其中N NN是总体大小μ \muμ是总体均值。样本方差s 2 1 n − 1 ∑ i 1 n ( x i − x ˉ ) 2 s^2 \frac{1}{n-1} \sum_{i1}^{n} (x_i - \bar{x})^2s2n−11i1∑n(xi−xˉ)2其中n nn是样本大小$ \bar{x} $ 是样本均值。标准差方差的平方根与原始数据单位相同便于解释σ σ 2 , s s 2 \sigma \sqrt{\sigma^2}, \quad s \sqrt{s^2}σσ2,ss2为什么样本方差要除以n − 1 n-1n−1而不是n nn这是为了获得无偏估计。样本均值x ˉ \bar{x}xˉ本身是对总体均值的一个估计使用x ˉ \bar{x}xˉ代替μ \muμ时会使得计算出的离差平方和略微偏小。除以n − 1 n-1n−1即自由度可以修正这个偏差使得样本方差的期望值等于总体方差。直观上当我们用样本均值时实际上“消耗”了一个自由度剩下的n − 1 n-1n−1个数据点才真正提供关于变异性的信息。3.3 四分位数与四分位距四分位数将排序后的数据分成四等份的三个点下四分位数Q 1 Q_1Q1第 25% 位置的值。中位数Q 2 Q_2Q2第 50% 位置的值。上四分位数Q 3 Q_3Q3第 75% 位置的值。四分位距 (IQR)IQR Q 3 − Q 1 \text{IQR} Q_3 - Q_1IQRQ3−Q1它衡量了中间 50% 数据的分散程度。与极差相比IQR 对异常值不敏感是一种稳健的离散度量。3.4 变异系数 (Coefficient of Variation, CV)C V s x ˉ × 100 % CV \frac{s}{\bar{x}} \times 100\%CVxˉs×100%用途用于比较不同单位或不同均值水平的数据的离散程度。例如比较身高厘米和体重千克的变异程度或者比较两组均值差异很大的数据。注意只有当数据为比率尺度有实际意义的零点且均值为正时才适用。4. 分布形状除了中心和离散程度数据的分布形状也很重要主要通过偏度和峰度来描述。4.1 偏度 (Skewness)偏度衡量分布的不对称性。对称分布偏度 ≈ 0。左右两侧镜像对称。右偏正偏右侧有长尾均值 中位数。例如收入分布、房屋价格。左偏负偏左侧有长尾均值 中位数。例如考试成绩大部分学生分数较高少数低分拉长左侧。4.2 峰度 (Kurtosis)峰度衡量分布尾部的厚重程度以及峰顶的尖峭程度。尖峰高狭峰峰度 0相对于正态分布尾部较厚极端值出现概率更大。例如金融收益率数据常呈现尖峰特征。平峰低阔峰峰度 0尾部较薄分布更平坦。正态分布峰度 0作为基准。注意峰度主要关注的是尾部的极端值而非仅仅“峰顶”的尖峭程度。5. 数据可视化“一图胜千言”可视化是探索性数据分析的核心工具。下面介绍几种最常用的统计图形。5.1 直方图 (Histogram)用途展示数值变量的分布形态中心、离散、偏度、峰度、多峰性等。关键组距的选择至关重要。组距过小图形过于锯齿状噪声多。组距过大信息被过度平滑细节丢失。常用经验法则Sturges 公式k ⌈ log 2 n 1 ⌉ k \lceil \log_2 n 1 \rceilk⌈log2n1⌉或直接尝试不同组距寻找最合适的视图。5.2 箱线图 (Box Plot)用途展示数据的五数概括最小值、Q 1 Q_1Q1、中位数、Q 3 Q_3Q3、最大值并直观识别异常值。结构箱子从Q 1 Q_1Q1到Q 3 Q_3Q3箱中的线是中位数。胡须通常延伸到Q 1 − 1.5 × IQR Q_1 - 1.5 \times \text{IQR}Q1−1.5×IQR和Q 3 1.5 × IQR Q_3 1.5 \times \text{IQR}Q31.5×IQR范围内的最远点。异常值超出胡须范围的点通常单独标出如圆圈或星号。优点可同时比较多个组别的分布稳健且信息量大。5.3 散点图 (Scatter Plot)用途探索两个数值变量之间的关系趋势、相关性、聚类、异常点。解读正相关点从左下向右上延伸。负相关点从左上向右下延伸。无关点无明显方向。非线性关系如抛物线形状。5.4 Q-Q 图 (Quantile-Quantile Plot)用途初步判断数据是否来自某个理论分布最常见是正态分布。原理将样本的分位数与理论分布的分位数进行对比。解读如果点大致落在一条直线上说明数据与该理论分布拟合良好。若在尾部明显偏离直线说明存在偏度或厚尾特征。常见应用在进行 t 检验、方差分析等参数检验前用 Q-Q 图检查数据的正态性假设。6. 总结统计学基础是数据分析的基石。从理解数据类型开始我们学会了用均值、中位数、众数描述中心用方差、标准差、IQR描述离散程度用偏度、峰度描述分布形状用直方图、箱线图、散点图、Q-Q 图来直观探索数据。这些工具共同构成了描述性统计的核心也是通往推断统计和机器学习的大门。如果你已经掌握了概率论的基础正如我们上一讲所学的那么接下来就可以利用这些统计学工具从样本数据中做出关于总体的推断了。上一章机器学习概率论与统计学–(1)概率论基础