《数据挖掘》学习笔记(二):数据描述与统计指标

发布时间:2026/5/21 21:40:24

《数据挖掘》学习笔记(二):数据描述与统计指标 《数据挖掘》学习笔记二数据描述与统计指标系列文章目录章节内容状态第一章绪论✅第二章数据描述与统计指标✅第三章相关分析待更新第四章回归分析待更新第五章降维待更新第六章关联规则挖掘待更新第七章分类待更新第八章聚类待更新第九章异常检测待更新第十章集成学习待更新 第二章 数据描述与统计指标2.1 数据预处理数据预处理是数据挖掘的重要环节直接影响后续分析的质量。数据质量要素准确性、完整性、一致性、时效性、相关性数据清洗importpandasaspdimportnumpyasnp# 加载数据dfpd.read_csv(data.csv)# 缺失值处理方法# 方法1删除含缺失值的记录df_cleandf.dropna()# 方法2均值填充适用于正态分布数据df[Age]df[Age].fillna(df[Age].mean())# 方法3中位数填充适用于偏态分布数据df[Income]df[Income].fillna(df[Income].median())# 方法4众数填充适用于分类数据df[Category]df[Category].fillna(df[Category].mode()[0])# 方法5线性插值适用于时间序列数据df[Temperature]df[Temperature].interpolate(methodlinear)噪声处理 - 3σ准则# 基于3σ准则检测异常值defdetect_outliers_zscore(data,threshold3):meannp.mean(data)stdnp.std(data)z_scoresnp.abs((data-mean)/std)returnz_scoresthreshold# 应用示例outliersdetect_outliers_zscore(df[Score])df_cleandf[~outliers]2.2 数据属性类型属性类型描述示例标称属性无顺序关系的类别性别、颜色、品牌二元属性只有两个值的标称属性是/否、真/假序数属性有顺序关系的类别学历小学/中学/大学数值属性可度量的数值身高、体重、收入比率标度有绝对零点的数值长度、时间、金额区间标度无绝对零点的数值温度摄氏度2.3 数据描述性统计集中趋势度量importscipy.statsasstats datapd.Series([23,28,28,35,42,45,48,52,58,65])# 平均值meandata.mean()# 42.2# 中位数mediandata.median()# 43.5# 众数modestats.mode(data)[0][0]# 28# 几何均值适用于增长率数据geometric_meanstats.gmean(data)# 40.12离散程度度量# 极差range_valdata.max()-data.min()# 42# 方差variancedata.var()# 186.18# 标准差std_devdata.std()# 13.64# 变异系数相对离散程度cv(std_dev/mean)*100# 32.32%# 四分位差iqrdata.quantile(0.75)-data.quantile(0.25)# 22.5分布形态度量# 偏态系数skewnessdata.skew()# 0.18接近对称# skewness 0: 右偏分布# skewness 0: 左偏分布# 峰态系数kurtosisdata.kurtosis()# -0.73平峰分布# kurtosis 0: 尖峰分布# kurtosis 0: 平峰分布2.4 数据可视化importmatplotlib.pyplotaspltimportseabornassns# 设置样式sns.set_style(whitegrid)# 1. 直方图 - 数值分布plt.figure(figsize(10,6))sns.histplot(df[Age],bins20,kdeTrue)plt.title(年龄分布直方图)plt.xlabel(年龄)plt.ylabel(频数)plt.show()# 2. 箱线图 - 异常值检测plt.figure(figsize(10,6))sns.boxplot(xCategory,yPrice,datadf)plt.title(不同类别商品价格分布)plt.xticks(rotation45)plt.show()# 3. 散点图 - 相关性分析plt.figure(figsize(10,6))sns.scatterplot(xAge,yIncome,datadf,hueGender)plt.title(年龄与收入关系)plt.show()# 4. 热力图 - 相关性矩阵plt.figure(figsize(10,8))corr_matrixdf.corr()sns.heatmap(corr_matrix,annotTrue,cmapcoolwarm,fmt.2f)plt.title(变量相关性热力图)plt.show() 本章小结本章介绍了数据预处理的方法、数据属性类型、描述性统计指标和数据可视化技术。这些是数据挖掘的基础技能掌握好这些内容对于后续的数据分析至关重要。 参考资料《数据挖掘》吕欣、王梦宁 著科学出版社GitHub仓库https://github.com/Feihuo-W/Data-Mining-book-study上一篇《数据挖掘》学习笔记一绪论与大数据时代系列文章预告下一篇将介绍第三章「相关分析」包括Pearson相关系数、Spearman秩相关系数、互信息等内容。

相关新闻