《数据挖掘》学习笔记（二）：数据描述与统计指标-尧图网站设计

《数据挖掘》学习笔记二数据描述与统计指标系列文章目录章节内容状态第一章绪论✅第二章数据描述与统计指标✅第三章相关分析待更新第四章回归分析待更新第五章降维待更新第六章关联规则挖掘待更新第七章分类待更新第八章聚类待更新第九章异常检测待更新第十章集成学习待更新第二章数据描述与统计指标2.1 数据预处理数据预处理是数据挖掘的重要环节直接影响后续分析的质量。数据质量要素准确性、完整性、一致性、时效性、相关性数据清洗importpandasaspdimportnumpyasnp# 加载数据dfpd.read_csv(data.csv)# 缺失值处理方法# 方法1删除含缺失值的记录df_cleandf.dropna()# 方法2均值填充适用于正态分布数据df[Age]df[Age].fillna(df[Age].mean())# 方法3中位数填充适用于偏态分布数据df[Income]df[Income].fillna(df[Income].median())# 方法4众数填充适用于分类数据df[Category]df[Category].fillna(df[Category].mode()[0])# 方法5线性插值适用于时间序列数据df[Temperature]df[Temperature].interpolate(methodlinear)噪声处理 - 3σ准则# 基于3σ准则检测异常值defdetect_outliers_zscore(data,threshold3):meannp.mean(data)stdnp.std(data)z_scoresnp.abs((data-mean)/std)returnz_scoresthreshold# 应用示例outliersdetect_outliers_zscore(df[Score])df_cleandf[~outliers]2.2 数据属性类型属性类型描述示例标称属性无顺序关系的类别性别、颜色、品牌二元属性只有两个值的标称属性是/否、真/假序数属性有顺序关系的类别学历小学/中学/大学数值属性可度量的数值身高、体重、收入比率标度有绝对零点的数值长度、时间、金额区间标度无绝对零点的数值温度摄氏度2.3 数据描述性统计集中趋势度量importscipy.statsasstats datapd.Series([23,28,28,35,42,45,48,52,58,65])# 平均值meandata.mean()# 42.2# 中位数mediandata.median()# 43.5# 众数modestats.mode(data)[0][0]# 28# 几何均值适用于增长率数据geometric_meanstats.gmean(data)# 40.12离散程度度量# 极差range_valdata.max()-data.min()# 42# 方差variancedata.var()# 186.18# 标准差std_devdata.std()# 13.64# 变异系数相对离散程度cv(std_dev/mean)*100# 32.32%# 四分位差iqrdata.quantile(0.75)-data.quantile(0.25)# 22.5分布形态度量# 偏态系数skewnessdata.skew()# 0.18接近对称# skewness 0: 右偏分布# skewness 0: 左偏分布# 峰态系数kurtosisdata.kurtosis()# -0.73平峰分布# kurtosis 0: 尖峰分布# kurtosis 0: 平峰分布2.4 数据可视化importmatplotlib.pyplotaspltimportseabornassns# 设置样式sns.set_style(whitegrid)# 1. 直方图 - 数值分布plt.figure(figsize(10,6))sns.histplot(df[Age],bins20,kdeTrue)plt.title(年龄分布直方图)plt.xlabel(年龄)plt.ylabel(频数)plt.show()# 2. 箱线图 - 异常值检测plt.figure(figsize(10,6))sns.boxplot(xCategory,yPrice,datadf)plt.title(不同类别商品价格分布)plt.xticks(rotation45)plt.show()# 3. 散点图 - 相关性分析plt.figure(figsize(10,6))sns.scatterplot(xAge,yIncome,datadf,hueGender)plt.title(年龄与收入关系)plt.show()# 4. 热力图 - 相关性矩阵plt.figure(figsize(10,8))corr_matrixdf.corr()sns.heatmap(corr_matrix,annotTrue,cmapcoolwarm,fmt.2f)plt.title(变量相关性热力图)plt.show() 本章小结本章介绍了数据预处理的方法、数据属性类型、描述性统计指标和数据可视化技术。这些是数据挖掘的基础技能掌握好这些内容对于后续的数据分析至关重要。参考资料《数据挖掘》吕欣、王梦宁著科学出版社GitHub仓库https://github.com/Feihuo-W/Data-Mining-book-study上一篇《数据挖掘》学习笔记一绪论与大数据时代系列文章预告下一篇将介绍第三章「相关分析」包括Pearson相关系数、Spearman秩相关系数、互信息等内容。

《数据挖掘》学习笔记（二）：数据描述与统计指标

相关新闻

3分钟搞定USB启动盘：EtchDroid让安卓手机变身系统急救神器

深度解密：如何彻底掌控Windows Defender的系统级权限与持久化配置

经手100万+终端后，聊聊校园门锁Sub-1G和Cat.1怎么选

一文搞懂：Git分支管理与团队协作规范——从GitFlow到GitHub Flow，从rebase到merge，打造高效协作流

HAMi 源码阅读笔记 05：从 PredicateRoute 看 HAMi /filter 的请求处理流程

MySQL中redo log 和 bin log的本质区别，别再搞混了！

Unity3d之BIM

前端面试必备手写题（上）

操作系统之文件系统

手把手教你用PlantUML和Gravizo：无需插件，在任意Markdown平台嵌入动态UML图

告别命令行恐惧：在Ubuntu 23.04上图形化玩转Mininet网络模拟（附MiniEdit配置全流程）

告别哑巴设备：用DY-SV17F语音模块给你的Arduino项目加上声音（附STM32串口控制代码）

2026年十大最佳地区搜索排名优化工具：权威榜单赋能企业高效增长

DDR3内存Row Hammer问题解析与防护方案

为ItsyBitsy ESP32设计3D打印外壳：从原型到产品的完整实践

别再手动点关了！用PowerShell永久关闭Windows Defender的保姆级教程（含Server 2016/2019）

别再只换芯片了！BP2832A替换CL1502，你的电感参数算对了吗？

全平台智能资源下载工具：res-downloader 完整使用教程