数据挖掘从零开始:基于实战题目系统性知识复习

发布时间:2026/6/15 16:58:18

数据挖掘从零开始:基于实战题目系统性知识复习 第一讲导论与数据预处理 (对应填空题)1. 什么是数据挖掘定义从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。核心任务分类 (Classification)、聚类 (Clustering)、关联规则 (Association)、预测 (Prediction)、异常检测等。2. 数据预处理 (Data Preprocessing) ——【考试重点】现实中的数据往往是脏的不能直接喂给模型。为什么做提高数据质量提升模型精度。四大任务数据清洗 (Data Cleaning)处理缺失值、噪声、异常值。数据集成 (Data Integration)将多个数据源合并如数据库合并。数据变换 (Data Transformation)规范化、聚集。数据规约 (Data Reduction)维度规约减少属性数量如PCA主成分分析。数值规约减少数据量如聚类、抽样、直方图。3. 特征缩放 (Feature Scaling) ——【常考选择题】当特征之间的量纲单位不同时例如身高cm vs 体重kg需要缩放。归一化 (Min-Max Scaling)公式效果将数据映射到[0, 1]​ 区间。考题将年龄[0,100]缩放到[0,1]用的是这个标准化 (Standardization / Z-score)公式效果均值为0标准差为1。第二讲关联规则与频繁项集 (对应大题2)1. 基本概念项 (Item)单个元素如“牛奶”。项集 (Itemset)项的集合如{“牛奶”, “面包”}。事务 (Transaction)一次购买记录。支持度 (Support)规则出现的频率。公式含义这条规则在所有交易中普遍程度如何2. 关联规则 (Association Rule) ——【大题考点】规则形式A⇒B如果买A那么也买B。置信度 (Confidence)发生A的情况下发生B的概率。公式含义这条规则的可信度有多高提升度 (Lift)衡量规则是否真正有意义可选学有时考。3. Apriori 算法核心思想如果一个项集是频繁的那么它的所有子集也必须是频繁的“频繁项集的所有非空子集也一定是频繁的”。算法步骤连接步产生候选项集。剪枝步利用先验性质去掉非频繁项集。计算支持度筛选频繁项集。第三讲分类算法原理 (对应大题1, 3, 5)1. 决策树 (Decision Tree) ——【重中之重】结构根节点 - 内部节点判断条件 - 叶节点类别/结果。构建过程选择一个属性作为根节点。根据属性的值将数据集切分成子集。对每个子集递归重复上述过程直到子集中的数据都属于同一类或者没有更多属性可用。划分准则 (Splitting Criteria)信息增益 (Information Gain)基于“熵”。增益越大说明划分后纯度越高。考点计算划分前后的熵差。基尼指数 (Gini Index)公式含义衡量数据集的不纯度。越接近0纯度越高。2. 朴素贝叶斯 (Naive Bayes) ——【大题考点】核心假设特征之间是条件独立的即给定类别y特征x1​,...,xn​互不影响。贝叶斯定理朴素推导预测步骤计算先验概率 P(y)。计算条件概率 P(xi​∣y)。对于新样本计算每个类别的后验概率。选择概率最大的类别作为预测结果。处理零概率使用拉普拉斯平滑 (Laplace Smoothing)。第四讲聚类算法 (对应简答题1)1. 什么是聚类无监督学习没有标签。目标是将相似的数据分到同一个簇 (Cluster)不相似的分到不同簇。2. K-Means 算法步骤随机初始化 K 个中心点。分配 (Assignment)将每个点指派到最近的中心点所在的簇。更新 (Update)重新计算每个簇的质心平均值。重复2、3直到中心点不再移动。特点簇的形状通常是球形的。需要预先指定 K 值。对初始中心点敏感。3. DBSCAN 算法 ——【简答题考点】核心概念ϵ(eps)邻域半径。MinPts核心对象的最小点数。核心对象半径ϵ内至少有MinPts个点。密度直达/可达/相连。三种点核心点、边界点、噪声点离群点。与 K-Means 对比 (必背)形状K-Means只能找球形DBSCAN能找任意形状。噪声K-Means没有噪声概念强制分类DBSCAN能识别噪声。参数K-Means只需KDBSCAN需ϵ和MinPts。K值K-Means需预设DBSCAN不需要。第五讲模型评估与性能度量 (对应大题4, 选择题)1. 混淆矩阵 (Confusion Matrix) ——【必须背熟】真实 \ 预测预测为正例 (Positive)预测为负例 (Negative)真实正例​TP (真正例)​FN (假反例/漏报)真实负例​FP (假正例/误报)TN (真反例)​精确率 (Precision)PTP/(FPTP​)预测为正的样本中有多少是真的正召回率 (Recall) RTP/(FNTP​)真实为正的样本中有多少被找出来了F1分数精确率和召回率的调和平均。2. ROC 曲线与 AUC ——【大题考点】ROC 曲线横轴FPR (False Positive Rate)​ 1−TN/(TNFP)即负例被错判为正的比例。纵轴TPR (True Positive Rate)​ Recall即正例被正确找出的比例。绘制过程将所有测试样本按预测概率从高到低排序。依次将每个样本的概率作为阈值大于它判为正小于判为负。计算每一个阈值下的 FPR 和 TPR描点连线。AUC (Area Under Curve)曲线下面积。含义随机挑选一个正样本和一个负样本模型把正样本排在负样本前面的概率。AUC越大越好完美分类器AUC1。第六讲高级话题与实战技巧 (对应选择题)1. 回归树 (Regression Tree)与分类树的区别在于叶节点的值。分类树叶节点是类别投票选出最多的。回归树叶节点是连续值通常是该节点内样本目标值的平均值。损失函数使用均方误差 (MSE)​ 或误差平方和​ 来寻找最佳切分点。2. 过拟合 (Overfitting) 与 欠拟合 (Underfitting)过拟合模型太复杂把训练集的噪声也学了。对策剪枝 (Pruning)、增加数据、正则化。欠拟合模型太简单连训练集规律都没学会。对策换复杂模型、增加特征。3. 集成学习 (Ensemble Learning)AdaBoost机制串行训练弱分类器。权重变化提高被错误分类样本的权重让下一个分类器重点学习这些难例降低正确分类样本的权重。复习策略建议先背概念混淆矩阵、DBSCAN/KMeans区别、数据预处理步骤。死磕计算算基尼系数/信息增益第三讲。算支持度/置信度第二讲。画ROC曲线第五讲。朴素贝叶斯概率计算第三讲。实操模拟找一张白纸试着画一下大题5的决策树切分过程。

相关新闻