
机器学习概叙人工智能三大概念AIArtificial Intelligence人工智能让机器模拟人类智能行为得技术和理论目标:使计算机能够执行通常需要人类智能的任务,如推理,学习,规划,感知,自然语言理解等范围最广,是ML(机器学习)和DL(深度学习)的上位概念例子:专家系统语音识别自动驾驶智能客服机器人MLMachine Learning机器学习AI的一个子领域,通过算法让计算机从数据中学习规律,而无需显式编程.核心思想:用数据驱动的方式自动改进性能典型任务:分类(如垃圾邮件识别)回归(如房价预测)聚类(如客户分群)常见算法:线性回归, 逻辑回归决策树, 随机森林支持向量机 (SVM)K近邻 (KNN)✅ML 是实现 AI 的一种重要方法。DLDeep Learning深度学习ML的一个子集, 使用多层神经网络(尤其是深度神经网络)自动提取数据的多层次特征特点:需要大量数据计算资源要求高 (常依赖 GPU)自动特征工程 (无需人工设计特征)典型应用:图像识别 (如人脸识别)语音合成与识别自然语言处理(如大语言模型)AIphaGo等复杂决策系统常见模型:卷积神经网络 (CNN)寻欢神经网络 (RNN / LSTM)Transformer生成对抗网络(GAN)✅DL 是 ML 的一种高级形式特别擅长处理非结构化数据图像、语音、文本。三者关系(层级结构)人工智能AI │ └── 机器学习ML │ └── 深度学习DLAI ⊃ ML ⊃ DL并非所有AI都基于ML (例如早期的规则系统), 也并非所有ML都是DL (如传统统计模型)DL的兴起极大的推动了现代AI的发展 (如ChatGPT, 自动驾驶, 医疗影响分析等)想象你要造一辆“会自己开车的车”AI是“让车能像人一样驾驶”的整体目标ML是“通过大量驾驶数据教会车如何判断路况”DL是“用复杂的神经网络比如模仿人脑自动识别红绿灯、行人、车道线等”。总结项目AIMLDL定义模拟人类智能从数据中学习规律使用深度神经网络学习范围最广AI 的子集ML 的子集是否需要数据不一定规则系统可无数据必须大量数据特征工程可手动常需手动自动提取典型技术专家系统、搜索算法决策树、SVMCNN、Transformer应用举例智能助手、机器人推荐系统、信用评分图像生成、大语言模型学习方式:基于规则学习基于规模学习机器学习发展三要素数据 (Data)“燃料或养料”:海量, 高质量, 多样化的数据是训练有效模型的基础例: ImageNet (1500万标注图像) , 互联网文本, 用户行为日志没有大数据, 深度学习无法发挥优势算法 (AIgorithm)“智慧大脑”:包括模型架构创新 (如 Transformer) , 训练技巧 (如 BatchNorm), 学习范式 (如自监督)算法进步让模型能处理更复杂任务 (如大语言模型理解上下文)算力 (Computing Power)“引擎”:GPU/TPU, 分布式训练, 云计算等提供强大计算能力例: 训练 GPT-3 需数千 GPU 运行数周没有现代算力深度神经网络训练不现实。总结:数据提供学习素材算法提供学习方法算力提供执行能力三者缺一不可, 形成飞轮效应: 算力提升 → 训更大模型 → 需更多数据 → 推动算法创新✅ 这是工业界和媒体常用表述用于解释 AI 浪潮的底层驱动力。常见术语样本特征标签/目标值在机器学习ML中样本、特征、标签或目标值是最基础、最核心的数据概念。它们共同构成了监督学习的“输入-输出”结构也是理解任何 ML 任务的起点样本一条独立的数据记录, 代表一个观测对象或事件作用: 是模型训练和预测得基本单位✅ 一个数据集 多个样本的集合。特征描写样本的可测量属性或变量, 是模型的输入作用: 提供判断依据, 模型通过特征来预测结果表示: 通常用 x1,x2,…,xn表示组成特征向量 x∈Rn特征可以是数值型连续或离散如年龄、价格类别型如性别、颜色需编码为数值文本、图像、音频等需向量化处理标签样本的正确答案或期望输出是模型要预测的目标作用: 在监督学习中用于指导模型学习表示:通常用 y 表示类型:分类任务: 标签是类别如 “垃圾邮件” / “非垃圾邮件”或数字 0/1回归任务: 标签是连续数值如房价 850,000 元⚠️ 注意无监督学习中没有标签只有样本和特征。在强化学习中用“奖励Reward”代替标签。三者关系图解以一个表格形式的数据集为例:样本编号特征1面积特征2卧室数特征3楼龄标签房价样本18525620,000样本2120310950,000样本36012420,000每一行 一个样本每一列除最后一列一个特征最后一列 标签目标值数学上一个样本可表示为(x,y)([x1,x2,x3], y)训练集就是多个这样的元组D{(x(1),y(1)),(x(2),y(2)),…,(x(m),y(m))}不同类型任务中的表现任务类型特征输入标签输出示例分类用户行为、文本、图像像素离散类别如 0/1A/B/C邮件是否为垃圾邮件回归房屋属性、历史股价连续数值预测明天的温度多标签分类新闻文章多个标签如 [体育, 国际]文章主题标注序列标注句子中的每个词每个词的标签如词性、实体命名实体识别NER⚠️ 注意特征 ≠ 原始数据原始数据如一段文字、一张图片需要经过特征工程转化为数值特征。深度学习可自动提取特征但传统 ML 依赖人工设计。标签质量决定模型上限“垃圾进垃圾出”Garbage in, garbage out错误或噪声标签会误导模型。样本独立同分布i.i.d.假设大多数 ML 算法假设训练样本相互独立且来自同一分布。测试集也有特征但没有标签预测时预测阶段只输入特征 xx 模型输出预测值 $ \hat{y} $ 。总结样本是“谁”特征是“它长什么样”标签是“它到底是什么/值多少”数据集划分数据集可划分两部分训练集、测试集比例8 : 27 : 3训练集(training set) 用来训练模型model的数据集测试集(testing set)用来测试模型的数据集样本相互独立且来自同一分布算法分类(按学习方式分类)监督学习给模型提供带标签的数据输入 正确答案让它学会从输入预测输出目标学习一个映射函数 f:X→Y典型任务分类Classification如判断邮件是否为垃圾邮件输出是类别目标值标签值是【不连续】的分类种类二分类、多分类任务回归Regression如预测房价输出是连续值目标值标签值是【连续】的数据形式:{(x1,y1),(x2,y2),…,(xn,yn)}其中 xi是输入如图片像素 yi是标签如“猫”或“狗”。✅ 优点效果明确评估容易。❌ 缺点依赖大量高质量标注数据标注成本高。无监督学习只给模型无标签的数据让它自己发现数据中的结构、模式或分组目标探索数据的内在分布或表示。典型任务聚类Clustering如客户细分K-Means降维Dimensionality Reduction如 PCA、t-SNE异常检测Anomaly Detection密度估计✅ 优点无需标注适用于探索性分析。❌ 缺点结果难以评估目标不如监督学习明确。强化学习智能体Agent通过与环境交互试错学习以最大化累积奖励关键要素Agent智能体Environment环境State状态、Action动作、Reward奖励目标学习一个策略Policy π(a∣s) 使得长期回报最大。典型应用游戏 AI如 AlphaGo、Atari 游戏机器人控制自动驾驶决策推荐系统动态优化✅ 优点适合序列决策问题能处理延迟奖励。❌ 缺点训练不稳定样本效率低需要大量交互。半监督学习结合少量有标签数据 大量无标签数据。假设数据分布具有某种结构如聚类假设、流形假设。应用医疗影像分析标注成本高但图像多。自监督学习核心从无标签数据中自动生成监督信号伪标签。例如在 NLP 中BERT 通过“掩码语言建模”Masked LM预测被遮盖的词。在 CV 中对比学习如 SimCLR让模型区分同一图像的不同增强版本。是当前大模型预训练的主流方法。迁移学习将在一个任务上学到的知识迁移到另一个相关任务。例如用 ImageNet 预训练的 ResNet 模型微调用于医学图像分类。极大减少对新任务数据的需求。少样本学习 / 零样本学习少样本仅用几个样本就能学习新类别如 Meta-Learning。零样本从未见过某类样本但能通过语义描述识别如“斑马 条纹 马”。在大语言模型如 GPT中广泛应用。对比学习方式是否需要标签核心目标典型场景监督学习✅ 是预测已知输出图像分类、房价预测无监督学习❌ 否发现数据结构客户分群、降维可视化强化学习❌但有奖励最大化长期奖励游戏 AI、机器人控制半监督学习⚠️ 部分利用未标注数据提升性能医疗、语音识别自监督学习❌自生成学习通用表示BERT、MAE、SimCLR迁移学习视情况知识迁移微调大模型少样本/零样本学习极少或无快速泛化到新任务新类别识别、大模型推理总结监督学习是目前工业界最成熟、应用最广的方式。无监督学习用于探索和表示学习。强化学习擅长序贯决策但工程复杂度高。自监督 迁移学习是大模型如 LLM、多模态模型成功的关键。实际项目中常组合多种学习方式如先自监督预训练再监督微调。机器学习建模流程满意?反馈不满意1. 明确业务目标2. 数据收集与 EDA3. 数据预处理 特征工程4. 划分数据集5. 模型训练6. 评估与调优7. 部署与监控 整个流程是迭代的模型效果不好 → 回到特征工程或数据清洗。从简单模型开始如逻辑回归建立 baseline。记录每一步实验用 MLflow 或 Weights Biases。重视数据质量 模型复杂度。测试集只用一次避免“信息泄露”。可解释性很重要SHAP、LIME 帮助理解模型决策。特征工程特征工程Feature Engineering是机器学习中最关键、最耗时、也最能提升模型性能的环节。它决定了模型的“天花板”——再强大的算法也无法从糟糕的特征中学习到有效规律。定义特征工程是将原始数据转换为更适合机器学习模型理解与学习的特征表示的过程。为什么重要Garbage in, garbage out输入特征质量直接决定模型上限。深度学习虽能自动提取特征但在结构化数据如表格上人工特征工程仍远超纯端到端学习。好的特征可提升模型精度加快训练速度增强模型可解释性减少过拟合风险 据业界经验80% 的 ML 工作量在特征工程。特征工程全流程6 大核心步骤1. 特征清洗处理原始数据中的“脏”问题缺失值处理删除样本 or 特征填充均值/中位数/众数、前向填充、模型预测如 KNN 填补异常值处理统计方法3σ 原则、IQR四分位距可视化箱线图、散点图处理方式截断Winsorizing、转换、删除去重与一致性校验如统一单位kg vs lbs、日期格式2.特征编码将非数值数据转为数值形式数据类型编码方法适用场景类别型无序One-Hot Encoding类别少10如颜色、城市Target Encoding / Mean Encoding高基数类别如用户ID、商品IDEmbedding深度学习超高维稀疏类别类别型有序Label Encoding映射为 0,1,2…如“低/中/高”文本TF-IDF、Count Vectorizer传统 NLPWord2Vec、BERT Embedding深度语义理解时间提取年/月/日/星期/小时/是否周末/节假日等时间序列、行为分析⚠️ 注意One-Hot 会导致维度爆炸高基数类别慎用3.特征缩放使不同量纲的特征处于同一尺度对距离敏感型模型至关重要方法公式适用模型标准化Z-scorex′x−μσx \frac{x - \mu}{\sigma}x′σx−μSVM、KNN、神经网络、PCA归一化Min-Maxx′x−xminxmax−xminx \frac{x - x_{\min}}{x_{\max} - x_{\min}}x′xmax−xminx−xmin神经网络尤其 Sigmoid/Tanh 激活Robust Scaling用中位数和 IQR 缩放含异常值的数据✅ 决策树、随机森林、XGBoost不需要特征缩放4.特征构造创造性地生成新特征挖掘潜在信息常见技巧数学变换对数log、平方根缓解偏态分布多项式特征如 x1× x2用于捕获交互效应组合特征“收入 / 家庭人数” → 人均收入“点击次数 / 展示次数” → 点击率CTR分箱Binning / Discretization将连续变量转为离散区间如年龄 → [0-18, 19-35, 36-60, 60]可提升非线性模型效果增强鲁棒性时间窗口统计过去 7 天平均登录次数最近一次购买距今天数聚类作为特征用 K-Means 对用户分群将 cluster ID 作为新特征高级技巧使用领域知识构造特征如金融中的“负债收入比”自动特征生成工具FeatureTools基于深度特征合成 DFS5.特征选择剔除冗余或无关特征降低维度、防止过拟合、提升速度。三大方法类型原理代表方法过滤法Filter基于统计指标独立评估每个特征方差阈值、相关系数、卡方检验、互信息包裹法Wrapper用模型性能作为评价标准搜索子集递归特征消除RFE、前向/后向选择嵌入法Embedded在模型训练过程中自动选择LassoL1 正则、树模型特征重要性✅ 实践建议先用过滤法快速筛掉低方差特征再用树模型如 XGBoost看特征重要性最终保留 top-k 个特征做精调6. 特征降维当特征维度过高如文本 TF-IDF 上万维可压缩表示PCA主成分分析线性降维保留最大方差t-SNE / UMAP非线性主要用于可视化Autoencoder神经网络自编码器学习低维表示⚠️ 降维会丢失部分信息慎用于最终建模除非内存/速度受限。不同类型数据的特征工程重点数据类型特征工程重点结构化数据表格缺失值处理、类别编码、特征交叉、分箱、目标编码文本数据分词、停用词过滤、TF-IDF / Embedding、文本长度、情感得分图像数据归一化、数据增强旋转/裁剪、预训练 CNN 提取特征时间序列滑动窗口统计、差分、傅里叶变换、滞后特征lag features图数据节点度、中心性、图嵌入Node2Vec、GNN总结特征工程黄金法则理解业务 盲目套算法领域知识是构造好特征的源泉。先简单后复杂从均值、计数、比率开始再尝试高级交互。验证有效性新特征是否提升验证集性能否则删掉避免数据泄露Data Leakage所有统计量均值、标准差、编码映射必须仅从训练集计算再应用到验证/测试集可复现性用 Pipeline 封装整个流程。终极目标让模型“一眼看懂”数据背后的规律。模型拟合问题主要指模型在训练数据和真实世界测试数据上的表现差异。它集中体现为两种极端情况欠拟合Underfitting和过拟合Overfitting。模型拟合拟合Fitting指模型从训练数据中学习输入与输出之间映射关系的过程。理想状态模型在训练集和测试集上都表现良好 →良好拟合Good Fit现实问题模型往往偏向两个极端类型欠拟合Underfitting过拟合Overfitting定义模型太简单无法捕捉数据规律模型太复杂记住了训练数据噪声训练误差高很低甚至接近 0测试误差高显著高于训练误差偏差-方差高偏差、低方差低偏差、高方差表现“学不会”“死记硬背不会举一反三”核心矛盾偏差Bias vs 方差Variance偏差模型假设与真实关系的差距方差模型对训练数据扰动的敏感度判断拟合状态通过误差对比训练误差 ≈ 测试误差且都很低 →良好拟合训练误差高测试误差高 →欠拟合训练误差很低测试误差很高 →过拟合学习曲线Learning Curves绘制训练集/验证集误差随样本量或训练轮次的变化欠拟合特征两条曲线都高且靠得很近过拟合特征训练误差持续下降验证误差先降后升出现“拐点”欠拟合原因与解决方法原因:模型太简单如用线性模型拟合非线性数据特征不足或信息量低正则化过强训练不足如神经网络未收敛解决方法:方法说明增加模型复杂度用高阶多项式、更深的树、更大的神经网络改进特征工程添加交互项、非线性变换如 log、平方、领域特征减少正则化降低 L1/L2 正则强度如减小alpha或C延长训练时间对神经网络增加 epoch确保收敛过拟合原因与解决方法原因:模型过于复杂参数远多于样本训练数据太少或噪声大训练时间过长尤其神经网络特征过多维度灾难解决方案按优先级排序:增加训练数据最有效但成本高收集更多真实数据替代方案数据增强图像旋转/裁剪、文本同义替换简化模型减少神经网络层数/节点数限制树模型深度max_depth、叶子节点数min_samples_leaf正则化RegularizationL1 正则Lasso促使稀疏自动特征选择L2 正则Ridge抑制权重过大弹性网络ElasticNetL1 L2 结合交叉验证Cross-Validation使用 K 折 CV 选择最优超参数避免在单一验证集上过拟合早停法Early Stopping用于迭代模型监控验证损失当不再下降时提前终止训练常用于神经网络、XGBoost集成方法EnsembleBagging如随机森林降低方差Dropout神经网络训练时随机“关闭”部分神经元模拟集成效果特征选择/降维移除无关或冗余特征降低模型复杂度问题核心思路具体手段欠拟合提升模型表达能力更复杂模型、更好特征、减少正则过拟合限制模型复杂度 / 增加数据正则化、早停、Dropout、数据增强、特征选择黄金法则在验证集上调试所有调参和改进都应以验证集性能为依据而非训练集。