零基础看懂机器学习:不用数学,只要生活经验

发布时间:2026/6/5 20:56:50

零基础看懂机器学习:不用数学,只要生活经验 小时候爸爸是怎么教你认动物的爸爸会指着笼子里的家伙告诉你这是老虎身上有条纹然后又指着树上的说那是猴子尾巴老长。看多了以后下次去动物园就算看到没见过的品种你也能猜个八九不离十。这就是机器学习的核心思想爸爸给你看的动物是训练数据他说的名字是标签你脑子里长出来的判断能力就是模型你能认出新品那就是预测。所有的学习都得有人教吗当然不是。比如你第一次搬新家打开衣柜衣服扔得乱七八糟没人帮你整理。你会怎么办你可能会自己琢磨这几件都是厚外套归一块儿那几件是短袖T恤放一起这些全是运动裤也堆一起。没人告诉你该怎么分是你自己看着像的放一堆。这就引出了机器学习的两大类别监督学习和无监督学习。监督学习就像爸爸带你逛动物园有老师有答案数据带着标签机器知道对错。比如判断快递包裹是不是易碎品每个包裹事先都标好了是易碎还是普通。无监督学习就像你自己收拾衣柜没老师没答案数据没标签机器自己找规律。比如把看视频的人分成几拨机器自己发现哪些人爱好相似。监督学习是有人教有标准答案无监督学习是自己悟没有标准答案。监督学习能干啥案例1——快递站怎么知道哪个包裹要轻拿轻放其实是工作人员先收集了几万个包裹人工标注这个易碎那个不易碎。机器从这些标好的包裹里学习。如果箱子上贴着玻璃瓷器这些字或者包装上有向上箭头的标识大概率就是易碎件如果发货地是某个工艺品集中地也要小心。学完后新包裹一到机器就能自己判断要不要贴轻放标签。案例2——外卖预估送达时间你点了一份奶茶距离3公里中午高峰期下雨天骑手手上还有两单你肯定想知道几点能送到以前是靠站长凭经验估算但经验也常有偏差。机器学习怎么做它先看历史订单。比如上周一同样3公里、雨天、午高峰送了35分钟上周三2公里、晴天、平峰期送了20分钟……学完几千单规律后你刚下单它就能预测这次大概需要38分钟。无监督学习能干啥案例1——视频平台用户分群假设你是某短视频平台的运营手里有800万用户的观看记录点赞记录、停留时长、关注列表都有。问题是这800万人怎么运营你跑一遍无监督算法机器自动发现用户居然能分成这么几类第一类专看搞笑段子每天刷两小时属于纯娱乐型第二类只看知识科普和纪录片属于学习型第三类天天看美食和做饭视频应该是生活爱好者第四类刷的都是穿搭和美妆大概率是时尚人群。机器自己就把人分好了不需要你提前说分几类、按什么分。然后你就可以给不同人群推不同的内容。案例2——音乐App自动建歌单某音乐软件曲库里有上千万首歌不可能靠编辑一首首归类。这时候用无监督学习机器自动分析歌曲。这一批歌里都有强烈的鼓点和吉他应该是摇滚那一批都是钢琴和弦乐节奏舒缓应该是轻音乐还有一批全是方言说唱应该是嘻哈类。整个过程没人教它什么是摇滚、什么是轻音乐都是它自己听出来的规律。这就是无监督学习的厉害之处让机器自己从数据里挖模式。怎么做一个机器学习项目数据收集首先没数据就没机器学习。而且数据质量比数量更重要。假设你想训练一个识别狗的模型结果你找的照片里狗全是柯基那训练出来的模型看到哈士奇就不认识了。所以数据得够多、够杂、够有代表性。数据预处理数据收回来就能直接用吗不能。为啥因为真实数据一般都是乱糟糟的。什么叫乱糟糟比如外卖订单里有一条记录配送距离写了0.01公里这显然不对有的重量单位是千克有的是斤得统一有的订单没填楼层信息这也不行。所以这一步要清洗数据删掉明显瞎填的处理缺信息的要么删了要么补上把所有数据转成统一的标准。特征工程预测外卖送达时间的时候哪些信息有用距离有用、天气有用、时段有用但骑手的手机号有用吗没用订单编号也没啥用。所以咱们得挑出对预测有帮助的信息扔掉那些没用的。这还不够有时候还得造新特征。比如我们有店铺出餐速度和配送距离能不能组合一下比如每公里所需时间这个指标可能比单独的两个数字更有用因为它能反映这段路到底堵不堵。训练模型这一步就是让机器开始学。你要选个合适的算法比如线性回归、决策树、随机森林然后把训练数据喂给它这是1万单历史数据你好好学学看看距离、天气、时段跟配送时间到底啥关系。机器就开始疯狂计算不断调整内部参数试图找到最好的对应关系。这就像学生刷题刷得越多理解越深考试时发挥越好。模型评估模型练完了能直接上线吗不能得先考试。咱们得留一部分数据不给它看专门用来测它这叫测试集。如果考得不好怎么办那就回头检查是不是数据不够是的话再去多收点数据。是不是特征没选好是的话重新做特征工程。是不是算法不合适是的话换一个试试。这就是个不断试错、不断优化的过程。模型部署这一步就是把模型放到真实业务里去跑。比如把外卖预估模型接到点餐App里用户一下单系统就实时显示预计38分钟送达。但上线不是结束而是新的开始。为什么这么说因为路况在变今天和去年同时段的路况不一样如果一直用老模型预测就不准了。所以要持续盯着模型表现定期拿新订单数据重新训练这叫模型更新。什么是特征简单说特征就是描述一件事的各种属性是模型的输入。预测外卖时间时距离、天气、时段就是特征判断快递时包装文字、重量、发货地就是特征人脸识别时眼睛大小、鼻子高低、脸型轮廓就是特征。特征的类型数值型能用数字表示的比如年龄25岁、价格35块、温度30度。类别型离散的类别。比如性别男、女城市北京、广州布尔型是或否。比如是否雨天是否VIP是否有电梯其实布尔型可以看作特殊的类别型。什么是标签标签就是咱们想预测的结果是模型的输出。机器学习里预测外卖时间标签就是38分钟判断快递标签就是易碎或普通诊断疾病标签就是健康或生病需要注意的是标签只在监督学习里有。什么是模型其实它就是一个函数。啥函数从特征到标签的映射函数数学上写成y f(x)。x是输入的特征y是输出的标签f就是模型这个映射关系。模型就像一个送了十年外卖的老骑手机器学习就是让机器通过大量订单积累这种经验然后用到新订单上。不同的算法就是不同的积累经验的方式。怎么评估模型评估就是检验模型好不好但用啥指标得看任务类型。分类任务比如判断快递是不是易碎最常用的是准确率看预测对了多少。比如100个包裹你猜对了95个准确率就是95%。但有时候光看准确率不够。比如做疾病筛查1000个人里只有1个真的有病模型偷懒全预测成健康准确率还有99.9%但那个真有病的人被漏了这能行吗所以还得看召回率真正有病的人里你找出来了多少这就是为啥需要多种指标一起看。回归任务比如预测外卖时间常用的是平均绝对误差MAE预测时间和真实时间平均差多少比如预测时间平均误差3分钟说明还挺靠谱如果平均误差20分钟那就差太远了。还有R²系数取值通常在0到1之间越接近1说明模型越好。

相关新闻