RAG必备!6种相似性度量指标大揭秘,COSINE、BM25怎么选?附超全选型指南!

发布时间:2026/5/23 23:07:38

RAG必备!6种相似性度量指标大揭秘,COSINE、BM25怎么选?附超全选型指南! 本文整理了六种常见的相似性度量指标L2欧氏距离、内积、COSINE余弦相似度、汉明距离、杰卡德相似度和BM25。针对不同场景如文本语义、图像特征、全文检索等详细分析了各类指标的性质、适用范围和关键点。最后提供了极简选型口诀帮助读者在技术选型时快速找到最合适的度量方式。在做RAG的时候一般都会要求指定相似性度量的metric对于文本语义一般使用 COSINE全文检索一般使用 BM25这里对各种相似性度量指标做个整理归纳供大家做技术选型。统一前置规则•距离类数值越小 → 越相似•相似度/打分类数值越大 → 越相似• 分三类稠密浮点度量、二进制度量、稀疏文本度量L2 欧氏距离Euclidean公式性质• 类型距离越小越相似• 同时看向量方向 绝对数值幅值适用• 图像特征、点位坐标、物理传感器数值、聚类任务• 不适合文本 Embedding幅值无物理意义关键点不能随便归一化幅值本身有业务含义IP 内积Inner Product公式性质• 类型相似度越大越相似• 同时看方向 向量模长长度适用• 推荐系统 MIPS 最大内积召回• 未归一化的业务打分向量关键结论向量L2归一化后排序结果完全一样IP 计算更快COSINE 余弦相似度公式性质• 类型相似度越大越相似• 只看向量方向完全忽略长度/幅值适用• 文本 Embedding、RAG、语义检索、问答、大模型向量最佳实践向量先归一化直接用 IP 替代余弦效果一致、性能更高HAMMING 汉明距离定义两个二进制 0/1 向量对应位置不一样的位数总数性质• 类型距离越小越相似• 只看「每一位是否相同」不看数值大小适用• 图片哈希、感知指纹、短文本指纹、二进制编码• 配套索引BIN_FLAT、IVF_BIN限制只能用于纯二进制 0/1 向量不能用在浮点稠密向量JACCARD 杰卡德相似度公式性质• 类型相似度越大越相似• 只看集合有没有共同元素不看权重、不看频次适用• 用户标签、兴趣集合、商品类目、行为序列匹配、人群圈选• 适配二元稀疏向量、集合型数据特点只关心「有无」不关心「权重大小、出现多少次」BM25Best Matching 25本质TF-IDF 升级版工业级全文检索打分算法综合词频TF 逆文档频率IDF 文档长度惩罚性质• 类型检索打分越大越相关• 只做关键词字面匹配无语义泛化适用• 全文检索、RAG 关键词召回、专业术语/专有名词兜底• 配套稀疏向量SPARSE_INVERTED_INDEX/SPARSE_WAND定位RAG 标配BM25(稀疏关键词) COSINE(稠密语义) 混合检索六种相似性度量指标对比度量类别规则核心关注点适配向量类型典型场景L2稠密距离越小越像方向 绝对幅值浮点稠密图像、坐标、物理特征、聚类IP稠密相似度越大越像方向 向量长度浮点稠密推荐MIPS、归一化后替代余弦COSINE稠密相似度越大越像只看方向、忽略长度浮点稠密文本Embedding、RAG、语义检索HAMMING二进制距离越小越像二进制位差异数0/1二进制哈希指纹、图片去重、编码比对JACCARD集合相似度越大越像集合交集/并集二元稀疏/集合标签匹配、用户兴趣、人群圈选BM25稀疏文本打分越大越相关词频IDF文档长度词条稀疏向量全文检索、RAG关键词召回极简选型口诀文本语义、Embedding、RAG →COSINE推荐召回、利用向量长度做热度 →IP图像、坐标、物理数值特征 →L2二进制指纹、哈希去重 →HAMMING标签、兴趣、集合匹配 →JACCARD全文检索、关键词字面召回、RAG兜底 →BM25最后唠两句为什么AI大模型成为越来越多程序员转行就业、升职加薪的首选很简单这些岗位缺人且高薪智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200% 远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。那0基础普通人如何学习大模型 深耕科技一线十二载亲历技术浪潮变迁。我见证那些率先拥抱AI的同行如何建立起效率与薪资的代际优势。如今我将积累的大模型面试真题、独家资料、技术报告与实战路线系统整理分享于此为你扫清学习困惑共赴AI时代新程。我整理出这套 AI 大模型突围资料包【允许白嫖】✅从入门到精通的全套视频教程✅AI大模型学习路线图0基础到项目实战仅需90天✅大模型书籍与技术文档PDF✅各大厂大模型面试题目详解✅640套AI大模型报告合集✅大模型入门实战训练这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】①从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图0基础到项目实战仅需90天全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤640套AI大模型报告合集⑥大模型入门实战训练如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

相关新闻