为什么文本越长LLM幻觉越严重:注意力机制揭秘

发布时间:2026/6/16 6:06:03

为什么文本越长LLM幻觉越严重:注意力机制揭秘 注意力的计算原理这次彻底从底层讲清楚——注意力到底在算什么、为什么这么算、问题出在哪。第一部分:注意力到底在算什么?1.1 注意力的核心目标一句话:给定一个 token(叫它"query"),从其他所有 token(叫它们"key/value")中,找出谁跟它最相关,然后把这些相关 token 的信息加权融合到自己身上。1.2 用图书馆找资料类比你(query)要写一篇论文,桌上摆着 100 本书(keys)。每本书里有内容(values)。你要做的事情:查询:拿你的论文主题(query),跟每本书的标题(key)对比,看谁更相关打分:给 100 本书每本打一个相关性分数归一化:把分数转成"分配比例"(加起来=100%)融合:按比例提取每本书的内容(values),加权组合成你需要的资料这 4 步就是注意力。第二部分:用最简化的数字例子完整计算一遍2.1 场景设

相关新闻