[智能体-290]:BERT 详解:一词多坐标,上下文动态变化

发布时间:2026/6/6 7:40:28

[智能体-290]:BERT 详解:一词多坐标,上下文动态变化 一、概念总览静态词向量 (Word2Vec/GloVe)一词一个固定向量坐标单词无论放在任何句子向量永远不变解决不了一词多义。BERT 动态词向量一词 N 个坐标同一个词语上下文一变词向量空间坐标立刻改变依靠全局上下文实时生成专属语义表征这是 BERT 最核心革新。举例苹果① 苹果很甜 → 向量坐标水果域② 苹果出新机型 → 向量坐标科技公司域二、为什么 BERT 能实现动态坐标三大底层支撑1. 基础输入三类嵌入融合锁定位置 语义 分句输入总嵌入公式Token 嵌入字词基础语义编码位置编码 Pos Emb给每个 token 绑定序列坐标Transformer 无序弊端被弥补区分语序分段 Seg Emb区分句子 A、句子 B服务 NSP 预训练任务。2. 双向 Transformer 自注意力动态变换坐标的核心引擎BERT 采用全双向自注意力区别 GPT 单向从左往右每个单词会和整句所有字词计算注意力分数词语根据周边词汇权重动态聚合上下文信息上下文词汇变化→注意力权重改变→单词最终向量在高维空间坐标偏移。 一句话换个别词语整句注意力分布重构目标词坐标随之变动。3. 两大预训练任务强制模型学习多义、动态表征1MLM 掩码语言模型核心实现一词多义随机遮蔽输入中 15% 的 Token[MASK]替换利用左右双向全部上下文预测被遮挡单词。例我爱吃 [MASK]汁水饱满。→ 结合后文汁水模型学习「苹果 水果」 例[MASK] 发布新款平板。→ 结合发布、平板模型学习「苹果 品牌」 同一单词在不同上下文被预测迫使模型储存多种语义生成多套向量坐标。2NSP 下一句预测辅助学习句间语境输入两个句子[CLS]句A[SEP]句B[SEP]二分类B 是否是 A 原文下一句。 让词语跨句子捕捉远距离语义长文本下依旧动态修正词坐标。三、BERT 向量取用规则输入序列每个 token经过 12 层 (BASE)/24 层 (LARGE) Transformer每层都输出一组隐层向量单词表征取该单词对应位置最后一层隐向量作为当前语境下的专属坐标整句表征取首位特殊符号[CLS]向量聚合全句语义关键同词、不同上下文 → 向量数值不同、高维坐标不同。四、词表征技术演进坐标发展史One-hot离散独热坐标维度爆炸无语义Word2Vec/GloVe全局统计训练一词一固定坐标静态ELMo双向 LSTM按前后时序微调向量局部弱动态BERT全句双向注意力全局上下文实时重算坐标全动态。五、实操验证逻辑极简原理用 bert-base-uncased 分别编码两句话 s1 I eat an apple. s2 Apple releases new phone. 提取apple位置向量计算欧式距离向量不重合证明同一单词空间坐标发生改变。六、优缺点优点天然解决一词多义语义贴合上下文预训练通用语义下游分类、NER、问答微调效果优异。局限MLM 训练和推理不一致推理无[MASK]上下文动态虽灵活但无法提前缓存单词固定向量推理速度比 Word2Vec 慢。

相关新闻