大模型面试题:Transformer中,同一个词可以有不同的注意力权重吗?

发布时间:2026/5/22 9:36:22

大模型面试题:Transformer中,同一个词可以有不同的注意力权重吗? 大模型面试题:Transformer中,同一个词可以有不同的注意力权重吗?答案是:绝对可以。同一个词在不同的上下文、不同的注意力头中,甚至在同一句话的不同位置被处理时,其注意力权重都会发生变化。这正是Transformer架构强大和灵活性的核心体现。下面我从几个维度来详细解释为什么会出现这种情况:1. 核心原理:注意力是“上下文依赖”的自注意力机制的根本原理是:一个词(作为查询)与序列中所有词(包括自己)的键进行匹配,从而计算出权重,然后对所有的值进行加权求和。这个权重Attention(Q, K, V)不是词本身的固有属性,而是由当前的查询和所有键的即时关系动态决定的。一个生动的比喻:你在阅读时,同一个词“bank”,在不同的句子中,你的大脑会关注不同的上下文线索来理解它:在“I sat on the riverbank.”中,你会更关注“river”。在“I went to the

相关新闻