3393 字
17 分钟
注意力机制:那篇改变 AI 走向的论文
2026-03-18

2017 年 6 月,Google 的八位研究员在 arXiv 上发表了一篇论文,题目叫 Attention Is All You Need

这篇论文提出了一个叫 Transformer 的架构。

当时没有人预料到,它会在接下来的几年里彻底重塑整个 AI 行业。今天你用的所有主流大模型——ChatGPT、Claude、Gemini、DeepSeek——底层架构都是它的变体。

但要理解 Transformer 为什么重要,得先知道它出现之前,AI 卡在哪里。


一、序列问题的旧解法:RNN 与 LSTM#

语言是序列数据。一句话是有顺序的,前后文之间有依赖关系,理解”它”指代什么,必须结合上下文。

在 Transformer 出现之前,处理序列数据的主流方案是 RNN(循环神经网络),以及它的改进版 LSTM(长短期记忆网络)

RNN 的工作方式类似人逐字阅读:每读一个词,就把当前词的信息和之前积累的”记忆”合并,生成新的隐藏状态,再传给下一步。这种结构天然适合序列,但存在一个根本性的缺陷——梯度消失(Vanishing Gradient)

在反向传播训练时,梯度需要从输出一路传回到输入。序列越长,梯度在传递过程中会指数级地衰减,导致模型对早期位置的词几乎无法有效学习。用一个直观的比方:你让它理解一段 200 词的文本,等处理到第 200 个词时,第 1 个词的信息早已在”传话游戏”里失真到几乎消失。

LSTM 通过引入”门控机制”(遗忘门、输入门、输出门)在一定程度上缓解了这个问题,能记住更长范围的依赖,但仍没有从根本上解决。

更致命的问题是:RNN 和 LSTM 都无法并行计算。 每个时间步必须等前一步完成才能开始,整个序列只能线性地跑完。这意味着随着序列变长、模型变大,训练时间会急剧增加。要训练一个真正意义上的”大模型”,在 RNN 架构下几乎不现实。


二、Transformer:注意力就是全部#

《Attention Is All You Need》的核心主张非常激进:完全抛弃 RNN,只用注意力机制来处理序列。

自注意力(Self-Attention)#

Transformer 的核心机制叫 自注意力(Self-Attention)。它的思路是:在处理每一个词的时候,让模型直接”看到”序列中所有其他词,并计算它们之间的相关性权重,再根据这些权重加权整合信息。

具体来说,每个词的嵌入向量会被投影成三个向量:

  • Query(Q):我在问什么?当前词想查询哪类信息
  • Key(K):我能提供什么?每个词用来被查询的标识
  • Value(V):我实际传递的内容

注意力分数的计算公式为:

Attention(Q, K, V) = softmax(QKᵀ / √d_k) · V

其中 √d_k 是缩放因子,防止点积过大导致 softmax 梯度消失。最终结果是:每个词都得到一个由整句话加权融合的新表示,距离远近不再是障碍。

以经典例子说明:

“The animal didn’t cross the street because it was too tired.”

“it”究竟指 animal 还是 street?人类秒懂,因为我们能同时看到整句。RNN 需要逐步传递才能猜测,而 Transformer 对全句做注意力计算,天然解决了这种长程依赖。

多头注意力(Multi-Head Attention)#

单头注意力只能捕捉一种关系模式。Transformer 引入了多头注意力(Multi-Head Attention):用多组独立的 Q/K/V 矩阵并行运行多个注意力头,让模型同时从多个角度理解语言——一个头可能关注主谓关系,另一个头可能关注语义相似性,再一个头可能关注指代关系。

原论文中使用 8 个头,每个头的维度为 512/8 = 64。

位置编码(Positional Encoding)#

自注意力机制本身是顺序无关的——把句子中的词打乱顺序,它算出来的结果是一样的。为了让模型知道词的位置,Transformer 给每个词的嵌入向量加上了位置编码(Positional Encoding)

原论文使用正弦和余弦函数生成位置编码,不同位置对应不同频率的波形,模型可以从中学习相对位置关系。现代模型(如 LLaMA、GPT-4)普遍采用更先进的旋转位置编码(RoPE),能更好地泛化到比训练时更长的序列。

Encoder-Decoder 结构#

原始 Transformer 采用 Encoder-Decoder 架构,专为机器翻译设计:

  • Encoder:读入源语言序列,通过多层自注意力 + 前馈网络,生成语义表示
  • Decoder:读取 Encoder 的输出,自回归地生成目标语言序列;其中有一层”交叉注意力”让解码器能直接关注编码器的输出

每一层还加入了残差连接层归一化,让深层网络训练更稳定。

最关键的突破在于:Transformer 可以对整个序列并行计算,不再需要等待前一步完成。这从根本上解开了大规模训练的枷锁。

参考:Vaswani et al., Attention Is All You Need, NeurIPS 2017 https://arxiv.org/abs/1706.03762


三、预训练范式的确立:BERT 与 GPT#

Transformer 提出后,大家迅速意识到它不只是一个更好的翻译模型,而是一个通用的语言理解引擎。

2018 年,两个团队几乎同时发布了自己的预训练语言模型,但走向了截然不同的方向。

BERT:双向理解#

Google 发布的 BERT(Bidirectional Encoder Representations from Transformers) 使用 Transformer 的 Encoder 部分,核心训练任务叫 Masked Language Modeling(MLM):随机遮住句子中 15% 的词,让模型根据上下文猜出来。

由于同时看到前后文,BERT 对语言的”理解”能力极强,在问答、文本分类、命名实体识别等任务上创造了当时的最佳成绩。

GPT:单向生成#

OpenAI 发布的 GPT-1 使用 Transformer 的 Decoder 部分,采用自回归训练:从左到右,根据前面所有词预测下一个词。

这听起来比 BERT 简单得多,但 OpenAI 相信,生成能力才是通往通用智能的路径。GPT 的赌注是:如果你能精准地预测下一个词,你必然对语言有深刻的理解。

这两种思路确立了 NLP 领域此后数年的格局:

  • BERT 派主导理解类任务
  • GPT 派探索生成与通用能力

事后来看,OpenAI 的赌注赢了。

参考:Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers, NAACL 2019 https://arxiv.org/abs/1810.04805


四、Scaling Law:大力出奇迹,但有规律#

GPT 走上了一条越来越大的路:GPT-1(1.17 亿参数)→ GPT-2(15 亿参数)→ GPT-3(1750 亿参数)。

2020 年,OpenAI 发表了 Scaling Laws for Neural Language Models,从理论层面给这条路提供了支撑。

Scaling Law 的核心结论: 模型性能(以损失函数衡量)与三个因素之间存在幂律关系(Power Law)

  • N:模型参数量
  • D:训练数据量
  • C:计算量(算力)

即:

L ∝ N^(-αN)
L ∝ D^(-αD)
L ∝ C^(-αC)

当这三者同步增加时,模型性能以可预测的速度提升。这意味着,只要有足够的算力、数据和参数,模型性能的提升是可以预测和规划的——这给了 OpenAI 一个明确的方向:继续堆规模。

同年发布的 GPT-3 证明了这个判断。1750 亿参数的 GPT-3 展现出了一个此前没有预见到的现象——涌现能力(Emergent Abilities)

模型没有专门训练翻译,但它能翻译。没有训练写代码,但它能写代码。给它几个例子,它就能举一反三,这叫 少样本学习(Few-Shot Learning)——甚至零样本学习(Zero-Shot)。

这些能力不是被”设计”进去的,而是在规模足够大之后自然”涌现”出来的。这个结论震惊了整个行业,也让”堆参数”从工程直觉变成了理论共识。

参考:Kaplan et al., Scaling Laws for Neural Language Models, OpenAI 2020 https://arxiv.org/abs/2001.08361

Brown et al., Language Models are Few-Shot Learners (GPT-3), NeurIPS 2020 https://arxiv.org/abs/2005.14165


五、RLHF:让模型”对齐”人类意图#

GPT-3 虽然强,但用起来有个明显的问题:它不”听话”

它的训练目标是预测下一个词,而不是”给出对用户有帮助的回答”。你问它一个问题,它可能给你一段百科词条式的补全,而不是真正回答你的问题。更严重的是,它可能生成有害、带偏见或无意义的内容。

这个问题叫对齐问题(Alignment Problem):模型的优化目标和人类真正想要的东西之间存在偏差。

OpenAI 的解法是 RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习),分三个阶段:

阶段一:监督微调(SFT) 收集人类专家编写的高质量问答对,用这些数据对预训练模型进行微调,让它学会基本的回答格式和指令遵循能力。

阶段二:训练奖励模型(Reward Model) 让 SFT 后的模型对同一个问题生成多个回答,由人类标注员对这些回答进行两两比较,选出更好的一个。用这些偏好数据训练一个”奖励模型”,让它学会自动评估回答的质量。

阶段三:PPO 强化学习优化 用 PPO(近端策略优化)算法,以奖励模型的评分为信号,不断调整语言模型,让它生成”人类更偏好的回答”。同时加入 KL 散度惩罚,防止模型为了”刷高分”而走偏——比如不断重复高分短语、过度迎合用户、回答越来越空洞。

2022 年,InstructGPT 是第一个大规模应用 RLHF 的模型,用 1.3B 参数就在人类评估中胜过了 175B 的 GPT-3。规模不再是唯一决定因素,对齐成了新的核心变量。

参考:Ouyang et al., Training language models to follow instructions with human feedback (InstructGPT), NeurIPS 2022 https://arxiv.org/abs/2203.02155


六、ChatGPT:交互范式的突破#

2022 年 11 月 30 日,ChatGPT 上线。

它不是参数量最大的模型,也不是评测成绩最好的模型,但它是第一个让普通人能真正用起来的 AI。不需要写 Prompt 模板,不需要懂机器学习,打开网页,用自然语言说话,它就能回应你。

5 天:100 万用户。2 个月:1 亿用户。没有任何消费级应用曾以这种速度普及。

ChatGPT 的技术本质是 GPT-3.5 + RLHF,但它的真正突破是交互范式:把强大但难用的基础模型,包装成了人人都能上手的对话产品。AI 第一次真正走出了实验室。


七、之后的世界#

ChatGPT 点燃了整个行业。2023 年至今,大模型的迭代速度前所未有:

GPT-4(2023):引入多模态能力,能理解图片,推理能力大幅提升,在律师资格考试、医师执照考试等专业评测中达到人类专家水平。

开源浪潮:Meta 发布 LLaMA 系列并开放权重,打破了大模型只能由少数科技巨头掌控的格局。开发者可以在本地运行、微调、再发布,整个开源社区的创新速度爆发式增长。

效率革命:DeepSeek 在 2024-2025 年展示了用更少算力达到顶尖性能的可能性,DeepSeek-V3 拥有 671B 总参数,但每次推理只激活 37B——这种 MoE(混合专家) 架构证明,暴力堆算力不是唯一的路。

多模态融合:大模型从纯文本扩展到图像、音频、视频。Sora 能根据文字描述生成高质量视频,GPT-4o 能实时对话并理解图像,模态边界正在消融。

Agent 方向:AI 不再只是”问答机器”,开始能主动调用工具、执行代码、浏览网页、规划多步任务。模型从被动响应走向主动行动。

架构层面的进化:Flash Attention 把注意力计算的内存复杂度从 O(n²) 降至 O(n),让超长上下文(百万 Token 级别)成为可能;RoPE 位置编码让模型能泛化到比训练时更长的序列。


回到那篇论文#

2017 年,Attention Is All You Need 在 NeurIPS 发表时,主要应用场景是机器翻译。那 8 位作者大概没有预见到,他们提出的这个架构,会在几年内成为整个 AI 时代的基础设施。

Transformer 的核心思想说起来朴素:让模型在处理信息时,学会”看哪里重要”,而不是死板地逐步传递。

注意力机制使 AI 第一次能真正处理语言的复杂性;并行计算打开了规模化训练的大门;规模效应带来了涌现能力;RLHF 让模型从”能用”变成”好用”。

这条链条上的每一环,都是过去十年真实发生的事。

而这条路,现在仍在延伸。


参考资料#