注意力机制：那篇改变 AI 走向的论文

2017 年 6 月，Google 的八位研究员在 arXiv 上发表了一篇论文，题目叫 Attention Is All You Need。

这篇论文提出了一个叫 Transformer 的架构。

当时没有人预料到，它会在接下来的几年里彻底重塑整个 AI 行业。今天你用的所有主流大模型——ChatGPT、Claude、Gemini、DeepSeek——底层架构都是它的变体。

但要理解 Transformer 为什么重要，得先知道它出现之前，AI 卡在哪里。

一、序列问题的旧解法：RNN 与 LSTM#

语言是序列数据。一句话是有顺序的，前后文之间有依赖关系，理解”它”指代什么，必须结合上下文。

在 Transformer 出现之前，处理序列数据的主流方案是 RNN（循环神经网络），以及它的改进版 LSTM（长短期记忆网络）。

RNN 的工作方式类似人逐字阅读：每读一个词，就把当前词的信息和之前积累的”记忆”合并，生成新的隐藏状态，再传给下一步。这种结构天然适合序列，但存在一个根本性的缺陷——梯度消失（Vanishing Gradient）。

在反向传播训练时，梯度需要从输出一路传回到输入。序列越长，梯度在传递过程中会指数级地衰减，导致模型对早期位置的词几乎无法有效学习。用一个直观的比方：你让它理解一段 200 词的文本，等处理到第 200 个词时，第 1 个词的信息早已在”传话游戏”里失真到几乎消失。

LSTM 通过引入”门控机制”（遗忘门、输入门、输出门）在一定程度上缓解了这个问题，能记住更长范围的依赖，但仍没有从根本上解决。

更致命的问题是：RNN 和 LSTM 都无法并行计算。 每个时间步必须等前一步完成才能开始，整个序列只能线性地跑完。这意味着随着序列变长、模型变大，训练时间会急剧增加。要训练一个真正意义上的”大模型”，在 RNN 架构下几乎不现实。

二、Transformer：注意力就是全部#

《Attention Is All You Need》的核心主张非常激进：完全抛弃 RNN，只用注意力机制来处理序列。

自注意力（Self-Attention）#

Transformer 的核心机制叫 自注意力（Self-Attention）。它的思路是：在处理每一个词的时候，让模型直接”看到”序列中所有其他词，并计算它们之间的相关性权重，再根据这些权重加权整合信息。

具体来说，每个词的嵌入向量会被投影成三个向量：

Query（Q）：我在问什么？当前词想查询哪类信息
Key（K）：我能提供什么？每个词用来被查询的标识
Value（V）：我实际传递的内容

注意力分数的计算公式为：

Attention(Q, K, V) = softmax(QKᵀ / √d_k) · V

其中 √d_k 是缩放因子，防止点积过大导致 softmax 梯度消失。最终结果是：每个词都得到一个由整句话加权融合的新表示，距离远近不再是障碍。

以经典例子说明：

“The animal didn’t cross the street because it was too tired.”

“it”究竟指 animal 还是 street？人类秒懂，因为我们能同时看到整句。RNN 需要逐步传递才能猜测，而 Transformer 对全句做注意力计算，天然解决了这种长程依赖。

多头注意力（Multi-Head Attention）#

单头注意力只能捕捉一种关系模式。Transformer 引入了多头注意力（Multi-Head Attention）：用多组独立的 Q/K/V 矩阵并行运行多个注意力头，让模型同时从多个角度理解语言——一个头可能关注主谓关系，另一个头可能关注语义相似性，再一个头可能关注指代关系。

原论文中使用 8 个头，每个头的维度为 512/8 = 64。

位置编码（Positional Encoding）#

自注意力机制本身是顺序无关的——把句子中的词打乱顺序，它算出来的结果是一样的。为了让模型知道词的位置，Transformer 给每个词的嵌入向量加上了位置编码（Positional Encoding）。

原论文使用正弦和余弦函数生成位置编码，不同位置对应不同频率的波形，模型可以从中学习相对位置关系。现代模型（如 LLaMA、GPT-4）普遍采用更先进的旋转位置编码（RoPE），能更好地泛化到比训练时更长的序列。

Encoder-Decoder 结构#

原始 Transformer 采用 Encoder-Decoder 架构，专为机器翻译设计：

Encoder：读入源语言序列，通过多层自注意力 + 前馈网络，生成语义表示
Decoder：读取 Encoder 的输出，自回归地生成目标语言序列；其中有一层”交叉注意力”让解码器能直接关注编码器的输出

每一层还加入了残差连接和层归一化，让深层网络训练更稳定。

最关键的突破在于：Transformer 可以对整个序列并行计算，不再需要等待前一步完成。这从根本上解开了大规模训练的枷锁。

参考：Vaswani et al., Attention Is All You Need, NeurIPS 2017 https://arxiv.org/abs/1706.03762

三、预训练范式的确立：BERT 与 GPT#

Transformer 提出后，大家迅速意识到它不只是一个更好的翻译模型，而是一个通用的语言理解引擎。

2018 年，两个团队几乎同时发布了自己的预训练语言模型，但走向了截然不同的方向。

BERT：双向理解#

Google 发布的 BERT（Bidirectional Encoder Representations from Transformers） 使用 Transformer 的 Encoder 部分，核心训练任务叫 Masked Language Modeling（MLM）：随机遮住句子中 15% 的词，让模型根据上下文猜出来。

由于同时看到前后文，BERT 对语言的”理解”能力极强，在问答、文本分类、命名实体识别等任务上创造了当时的最佳成绩。

GPT：单向生成#

OpenAI 发布的 GPT-1 使用 Transformer 的 Decoder 部分，采用自回归训练：从左到右，根据前面所有词预测下一个词。

这听起来比 BERT 简单得多，但 OpenAI 相信，生成能力才是通往通用智能的路径。GPT 的赌注是：如果你能精准地预测下一个词，你必然对语言有深刻的理解。

这两种思路确立了 NLP 领域此后数年的格局：

BERT 派主导理解类任务
GPT 派探索生成与通用能力

事后来看，OpenAI 的赌注赢了。

参考：Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers, NAACL 2019 https://arxiv.org/abs/1810.04805

四、Scaling Law：大力出奇迹，但有规律#

GPT 走上了一条越来越大的路：GPT-1（1.17 亿参数）→ GPT-2（15 亿参数）→ GPT-3（1750 亿参数）。

2020 年，OpenAI 发表了 Scaling Laws for Neural Language Models，从理论层面给这条路提供了支撑。

Scaling Law 的核心结论： 模型性能（以损失函数衡量）与三个因素之间存在幂律关系（Power Law）：

N：模型参数量
D：训练数据量
C：计算量（算力）

即：

L ∝ N^(-αN)
L ∝ D^(-αD)
L ∝ C^(-αC)

当这三者同步增加时，模型性能以可预测的速度提升。这意味着，只要有足够的算力、数据和参数，模型性能的提升是可以预测和规划的——这给了 OpenAI 一个明确的方向：继续堆规模。

同年发布的 GPT-3 证明了这个判断。1750 亿参数的 GPT-3 展现出了一个此前没有预见到的现象——涌现能力（Emergent Abilities）：

模型没有专门训练翻译，但它能翻译。没有训练写代码，但它能写代码。给它几个例子，它就能举一反三，这叫 少样本学习（Few-Shot Learning）——甚至零样本学习（Zero-Shot）。

这些能力不是被”设计”进去的，而是在规模足够大之后自然”涌现”出来的。这个结论震惊了整个行业，也让”堆参数”从工程直觉变成了理论共识。

参考：Kaplan et al., Scaling Laws for Neural Language Models, OpenAI 2020 https://arxiv.org/abs/2001.08361
Brown et al., Language Models are Few-Shot Learners (GPT-3), NeurIPS 2020 https://arxiv.org/abs/2005.14165

五、RLHF：让模型”对齐”人类意图#

GPT-3 虽然强，但用起来有个明显的问题：它不”听话”。

它的训练目标是预测下一个词，而不是”给出对用户有帮助的回答”。你问它一个问题，它可能给你一段百科词条式的补全，而不是真正回答你的问题。更严重的是，它可能生成有害、带偏见或无意义的内容。

这个问题叫对齐问题（Alignment Problem）：模型的优化目标和人类真正想要的东西之间存在偏差。

OpenAI 的解法是 RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习），分三个阶段：

阶段一：监督微调（SFT） 收集人类专家编写的高质量问答对，用这些数据对预训练模型进行微调，让它学会基本的回答格式和指令遵循能力。

阶段二：训练奖励模型（Reward Model） 让 SFT 后的模型对同一个问题生成多个回答，由人类标注员对这些回答进行两两比较，选出更好的一个。用这些偏好数据训练一个”奖励模型”，让它学会自动评估回答的质量。

阶段三：PPO 强化学习优化 用 PPO（近端策略优化）算法，以奖励模型的评分为信号，不断调整语言模型，让它生成”人类更偏好的回答”。同时加入 KL 散度惩罚，防止模型为了”刷高分”而走偏——比如不断重复高分短语、过度迎合用户、回答越来越空洞。

2022 年，InstructGPT 是第一个大规模应用 RLHF 的模型，用 1.3B 参数就在人类评估中胜过了 175B 的 GPT-3。规模不再是唯一决定因素，对齐成了新的核心变量。

参考：Ouyang et al., Training language models to follow instructions with human feedback (InstructGPT), NeurIPS 2022 https://arxiv.org/abs/2203.02155

六、ChatGPT：交互范式的突破#

2022 年 11 月 30 日，ChatGPT 上线。

它不是参数量最大的模型，也不是评测成绩最好的模型，但它是第一个让普通人能真正用起来的 AI。不需要写 Prompt 模板，不需要懂机器学习，打开网页，用自然语言说话，它就能回应你。

5 天：100 万用户。2 个月：1 亿用户。没有任何消费级应用曾以这种速度普及。

ChatGPT 的技术本质是 GPT-3.5 + RLHF，但它的真正突破是交互范式：把强大但难用的基础模型，包装成了人人都能上手的对话产品。AI 第一次真正走出了实验室。

七、之后的世界#

ChatGPT 点燃了整个行业。2023 年至今，大模型的迭代速度前所未有：

GPT-4（2023）：引入多模态能力，能理解图片，推理能力大幅提升，在律师资格考试、医师执照考试等专业评测中达到人类专家水平。

开源浪潮：Meta 发布 LLaMA 系列并开放权重，打破了大模型只能由少数科技巨头掌控的格局。开发者可以在本地运行、微调、再发布，整个开源社区的创新速度爆发式增长。

效率革命：DeepSeek 在 2024-2025 年展示了用更少算力达到顶尖性能的可能性，DeepSeek-V3 拥有 671B 总参数，但每次推理只激活 37B——这种 MoE（混合专家） 架构证明，暴力堆算力不是唯一的路。

多模态融合：大模型从纯文本扩展到图像、音频、视频。Sora 能根据文字描述生成高质量视频，GPT-4o 能实时对话并理解图像，模态边界正在消融。

Agent 方向：AI 不再只是”问答机器”，开始能主动调用工具、执行代码、浏览网页、规划多步任务。模型从被动响应走向主动行动。

架构层面的进化：Flash Attention 把注意力计算的内存复杂度从 O(n²) 降至 O(n)，让超长上下文（百万 Token 级别）成为可能；RoPE 位置编码让模型能泛化到比训练时更长的序列。

回到那篇论文#

2017 年，Attention Is All You Need 在 NeurIPS 发表时，主要应用场景是机器翻译。那 8 位作者大概没有预见到，他们提出的这个架构，会在几年内成为整个 AI 时代的基础设施。

Transformer 的核心思想说起来朴素：让模型在处理信息时，学会”看哪里重要”，而不是死板地逐步传递。

注意力机制使 AI 第一次能真正处理语言的复杂性；并行计算打开了规模化训练的大门；规模效应带来了涌现能力；RLHF 让模型从”能用”变成”好用”。

这条链条上的每一环，都是过去十年真实发生的事。

而这条路，现在仍在延伸。

参考资料#

Vaswani et al., Attention Is All You Need, NeurIPS 2017
Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers, NAACL 2019
Kaplan et al., Scaling Laws for Neural Language Models, OpenAI 2020
Brown et al., Language Models are Few-Shot Learners (GPT-3), NeurIPS 2020
Ouyang et al., Training language models to follow instructions with human feedback, NeurIPS 2022
The Transformer Architecture Explained — Let’s Data Science
RLHF Explained — Kuibin Lin
The History of Artificial Intelligence — IBM
人工智能发展简史 — 腾讯云开发者社区