Transformer架构简介及其可能替代

光明顶

mathematics languages talks about /posts /projects /tags

Posted on 2026-04-17 :: documentation

作者：Google，DeepSeek

一、Transformer的起源与提出者

Transformer 架构由 Google Brain 团队的 8 位研究人员在 2017 年提出的里程碑论文《Attention is All You Need》中共同发表 [1, 2]。这 8 位核心贡献者常被称为 “Transformer 八子”，包括：

Ashish Vaswani：论文第一作者
Noam Shazeer：提出多头注意力机制的关键改进
Niki Parmar：专注模型在翻译任务上的应用
Jakob Uszkoreit：Transformer 的主要构思者，选定“Transformer”这个名字
Llion Jones：据称写下论文标题《Attention is All You Need》
Aidan Gomez：当时为 Google Brain 实习生
Lukasz Kaiser：TensorFlow 共同创造者之一
Illia Polosukhin：团队中最早离开 Google 创业的成员 [3, 4, 5]

尽管 8 人均被视为共同提出者，但 Jakob Uszkoreit 常被认为是最初想法的萌发者。目前这 8 位作者均已离开 Google，在 AI 领域各自创业（如 Cohere、Character.ai、Near Protocol 等）或加入 OpenAI 等机构 [6, 7]。

二、为什么需要替代 Transformer？

Transformer 在工程上极其成功，但存在三大核心缺陷：

内存与计算随序列长度呈平方级增长
处理长文本（如书籍、长视频）时成本极高。
训练依赖海量数据
需要万亿级 Token，与人类“少量样本学习”能力差距巨大。
能耗极高
大模型训练和推理消耗数千兆瓦电力，而人脑仅需约 20 瓦。

目前没有一个公认的、在各方面全面超越 Transformer 的标准架构，但研究者已从不同角度提出了多类替代方案。

三、主要替代架构分类

3.1 模拟人脑“效率与脉冲”的架构：脉冲神经网络（SNN）

模拟原理：人脑神经元达到阈值后发放“脉冲”（Spike），而非持续输出信号。
优势：极低能耗，无脉冲时几乎不耗电。
瓶颈：脉冲不可导，训练困难，复杂语言任务上效果远不如 Transformer。

3.2 模拟人脑“长时记忆与连续处理”的架构

Transformer 处理长序列时显存随长度平方增长，而人脑能高效提取长文精华。

Mamba

基于状态空间模型（SSM）
处理速度极快，内存占用随长度线性增长
当前挑战 Transformer 的头号选手

RWKV

结合 RNN 的推理效率和 Transformer 的并行训练能力
逐字处理信息，同时具备全局视野

3.3 模拟人脑“模块化与动态连接”：混合专家模型（MoE）

模拟原理：人脑做数学题时不会动用运动神经元。MoE 只激活一小部分“专家”神经元处理特定任务。
现状：并非完全替代 Transformer，而是对其组织方式的升级（如 GPT-4 采用）。

四、生物学/神经科学启发的先进架构

以下是由生物学家或神经科学家主导的研究，旨在从结构上挑战 Transformer 范式。

4.1 星形胶质细胞网络

来源：MIT 神经科学家与 AI 研究员合作，发表于 PNAS [8]
核心观点：传统 AI 只模拟神经元，但人脑中的星形胶质细胞（Astrocytes）在记忆处理中起关键作用。
解决的问题：Transformer 的长时记忆机制不具生物合理性。
先进性：证明胶质细胞-神经元交互在数学上与 Transformer 的自注意力高度契合，但效率更高。

4.2 千脑理论（Thousand Brains Theory）

来源：神经科学家 Jeff Hawkins（Numenta 实验室）[9]
核心观点：Transformer 是“扁平”统计模型，而人脑新皮层由数百万个皮层柱组成，每个都是独立学习单元。
解决的问题：Transformer 缺乏对三维物理世界的理解和常识推理。
先进性：强调感觉-运动整合，认为智能需要像人一样通过移动身体理解物体结构。

4.3 预测编码与主动推理

来源：神经科学家 Karl Friston [10]
核心观点：大脑不是被动分类器，而是不断产生预测并根据误差修正的“预测机器”。
解决的问题：Transformer 需要天文数字级数据。
先进性：实现极低样本学习，类似婴儿通过少量互动快速掌握新技能。

4.4 脉冲神经网络的进化架构

来源：约翰斯·霍普金斯大学，发表于 Nature Machine Intelligence [11]
核心观点：受生物启发的架构在未经训练时就能表现出类似人脑的活动模式。
解决的问题：挑战“靠大数据喂养 Transformer”的范式。
先进性：证明架构本身的生物合理性比数据量更重要。

五、总结对比

特性	Transformer（当前主流）	类脑架构（生物研究方向）
能耗	极高（数千兆瓦）	极低（模拟人脑约 20 瓦）
数据需求	依赖海量数据（万亿级 Token）	少量样本（通过进化设计的先验结构）
记忆长度	随长度平方级增长（计算瓶颈）	动态长时记忆（胶质细胞/突触模拟）

六、参考资料

[1] Attention Is All You Need - 维基百科，自由的百科全书

[2] Transformer模型架构_百度百科

[3] 揭秘Transformer创始八子：聚是一团火，散是满天星澎湃号·湃客澎湃新闻-The Paper

[4] Transformer这篇神级论文的8位作者现在都在干什么？ - 知乎

[5] Transformer八子纷纷出走，人均亿万富豪？ - 知乎

[6] 现场围观黄仁勋和Transformer七名作者对话：世界需要比Tranformer更强的东西-品玩

[7] NVIDIA CEO 对话划时代的AI 论文作者： “你们改变了世界” | NVIDIA 英伟达博客

[8] AI models are powerful, but are they biologically plausible? | MIT News | Massachusetts Institute of Technology

[9] The Thousand Brains Theory of Intelligence

[10] Small changes make some AI systems more brain-like than others | Hub

[11] AI may not need massive training data after all | ScienceDaily