作者:Google,DeepSeek
一、Transformer的起源与提出者
Transformer 架构由 Google Brain 团队的 8 位研究人员在 2017 年提出的里程碑论文《Attention is All You Need》中共同发表 [1, 2]。这 8 位核心贡献者常被称为 “Transformer 八子”,包括:
- Ashish Vaswani:论文第一作者
- Noam Shazeer:提出多头注意力机制的关键改进
- Niki Parmar:专注模型在翻译任务上的应用
- Jakob Uszkoreit:Transformer 的主要构思者,选定“Transformer”这个名字
- Llion Jones:据称写下论文标题《Attention is All You Need》
- Aidan Gomez:当时为 Google Brain 实习生
- Lukasz Kaiser:TensorFlow 共同创造者之一
- Illia Polosukhin:团队中最早离开 Google 创业的成员 [3, 4, 5]
尽管 8 人均被视为共同提出者,但 Jakob Uszkoreit 常被认为是最初想法的萌发者。目前这 8 位作者均已离开 Google,在 AI 领域各自创业(如 Cohere、Character.ai、Near Protocol 等)或加入 OpenAI 等机构 [6, 7]。
二、为什么需要替代 Transformer?
Transformer 在工程上极其成功,但存在三大核心缺陷:
- 内存与计算随序列长度呈平方级增长
处理长文本(如书籍、长视频)时成本极高。 - 训练依赖海量数据
需要万亿级 Token,与人类“少量样本学习”能力差距巨大。 - 能耗极高
大模型训练和推理消耗数千兆瓦电力,而人脑仅需约 20 瓦。
目前没有一个公认的、在各方面全面超越 Transformer 的标准架构,但研究者已从不同角度提出了多类替代方案。
三、主要替代架构分类
3.1 模拟人脑“效率与脉冲”的架构:脉冲神经网络(SNN)
- 模拟原理:人脑神经元达到阈值后发放“脉冲”(Spike),而非持续输出信号。
- 优势:极低能耗,无脉冲时几乎不耗电。
- 瓶颈:脉冲不可导,训练困难,复杂语言任务上效果远不如 Transformer。
3.2 模拟人脑“长时记忆与连续处理”的架构
Transformer 处理长序列时显存随长度平方增长,而人脑能高效提取长文精华。
Mamba
- 基于状态空间模型(SSM)
- 处理速度极快,内存占用随长度线性增长
- 当前挑战 Transformer 的头号选手
RWKV
- 结合 RNN 的推理效率和 Transformer 的并行训练能力
- 逐字处理信息,同时具备全局视野
3.3 模拟人脑“模块化与动态连接”:混合专家模型(MoE)
- 模拟原理:人脑做数学题时不会动用运动神经元。MoE 只激活一小部分“专家”神经元处理特定任务。
- 现状:并非完全替代 Transformer,而是对其组织方式的升级(如 GPT-4 采用)。
四、生物学/神经科学启发的先进架构
以下是由生物学家或神经科学家主导的研究,旨在从结构上挑战 Transformer 范式。
4.1 星形胶质细胞网络
- 来源:MIT 神经科学家与 AI 研究员合作,发表于 PNAS [8]
- 核心观点:传统 AI 只模拟神经元,但人脑中的星形胶质细胞(Astrocytes)在记忆处理中起关键作用。
- 解决的问题:Transformer 的长时记忆机制不具生物合理性。
- 先进性:证明胶质细胞-神经元交互在数学上与 Transformer 的自注意力高度契合,但效率更高。
4.2 千脑理论(Thousand Brains Theory)
- 来源:神经科学家 Jeff Hawkins(Numenta 实验室)[9]
- 核心观点:Transformer 是“扁平”统计模型,而人脑新皮层由数百万个皮层柱组成,每个都是独立学习单元。
- 解决的问题:Transformer 缺乏对三维物理世界的理解和常识推理。
- 先进性:强调感觉-运动整合,认为智能需要像人一样通过移动身体理解物体结构。
4.3 预测编码与主动推理
- 来源:神经科学家 Karl Friston [10]
- 核心观点:大脑不是被动分类器,而是不断产生预测并根据误差修正的“预测机器”。
- 解决的问题:Transformer 需要天文数字级数据。
- 先进性:实现极低样本学习,类似婴儿通过少量互动快速掌握新技能。
4.4 脉冲神经网络的进化架构
- 来源:约翰斯·霍普金斯大学,发表于 Nature Machine Intelligence [11]
- 核心观点:受生物启发的架构在未经训练时就能表现出类似人脑的活动模式。
- 解决的问题:挑战“靠大数据喂养 Transformer”的范式。
- 先进性:证明架构本身的生物合理性比数据量更重要。
五、总结对比
| 特性 | Transformer(当前主流) | 类脑架构(生物研究方向) |
|---|---|---|
| 能耗 | 极高(数千兆瓦) | 极低(模拟人脑约 20 瓦) |
| 数据需求 | 依赖海量数据(万亿级 Token) | 少量样本(通过进化设计的先验结构) |
| 记忆长度 | 随长度平方级增长(计算瓶颈) | 动态长时记忆(胶质细胞/突触模拟) |
六、参考资料
[1] Attention Is All You Need - 维基百科,自由的百科全书
[3] 揭秘Transformer创始八子:聚是一团火,散是满天星澎湃号·湃客澎湃新闻-The Paper
[4] Transformer这篇神级论文的8位作者现在都在干什么? - 知乎
[5] Transformer八子纷纷出走,人均亿万富豪? - 知乎
[6] 现场围观黄仁勋和Transformer七名作者对话:世界需要比Tranformer更强的东西-品玩
[7] NVIDIA CEO 对话划时代的AI 论文作者: “你们改变了世界” | NVIDIA 英伟达博客
[9] The Thousand Brains Theory of Intelligence
[10] Small changes make some AI systems more brain-like than others | Hub
[11] AI may not need massive training data after all | ScienceDaily