Posted on ::

作者:Google,DeepSeek

一、Transformer的起源与提出者

Transformer 架构由 Google Brain 团队的 8 位研究人员在 2017 年提出的里程碑论文《Attention is All You Need》中共同发表 [1, 2]。这 8 位核心贡献者常被称为 “Transformer 八子”,包括:

  • Ashish Vaswani:论文第一作者
  • Noam Shazeer:提出多头注意力机制的关键改进
  • Niki Parmar:专注模型在翻译任务上的应用
  • Jakob Uszkoreit:Transformer 的主要构思者,选定“Transformer”这个名字
  • Llion Jones:据称写下论文标题《Attention is All You Need》
  • Aidan Gomez:当时为 Google Brain 实习生
  • Lukasz Kaiser:TensorFlow 共同创造者之一
  • Illia Polosukhin:团队中最早离开 Google 创业的成员 [3, 4, 5]

尽管 8 人均被视为共同提出者,但 Jakob Uszkoreit 常被认为是最初想法的萌发者。目前这 8 位作者均已离开 Google,在 AI 领域各自创业(如 Cohere、Character.ai、Near Protocol 等)或加入 OpenAI 等机构 [6, 7]。


二、为什么需要替代 Transformer?

Transformer 在工程上极其成功,但存在三大核心缺陷:

  1. 内存与计算随序列长度呈平方级增长
    处理长文本(如书籍、长视频)时成本极高。
  2. 训练依赖海量数据
    需要万亿级 Token,与人类“少量样本学习”能力差距巨大。
  3. 能耗极高
    大模型训练和推理消耗数千兆瓦电力,而人脑仅需约 20 瓦。

目前没有一个公认的、在各方面全面超越 Transformer 的标准架构,但研究者已从不同角度提出了多类替代方案。


三、主要替代架构分类

3.1 模拟人脑“效率与脉冲”的架构:脉冲神经网络(SNN)

  • 模拟原理:人脑神经元达到阈值后发放“脉冲”(Spike),而非持续输出信号。
  • 优势:极低能耗,无脉冲时几乎不耗电。
  • 瓶颈:脉冲不可导,训练困难,复杂语言任务上效果远不如 Transformer。

3.2 模拟人脑“长时记忆与连续处理”的架构

Transformer 处理长序列时显存随长度平方增长,而人脑能高效提取长文精华。

Mamba

  • 基于状态空间模型(SSM)
  • 处理速度极快,内存占用随长度线性增长
  • 当前挑战 Transformer 的头号选手

RWKV

  • 结合 RNN 的推理效率和 Transformer 的并行训练能力
  • 逐字处理信息,同时具备全局视野

3.3 模拟人脑“模块化与动态连接”:混合专家模型(MoE)

  • 模拟原理:人脑做数学题时不会动用运动神经元。MoE 只激活一小部分“专家”神经元处理特定任务。
  • 现状:并非完全替代 Transformer,而是对其组织方式的升级(如 GPT-4 采用)。

四、生物学/神经科学启发的先进架构

以下是由生物学家或神经科学家主导的研究,旨在从结构上挑战 Transformer 范式。

4.1 星形胶质细胞网络

  • 来源:MIT 神经科学家与 AI 研究员合作,发表于 PNAS [8]
  • 核心观点:传统 AI 只模拟神经元,但人脑中的星形胶质细胞(Astrocytes)在记忆处理中起关键作用。
  • 解决的问题:Transformer 的长时记忆机制不具生物合理性。
  • 先进性:证明胶质细胞-神经元交互在数学上与 Transformer 的自注意力高度契合,但效率更高

4.2 千脑理论(Thousand Brains Theory)

  • 来源:神经科学家 Jeff Hawkins(Numenta 实验室)[9]
  • 核心观点:Transformer 是“扁平”统计模型,而人脑新皮层由数百万个皮层柱组成,每个都是独立学习单元。
  • 解决的问题:Transformer 缺乏对三维物理世界的理解和常识推理。
  • 先进性:强调感觉-运动整合,认为智能需要像人一样通过移动身体理解物体结构。

4.3 预测编码与主动推理

  • 来源:神经科学家 Karl Friston [10]
  • 核心观点:大脑不是被动分类器,而是不断产生预测并根据误差修正的“预测机器”。
  • 解决的问题:Transformer 需要天文数字级数据。
  • 先进性:实现极低样本学习,类似婴儿通过少量互动快速掌握新技能。

4.4 脉冲神经网络的进化架构

  • 来源:约翰斯·霍普金斯大学,发表于 Nature Machine Intelligence [11]
  • 核心观点:受生物启发的架构在未经训练时就能表现出类似人脑的活动模式。
  • 解决的问题:挑战“靠大数据喂养 Transformer”的范式。
  • 先进性:证明架构本身的生物合理性比数据量更重要

五、总结对比

特性Transformer(当前主流)类脑架构(生物研究方向)
能耗极高(数千兆瓦)极低(模拟人脑约 20 瓦)
数据需求依赖海量数据(万亿级 Token)少量样本(通过进化设计的先验结构)
记忆长度随长度平方级增长(计算瓶颈)动态长时记忆(胶质细胞/突触模拟)

六、参考资料

[1] Attention Is All You Need - 维基百科,自由的百科全书

[2] Transformer模型架构_百度百科

[3] 揭秘Transformer创始八子:聚是一团火,散是满天星澎湃号·湃客澎湃新闻-The Paper

[4] Transformer这篇神级论文的8位作者现在都在干什么? - 知乎

[5] Transformer八子纷纷出走,人均亿万富豪? - 知乎

[6] 现场围观黄仁勋和Transformer七名作者对话:世界需要比Tranformer更强的东西-品玩

[7] NVIDIA CEO 对话划时代的AI 论文作者: “你们改变了世界” | NVIDIA 英伟达博客

[8] AI models are powerful, but are they biologically plausible? | MIT News | Massachusetts Institute of Technology

[9] The Thousand Brains Theory of Intelligence

[10] Small changes make some AI systems more brain-like than others | Hub

[11] AI may not need massive training data after all | ScienceDaily