曹士圯 腾讯研究院研究员

 

我们平常使用 AI工具时,已经习惯了它们逐字逐词往外“蹦”的“讲话”方式,好像也没太注意到这些基于大模型的AI 工具,往往需要数十秒才能得到一个完整回答。好在大模型加速推理芯片的发展,正在通过另一种全新的芯片架构,解决时延的问题。当人机交互速度能提升到原来的几十倍,你能想象又有哪些全新的人机交互场景会出现在我们面前吗?

2024 年 8 月 28 日,美国 AI 芯片独角兽公司 Cerebras 发布了名为 Cerebras Inference 的加速推理服务。基于其独创的 Wafer-Scale 引擎,该服务在 Llama 3.1 7B 和 70B 模型上分别实现了 1800 token/s 和 450 token/s 的超快推理速度。与市面上用英伟达 GPU 构建集群的主流推理厂商相比,Cerebras Inference 取得了 20 倍以上的速度提升,为大模型推理树立了新的速度标准。这一进展既为用户带来了接近秒速推理的极致体验,也点燃了业界对存算一体技术的热情。

 

大模型推理的速度妥协

 

在与 ChatGPT 等大语言模型应用交互时,我们可以观察到它们普遍采用了流式响应模式 —— 快速输出第一个词,然后逐字逐词继续,模拟人类边思考边说话的过程,直到数十秒后才完成整个回答。这种模式表面上带来了动态和沉浸式的交互体验,实则是对推理速度限制的一种妥协。本质上,这反映了大模型时代的”智能时延”问题,即 AI 的智能表现受限于其推理速度。

序列生成与并行计算的错位

图形处理器(Graphic Processing Unit,简称GPU)凭借其强大的并行计算能力,在深度学习领域取得了巨大成功,也因此成为大模型推理的默认硬件选择。然而,基于 Transformer 架构的大语言模型在推理过程中采用自回归的序列生成方式,即每个词的生成都依赖于之前生成的词,这种顺序依赖性使得计算过程难以实现真正的并行化。

尽管 GPU 可以通过批处理、模型并行等技术来提高效率,但这些方法主要是增加推理吞吐量,即同时响应更多请求、服务更多用户,而非从根本上解决单次推理的速度和时延问题。这解释了为什么即便使用最先进的 GPU,大模型的推理速度仍然无法满足实时交互的需求。

序列生成示意,译自 Cerebras 博客

冯·诺依曼架构的”存储墙“问题

从更深层次来看,大模型推理速度的瓶颈源于底层计算架构的固有限制,主要体现在存算交换带宽方面,这就是所谓的”存储墙”问题。在传统的冯·诺依曼架构中,计算单元和存储单元是分离的,数据需要在这两个单元之间不断移动,这个过程会消耗大量时间和能源。而随着处理器速度的不断提升,内存访问速度便成为了制约系统性能的主要因素。

冯·诺伊曼架构示意

这种情况在大模型推理中表现得尤为突出。大语言模型通常包含数百亿甚至上万亿参数,这些参数需要频繁地在内存和处理器之间传输。现代计算机系统多在存算链路上配备了高速缓存,以缓解内存带宽瓶颈、提升存算交换效率。但受限于性能与成本,这些缓存最大不过百兆左右,无法载入整个大模型。因此,大模型推理过程面临不可避免的大量存算交换。频繁的数据移动不仅带来了性能瓶颈,还导致了显著的能耗问题,既增加了运营成本,也限制了系统的扩展性。

这些挑战表明,仅仅依靠提升处理器频率或优化软件算法已经难以取得突破性进展。在当前的硬件与算法条件下,提升大语言模型的推理速度必须通过打破计算架构与算法设计之间的错配,以克服硬件架构固有的瓶颈。这给未来计算架构的发展指明了方向,为存算一体技术的探索奠定了基础,也解释了为何越来越多的企业开始投身其中。

 

存算一体打破带宽魔咒

 

英伟达借 HBM 拉近存算距离

作为 GPU 芯片的领导者,英伟达在近两代芯片设计中虽然仍沿用传统的计算架构,但通过引入高带宽内存(HBM)技术实现了”近存计算”,以缓解存储墙问题。HBM 技术采用垂直堆叠的内存芯片设计,配合超宽数据总线和硅中介层,显著提升了内存带宽。这使得英伟达的高端 GPU,如 A100 和 H100,能够实现极高的数据吞吐量,大幅提升了大模型处理能力。

存算带宽示意,译自 Cerebras 博客

然而,HBM 技术虽然带来了显著的存算带宽提升,在一定程度上缓解了带宽压力,但并未从根本上改变计算和存储分离的架构设计。

Groq 和 Cerebras 以存内计算破局

主流推理服务商速度与价格对比,译自 Artificial Analysis 

同为芯片独角兽,Groq 在 2024 年 2 月对外发布 GroqCloud,可以提供高达 250 token/s 的Llama 3.1 70B 推理服务,速度相比 GPU 方案几乎提升了一整个量级。之所以能达到这样的速度提升,是因为 Groq 独有的全新芯片设计方案 —— 语言处理单元(Language Processing Unit, 简称LPU)。LPU 采用了类似于超长流水线的一维处理器阵列结构,其中每个处理单元都配备了本地内存,能够就近获取所需数据,大大减少了模型参数的搬运距离,使得数据可以在处理单元之间高效流动。叠加上精确的静态调度机制,LPU 确保每个处理单元的任务被精确安排,最大限度地减少了等待和冲突。这种设计特别适合处理大语言模型中的序列生成任务,因为它能够高效处理具有强依赖性的连续操作,而且避免了频繁访问芯外储存,从而带来显著的推理速度收益。

相比 Groq,Cerebras 的底层技术路线——Wafer-Scale Engine(WSE)——则更为激进。WSE 可以被视为一个巨大的”计算工厂”,其最大特点是其惊人的尺寸,单个芯片几乎覆盖了一整块晶圆的面积。在这个超大芯片上,计算单元和内存单元高度集成,形成了一个密集的网格结构。这种设计使得数据可以在极短的距离内在计算和存储单元之间传输,从根本上降低了数据移动的成本。对比英伟达 H100 GPU,Cerebras 第三代 WSE 可以获得数千倍的带宽速度提升,也解释了 Cerebras Inference 服务为何能在 Llama 3.1 70B 上取得 450 token/s 的推理速度,达到了 GPU 方案的 20倍以上。

Cerebras WSE 与 英伟达 H100 存算带宽对比,引自 Cerebras 博客

 

存算一体推理市场尚处孕育期

 

尽管存算一体推理芯片展现出巨大潜力,但其发展仍面临着市场考验。目前,该技术面临两个核心挑战。

推理尚非算力支出主阵地

首先,在前沿模型研发真正收敛之前,大模型相关算力的支出仍将主要集中在训练方面。作为大模型智能涌现的核心驱动力,Scaling law 尚未明显展示出已达拐点的信号,而致力于多模态、复杂推理等能力的探索研究也方兴未艾。按照 OpenAI 引领的模型迭代节奏,在可预见的三至五年内,围绕模型能力提升的训练仍将吸纳大部分算力资源。

虽然过去一年产业界对基座模型的投资热情逐步趋于冷静,但一二线厂商之间的竞争正在逐步加剧。无论是 Meta 引领的开源势力,还是 Google 坚持不能落后的大模型军备竞赛,都在推动训练算力需求的持续增长。只有经过漫长的探索期,当基座模型的训练思路逐步稳定、模型能力增长进入平台期时,推理与训练的算力支出比才可能越过拐点。届时,突破推理速度瓶颈的优先级和迫切性将会提高,推理芯片也将随之迎来发展机遇。

超快推理的优先级与成本

尽管以 Groq 和 Cerebras 为代表的存算一体推理服务带来了数十倍的推理速度提升,但主流推理服务商仍几乎清一色地在使用英伟达 GPU。

这一方面是因为目前在真实的推理服务供应场景中,厂商对吞吐量的追求高于超快推理。吞吐量的提升意味着在单位时间内可响应更多用户请求,可直接转化为服务收益;而更快的推理速度,当前仍主要体现在对用户体验的提升,仅在部分对时延有高要求的场景才能彰显独特优势。

另一方面,GPU 方案可能仍具备成本优势。由于“N卡生态”更为完备,组建集群、算力调配、训练微调各环节工具链相对丰富,各类提效优化的技术方案十分成熟,针对吞吐量优化的 GPU 方案,相比 Groq LPU 方案更具成本优势。

Groq 与 英伟达 H100 推理方案简化 BOM 成本对比,译自 SemiAnalysis 测算

因此,存算一体芯片既需通过技术升级不断降低成本,也要借助超快推理服务着力培育市场,增强用户的速度感知与时延厌恶。未来,争取将超快推理推行为整个行业的默认选项。

 

未来秒速推理带来新的想象力

 

当推理速度达到每秒近千 token 时,一个完整的模型响应可以在眨眼间生成完毕。这相当于将推理时延压缩至与网络传输延迟相当的水平,实现真正意义上的”秒速推理”。这一突破必将为大模型应用开辟新的可能,也会给人机交互带来全新的想象空间。

模型思考更敏捷

超快的推理速度首先意味着现有大模型交互效率的飞跃,使得开发者可以在极短时间内完成大模型应用的测试和调优循环,不仅能加速开发过程,还有助于更深入全面的模型评估和应用优化。

其次,推理速度的提升可以显著降低模型”思考”成本。当前,思维链(CoT)、思维树(ToT)等方法可用于引导大模型在生成的同时思考,从而获取更优答案,但这些方法会显著增加响应时延。当推理速度足够快时,CoT、ToT 甚至更复杂方法的引导成本将变得可以忽略。甚至可以让模型在极短时间内生成多个备选答案,然后选择最佳回复。这种”瞬时的深思熟虑”,可以在有限的时延条件下大幅提高回答的质量和相关性,很可能会成为模型的默认配置。

在敏捷思考的支持下,Agent 类复杂应用也将迎来新的发展机遇。现阶段 Agent 落地的主要阻力有两个:复杂任务的拆解规划能力和多步流程的交互响应体验。前者依赖模型能力的提升和思考引导的辅助,后者将能在推理速度的提升下得到显著改善。

实时交互更可及

秒速推理将大大缩小人机交互的时间差,为更自然、更流畅的交互体验铺平了道路。

首先,大模型语音对话的时延将变得足够可控。现阶段主流的 ASR(语音识别) – LLM – TTS(文本合成语音)三段式语音交互方案,存在不小的时延,用户讲话后往往需要数秒的等待才能收到回复,难以实现近乎自然的对话体验。而当推理速度得到十倍以上的提升,整体时延便可被压缩至秒内,实现近实时的语音交互。

另一个充满想象力的场景是应用的实时动态生成。大模型的代码生成能力一直在不断提升,但受限于推理速度,应用仍以补全代码和修改代码为主。而在实现了秒速推理后,代码生成可以实现飞跃,在与用户对话的过程中,大模型可以实时生成和调整用户界面,甚至是整个软件的功能。想象一个能根据用户意图即时变化的应用界面,或是能在对话中动态创建的定制软件工具,这可能会重新定义未来软件的开发和使用方式。

如果进一步将这样的超快推理应用于增强现实和虚拟现实中,AI 将可以实时生成和调整虚拟环境、角色对话和交互逻辑,创造出更加丰富和个性化的沉浸式体验。

 

结语

 

OpenAI 在 2024 年初发布的文生视频大模型 Sora 以其惊艳的演示效果震撼了科技界。然而,由于模型复杂度带来的巨大计算量,其推理成本难以压缩至可控范围,以致这一突破性技术迟迟无法公开上线。据悉,OpenAI 正在探索更先进的芯片设计方案,以降低推理成本、提升推理速度,已初步展示出潜力的存算一体技术,很可能成为其重点研究的方向。存算一体不仅有望大幅提升推理速度,还可能彻底改变 AI 系统的设计理念,使得更复杂、更强大的 AI 应用成为现实,成为撬动下一代 AI 革命的支点,为人工智能的未来发展开辟一条全新的道路。通过持续的技术创新和市场验证,存算一体有望成为推动 AI 应用更广泛落地的关键推手,为人类社会带来更智能、更高效的技术体验。

(感谢腾讯研究院袁晓辉博士在本文撰写中提供的帮助。)