黄仁勋GTC 2026演讲复盘:AI进入推理时代,英伟达要重新定义计算
3月16日,加州圣何塞,黄仁勋穿着他那件标志性的皮衣,站上GTC 2026的舞台。演讲比预定时间晚了15分钟开始,但台下18000名观众没人在意。今年的GTC有450家赞助商、1000场技术分会、2000位演讲者,规模大得不像一场技术会议,更像AI行业的集体朝圣。
老黄这次没有急着发布芯片。他花了整整一小时,从25年前的GeForce显卡讲起,讲到20年前的CUDA,讲到10年前的RTX,再讲到今天的AI工厂。所有这些铺垫,只为了引出一个数字:到2027年,英伟达的营收预计至少达到1万亿美元。
去年GTC上,他说看到了5000亿美元的高确信需求。今年,这个数字翻了一倍,覆盖Blackwell和Rubin两代架构到2027年的订单。
一、推理转折点:AI开始"思考"
黄仁勋说,过去两年计算需求增长了100万倍。原因很简单:AI的能力在跃迁。从ChatGPT开启生成式AI,到o1模型具备推理能力,再到Claude Code成为能自主工作的智能体,每一次进步都意味着推理阶段的计算量呈指数级增长。
"AI现在需要思考了。"黄仁勋说。思考需要推理,推理需要生成大量token。与训练相比,推理的计算需求提升了大约10万倍。这就是他说的"推理转折点"——AI从感知走向生成,从推理走向行动。
这个转折带来了一个核心变化:数据中心不再只是存数据的地方,而是变成生产token的工厂。每座AI工厂都受限于电力,1GW的数据中心永远不会变成2GW。所以在固定功率下,谁的每瓦token产出更高,谁的token成本就更低。
二、Vera Rubin + Groq:把推理拆成两步走
为了应对推理时代的算力需求,英伟达拿出了新一代AI计算平台Vera Rubin。
这个平台包含7种芯片、5种机架,垂直集成为一个巨型系统。Rubin GPU采用全新架构,支持NVLink 72全互联,算力达到3.6 Exaflops,带宽260TB/s。Vera CPU是全球唯一采用LPDDR5的服务器处理器,单线程性能和能效比都很出色。整个系统实现100%液冷,安装时间从两天缩短到两小时。
但Vera Rubin还不是全部。黄仁勋这次特意花时间讲了另一个芯片:Groq。
英伟达在2025年底收购了推理芯片公司Groq,后者以LPU(语言处理单元)著称。Groq的架构和GPU截然相反:它是确定性数据流处理器,静态编译,编译器调度,没有动态调度,片上堆了500MB的SRAM,只干一件事——推理。
为什么需要两个完全不同的芯片?因为NVLink 72在高吞吐区间几乎无敌,但一旦要求1000 token/秒的极速推理,它的带宽就不够用了。
英伟达的解法是"分离式推理":用Dynamo推理框架把流水线拆开。Prefill和attention的计算量大,交给Vera Rubin;decode阶段的token生成对带宽敏感,卸载给Groq。两颗不同的处理器通过以太网耦合,延迟减半。
结果是,在最高价值的推理层级上,吞吐量再提升35倍。黄仁勋给出了配比建议:如果主要是高吞吐任务,100%用Vera Rubin就够了。如果有大量编程、工程级token生成需求,拿出25%的数据中心功率给Groq。Groq 3芯片由三星代工,已经量产,预计今年三季度出货。
三、CPO交换机:当光子取代电子
要让72块GPU实现260TB/s的全对全带宽,传统铜缆跑不了太远,机架尺寸就是物理极限。Vera Rubin的答案是:光。
黄仁勋举起了世界首款量产的CPO(共封装光学)交换机。传统交换机里,电信号从芯片出来,经过PCB走线,到达光模块,在光模块里完成电-光转换,再通过光纤传出去。每一次转换都有延迟,每一段铜线都有损耗。
CPO把这条链路压缩到极致:光学器件直接封装到芯片上,电子在硅片表面就转换成光子。没有光模块,没有铜线中转。英伟达和台积电联合发明了一种叫CoUP的封装工艺,目前全球只有英伟达在量产。
但铜缆和光学不是二选一。黄仁勋说得很直接:"我们都要。我们需要更多的铜缆产能,更多的光芯片产能,更多的CPO产能。"
四、OpenClaw:智能体的操作系统
发布会的最后部分,黄仁勋花了大量篇幅聊一个开源项目:OpenClaw。
OpenClaw是开发者Peter Steinberger发起的项目,黄仁勋称它是"人类历史上最受欢迎的开源项目"。它能做什么?有人用它帮60岁的父亲自动化了整个精酿啤酒生意,蓝牙连接酿造设备,自动生成销售网站,顾客可以直接下单。
但黄仁勋更在意的是它的本质。他用操作系统的语言重新定义了OpenClaw:
- 资源管理:可以调用大语言模型、访问文件系统、使用工具。
- 调度系统:能做定时任务、分步执行、生成子智能体。
- I/O系统:多模态输入输出,你可以冲它挥手,它给你发邮件。
"OpenClaw开源了智能体计算机的操作系统。"黄仁勋说,"就像Windows让我们创造了个人电脑,OpenClaw让我们创造了个人智能体。"
每一次平台转移,都催生了一批改变世界的公司:Windows→PC时代,Linux→服务器时代,html→互联网时代,Kubernetes→云时代,OpenClaw→智能体时代。
黄仁勋直接断言:"今天世界上的每一家公司都必须制定OpenClaw战略。""每一家SaaS公司都将变成智能体即服务公司。"
但智能体在企业网络里能访问敏感信息、执行代码、对外通信,安全怎么办?英伟达与OpenClaw合作推出了企业版NemoClaw,加上了策略引擎、网络护栏、隐私路由器。
五、未来已来:太空算力与费曼架构
对于外界关注的下一代计算架构Feynman(费曼),黄仁勋也做了预告。
Feynman将带来全新的GPU、LPU LP40和CPU Rosa。新一代的BlueField 5将连接下一代CPU与SuperNIC CX10,配合新的Kyber技术实现铜线与光学双扩展。这意味着Feynman将首次同时支持铜线与光学封装的水平扩展。
黄仁勋强调,无论是铜线、光学还是CPO,未来都需要更高的容量与带宽,这正是Feynman的核心突破。
此外,他还透露英伟达正与合作伙伴联合开发Space One,一台将部署在太空的数据中心计算机。"太空中没有对流,没有传导,只有辐射散热。我们得想办法在太空里给GPU散热。"黄仁勋说,"不过我们有很多优秀的工程师在搞这件事。"
把GPU送上近地轨道,这大概是"AI无处不在"最字面的意思了。
六、写在最后
三个小时的演讲,信息量很大。但黄仁勋想传递的核心信息其实很清楚:我们正处于计算范式的根本性转折点——从检索式计算走向生成式计算,从数据存储走向token生产,从应用软件走向智能代理。
在这个新世界里,硬件是AI工厂的底座,软件是智能体系统的灵魂,而开源生态是连接一切的粘合剂。
演讲结束时,舞台上来了一位特殊嘉宾:来自迪士尼《冰雪奇缘》的雪宝。这个动画角色从屏幕里走出来,摇摇晃晃地走到黄仁勋身边。这个演示由英伟达的物理AI堆栈、Newton物理引擎和Omniverse驱动的仿真模拟驱动。
"雪宝,你好吗?是我给你装了电脑——Jetson。"黄仁勋开玩笑说。
当雪宝问那是什么时,黄仁勋回答:"它就在你肚子里。你是在Omniverse里学会走路的。"
这个demo点明了黄仁勋想说的最后一件事:从人形机器人到动画角色,都是仿真模拟的,而不是预先渲染的画面。物理AI正在从模拟走向现实。
本文内容仅供个人学习、研究或参考使用,不构成任何形式的决策建议、专业指导或法律依据。未经授权,禁止任何单位或个人以商业售卖、虚假宣传、侵权传播等非学习研究目的使用本文内容。如需分享或转载,请保留原文来源信息,不得篡改、删减内容或侵犯相关权益。感谢您的理解与支持!