黄仁勋GTC 2026演讲复盘：AI进入推理时代，英伟达要重新定义计算

更新日期: 2026-03-19 阅读: 161 标签: AI 分享

3月16日，加州圣何塞，黄仁勋穿着他那件标志性的皮衣，站上GTC 2026的舞台。演讲比预定时间晚了15分钟开始，但台下18000名观众没人在意。今年的GTC有450家赞助商、1000场技术分会、2000位演讲者，规模大得不像一场技术会议，更像AI行业的集体朝圣。

老黄这次没有急着发布芯片。他花了整整一小时，从25年前的GeForce显卡讲起，讲到20年前的CUDA，讲到10年前的RTX，再讲到今天的AI工厂。所有这些铺垫，只为了引出一个数字：到2027年，英伟达的营收预计至少达到1万亿美元。

去年GTC上，他说看到了5000亿美元的高确信需求。今年，这个数字翻了一倍，覆盖Blackwell和Rubin两代架构到2027年的订单。

一、推理转折点：AI开始"思考"

黄仁勋说，过去两年计算需求增长了100万倍。原因很简单：AI的能力在跃迁。从ChatGPT开启生成式AI，到o1模型具备推理能力，再到Claude Code成为能自主工作的智能体，每一次进步都意味着推理阶段的计算量呈指数级增长。

"AI现在需要思考了。"黄仁勋说。思考需要推理，推理需要生成大量token。与训练相比，推理的计算需求提升了大约10万倍。这就是他说的"推理转折点"——AI从感知走向生成，从推理走向行动。

这个转折带来了一个核心变化：数据中心不再只是存数据的地方，而是变成生产token的工厂。每座AI工厂都受限于电力，1GW的数据中心永远不会变成2GW。所以在固定功率下，谁的每瓦token产出更高，谁的token成本就更低。

二、Vera Rubin + Groq：把推理拆成两步走

为了应对推理时代的算力需求，英伟达拿出了新一代AI计算平台Vera Rubin 。

这个平台包含7种芯片、5种机架，垂直集成为一个巨型系统。Rubin GPU采用全新架构，支持NVLink 72全互联，算力达到3.6 Exaflops，带宽260TB/s。Vera CPU是全球唯一采用LPDDR5的服务器处理器，单线程性能和能效比都很出色。整个系统实现100%液冷，安装时间从两天缩短到两小时。

但Vera Rubin还不是全部。黄仁勋这次特意花时间讲了另一个芯片：Groq 。

英伟达在2025年底收购了推理芯片公司Groq，后者以LPU（语言处理单元）著称。Groq的架构和GPU截然相反：它是确定性数据流处理器，静态编译，编译器调度，没有动态调度，片上堆了500MB的SRAM，只干一件事——推理。

为什么需要两个完全不同的芯片？因为NVLink 72在高吞吐区间几乎无敌，但一旦要求1000 token/秒的极速推理，它的带宽就不够用了。

英伟达的解法是"分离式推理"：用Dynamo推理框架把流水线拆开。Prefill和attention的计算量大，交给Vera Rubin；decode阶段的token生成对带宽敏感，卸载给Groq 。两颗不同的处理器通过以太网耦合，延迟减半。

结果是，在最高价值的推理层级上，吞吐量再提升35倍。黄仁勋给出了配比建议：如果主要是高吞吐任务，100%用Vera Rubin就够了。如果有大量编程、工程级token生成需求，拿出25%的数据中心功率给Groq。Groq 3芯片由三星代工，已经量产，预计今年三季度出货。

三、CPO交换机：当光子取代电子

要让72块GPU实现260TB/s的全对全带宽，传统铜缆跑不了太远，机架尺寸就是物理极限。Vera Rubin的答案是：光。

黄仁勋举起了世界首款量产的CPO（共封装光学）交换机。传统交换机里，电信号从芯片出来，经过PCB走线，到达光模块，在光模块里完成电-光转换，再通过光纤传出去。每一次转换都有延迟，每一段铜线都有损耗。

CPO把这条链路压缩到极致：光学器件直接封装到芯片上，电子在硅片表面就转换成光子。没有光模块，没有铜线中转。英伟达和台积电联合发明了一种叫CoUP的封装工艺，目前全球只有英伟达在量产。

但铜缆和光学不是二选一。黄仁勋说得很直接："我们都要。我们需要更多的铜缆产能，更多的光芯片产能，更多的CPO产能。"

四、OpenClaw：智能体的操作系统

发布会的最后部分，黄仁勋花了大量篇幅聊一个开源项目：OpenClaw 。

OpenClaw是开发者Peter Steinberger发起的项目，黄仁勋称它是"人类历史上最受欢迎的开源项目"。它能做什么？有人用它帮60岁的父亲自动化了整个精酿啤酒生意，蓝牙连接酿造设备，自动生成销售网站，顾客可以直接下单。

但黄仁勋更在意的是它的本质。他用操作系统的语言重新定义了OpenClaw：

资源管理：可以调用大语言模型、访问文件系统、使用工具。
调度系统：能做定时任务、分步执行、生成子智能体。
I/O系统：多模态输入输出，你可以冲它挥手，它给你发邮件。

"OpenClaw开源了智能体计算机的操作系统。"黄仁勋说，"就像Windows让我们创造了个人电脑，OpenClaw让我们创造了个人智能体。"

每一次平台转移，都催生了一批改变世界的公司：Windows→PC时代，Linux→服务器时代，HTML→互联网时代，Kubernetes→云时代，OpenClaw→智能体时代。

黄仁勋直接断言："今天世界上的每一家公司都必须制定OpenClaw战略。""每一家SaaS公司都将变成智能体即服务公司。"

但智能体在企业网络里能访问敏感信息、执行代码、对外通信，安全怎么办？英伟达与OpenClaw合作推出了企业版NemoClaw，加上了策略引擎、网络护栏、隐私路由器。

五、未来已来：太空算力与费曼架构

对于外界关注的下一代计算架构Feynman（费曼），黄仁勋也做了预告。

Feynman将带来全新的GPU、LPU LP40和CPU Rosa。新一代的BlueField 5将连接下一代CPU与SuperNIC CX10，配合新的Kyber技术实现铜线与光学双扩展。这意味着Feynman将首次同时支持铜线与光学封装的水平扩展。

黄仁勋强调，无论是铜线、光学还是CPO，未来都需要更高的容量与带宽，这正是Feynman的核心突破。

此外，他还透露英伟达正与合作伙伴联合开发Space One，一台将部署在太空的数据中心计算机。"太空中没有对流，没有传导，只有辐射散热。我们得想办法在太空里给GPU散热。"黄仁勋说，"不过我们有很多优秀的工程师在搞这件事。"

把GPU送上近地轨道，这大概是"AI无处不在"最字面的意思了。

六、写在最后

三个小时的演讲，信息量很大。但黄仁勋想传递的核心信息其实很清楚：我们正处于计算范式的根本性转折点——从检索式计算走向生成式计算，从数据存储走向token生产，从应用软件走向智能代理。

在这个新世界里，硬件是AI工厂的底座，软件是智能体系统的灵魂，而开源生态是连接一切的粘合剂。

演讲结束时，舞台上来了一位特殊嘉宾：来自迪士尼《冰雪奇缘》的雪宝。这个动画角色从屏幕里走出来，摇摇晃晃地走到黄仁勋身边。这个演示由英伟达的物理AI堆栈、Newton物理引擎和Omniverse驱动的仿真模拟驱动。

"雪宝，你好吗？是我给你装了电脑——Jetson。"黄仁勋开玩笑说。

当雪宝问那是什么时，黄仁勋回答："它就在你肚子里。你是在Omniverse里学会走路的。"

这个demo点明了黄仁勋想说的最后一件事：从人形机器人到动画角色，都是仿真模拟的，而不是预先渲染的画面。物理AI正在从模拟走向现实。

本文内容仅供个人学习、研究或参考使用，不构成任何形式的决策建议、专业指导或法律依据。未经授权，禁止任何单位或个人以商业售卖、虚假宣传、侵权传播等非学习研究目的使用本文内容。如需分享或转载，请保留原文来源信息，不得篡改、删减内容或侵犯相关权益。感谢您的理解与支持！

链接: https://fly63.com/article/detial/13462

上一页: 渐进式 JSON：200 行代码实现流式传输，让页面加载“快如闪电” 下一页: 12个精选shadcn/ui组件库推荐告别UI设计同质化

内容以共享、参考、研究为目的,不存在任何商业目的。其版权属原作者所有,如有侵权或违规,请与小编联系!情况属实本人将予以删除!