为机器人而生!NVIDIA 开启具身智能新纪元的终极大脑

Jack2025-12-011453

“我们正从感知智能迈向行动智能的新纪元。”


这是斯坦福大学HAI联合主任、具身智能领域先驱李飞飞教授所前瞻的下一个机器人时代节点,其认为机器人的下一个挑战,不是如何看得更准,而是如何根据所见做出正确的决策和行动,而这需要一种全新的、通用化的AI能力框架。



 

过去数十年,机器人被牢牢禁锢在固定范围之内,执行着精准却单一的重复性任务。如今,源于以大模型为代表的AI技术的突破性进展,全球机器人产业在具身智能等新理念的驱动下,正迎来一个历史性的“奇点时刻(singularity) ”,即从专用到通用的范式转移。


人们开始希望,机器人不再是为特定流水线量身定制的工具,而是一种能够适应复杂、非结构化环境,并执行多种任务的通用型智能体,或者称其为通用机器人(General-Purpose Robots)。


机器人如何加速进入“通用化”临界点?


机器人想要实现这一宏大的“通用化”愿景,产业对底层支撑技术提出了前所未有的苛刻要求,四大技术支柱或许缺一不可。


因为训练一个能够理解千变万化物理世界的机器人通用“大脑”,需要处理远超以往的视觉、语言和动作数据。这要求算力规模从当前的千卡集群向万卡乃至更大规模演进。


正如NVIDIA创始人兼CEO黄仁勋多次强调的:“机器人时代的ChatGPT时刻即将到来,而它的实现必须建立在加速计算的基础之上,这种大脑模型需要前所未有的算力密度。”

与此同时,现实世界中训练机器人成本高昂且效率低下。高保真度的仿真平台成为了必不可少的“训练场”。


因为它能够构建一个与物理世界高度一致的数字孪生环境,让机器人在其中进行数以亿次计的试错学习,快速积累“经验”。这构成了机器人商业化落地的前提。



 

2024年,学术界进一步发现,“通用化”的核心是机器人对物理世界基本规律,如重力、摩擦力、材质特性和因果关系的深刻理解。


为此,世界模型的理念逐渐盛行,其正是赋予机器人这种“常识”的关键:它能让机器人进行逻辑推理和想象,预测自身动作将带来的后果,从而规划出安全、高效的行为路径。


想要保证世界模型的前提,还有更丰富的感知系统,因为在非结构化的动态环境中,单一的视觉信息远不足以支撑可靠的行动。


触觉、力觉、听觉乃至热感知等多模态传感信息的实时融合与处理变得至关重要。


此前Google DeepMind 机器人部门前负责人、Vincent Vanhoucke 就曾指出:“传感与学习的结合,是解开机器人通用化之锁的钥匙。我们需要的不是更精确的传感器,而是能让机器人像婴儿一样通过多感官交互来学习和理解世界的算法。”


这些传感器的融合,才能最终使得机器人能够像人类一样“手眼协调”,实现抓取易碎物品、与人类安全协作等精细操作。


新技术带来的机器人范式转变


虽然全球机器人技术路线尚未完全收敛,但我们正站在从“工具”到“伙伴”的具身智能奇点门前,不可否认已经开始在机器人上不由自主地融合各类新理念、新技术,这其实使得机器人的底层技术范式正经历一场深刻的架构性重构。


最为典型的就是在人形机器人等具身智能产品上。传统的、依赖手工编程和预设规则的方法已无法应对现实世界的无限复杂性,取而代之的是仿真、世界模型与边缘计算三者深度融合的新范式。



 

这一转变不仅提升了机器人的能力,更重新定义了机器人的开发、训练与部署方式。


例如“仿真优先”正成为引领下一代机器人开发的核心理念。它不再是产品完成后用于验证的辅助环节,而是贯穿于设计、训练、测试全生命周期的基础。


在这一范式下,机器人的“数字孪生”已经能在高保真虚拟环境中进行数十亿次的试错学习,其效率与安全性远超物理世界。


NVIDIA Omniverse 与仿真技术副总裁 Rev Lebaredian对此曾提到:“未来,我们将在虚拟世界中训练所有自主机器,然后再将它们部署到现实世界。 仿真不是一个可选项,而是构建能在复杂人类环境中安全可靠运行的机器人的唯一可扩展路径。” 


这恰恰标志着开发模式从“物理优先”到“仿真优先”的根本性转变。


如果说仿真平台提供了无限的数据,那么世界模型就是理解和利用这些数据的“统一大脑”。它是一个能够学习和模拟如动力学、因果关系等物理世界基本规律的计算模型。


不少学术界的研究已经证明,通过世界模型,机器人能在“脑海”中预演行动的结果,进行推理和规划,从而获得应对未知场景的泛化能力,而非仅仅依赖过去见过的数据。


有研究科学家在相关论文中强调:“世界模型是通向具身智能的关键。 它使机器人能够进行想象式推理,通过内部模拟来评估不同行动策略的价值,这是实现常识和高效学习的基石。” 这个世界模型将成为所有机器人共享的、统一的认知架构。


除了软件架构,在传输和存储技术上也有着变革发生。


近年来,人们发现当人形机器人开始进入动态、且可能断网的真实环境时,将算力完全寄托于云端是不切实际的。毫秒级的反应延迟和网络可靠性问题,都要求关键决策必须在本地完成。


因此,另一趋势则是,算力正加速从云端迁移至边缘,强大的边缘计算能力成为机器人实时感知、决策和行动的先决条件。


英特尔首席执行官帕特·基辛格在谈及边缘AI时曾指出:“智能的本质正从云端走向边缘,这是下一次范式转移。 对于自主机器人而言,在数据产生的地方即时进行处理,是实现其反应能力、可靠性和隐私保护的必然选择。” 这确保了机器人在任何情况下都保有最基本的“自主性”。


NVIDIA的三台计算机


当全球机器人产业在“通用化”的临界点前徘徊,苦于算法、算力与数据的割裂时,作为最早一批押注具身智能趋势的企业,NVIDIA的做法无疑具备一定代表性。


其以强大的产品和技术整合能力,提出了一套覆盖云、边、端的全栈式解决方案,这套以“三台计算机”为核心的架构,正在快速更新软硬件能力,试图为整个行业设定新的游戏规则。



 

20235月黄仁勋首次提出“具身智能是人工智能下一个浪潮”的观点后,NVIDIA的野心,早已超越了单纯的硬件供应商。近年来其推出的 DGX(训练)- Omniverse/Cosmos(仿真)- Jetson Thor(部署)” 技术链,构成了一个近乎完整的机器人与具身智能开发闭环,满足了当下机器人朝着具身智能范式转变的各类需求。


例如NVIDIA Isaac 平台提供基于物理定律的高保真仿真环境,支持从合成数据生成到全栈软件在环测试。初创公司可以基于NVIDIAIsaac平台和GR00T基础模型,快速启动研发,无需从零开始搭建耗资巨大且技术密集的基础架构。


同时,通过Omniverse的高保真物理引擎和Isaac Lab的强化学习优化,开发者可以利用GR00T-MimicGR00T-Dreams等技术,从少量人类示范中生成海量的合成运动轨迹和训练数据,将数月的数据采集工作压缩至数十小时,这是方法论层面的颠覆。


这意味着,过去需要耗时数月进行实物采集的数据,现在可在数十小时内于虚拟世界中自动生成。



 

这不仅极大地加速了开发周期,更解决了机器人学习中最核心的数据稀缺与长尾难题,实现了技能从仿真到现实世界的安全、可靠迁移。


为了支撑高算力,Jetson AGX Thor无疑是NVIDIA布局中的关键落子。


正如前文所提到,在通用机器人的落地中,边缘算力是自主性的生命线。NVIDIA Jetson AGX Thor 正是为此而生的里程碑式产品。


它基于新一代Blackwell架构,其模块化设计可同时运行多个并行的感知、语言、世界模型和动作任务,为复杂的“世界模型+多传感器融合+实时控制”提供了统一的、高能效的承载平台。


基于Blackwell架构,Jetson AGX Thor解锁了在机器人本体上运行如GR00T等大型基础模型的能力,使其能够理解自然语言指令、感知复杂环境并生成自适应行为,从而有望解决人形机器人对“世界模型”实时推理和多模态传感融合的苛刻算力需求,让在机器人本体上运行千亿参数级的模型成为可能。


此外,NVIDIA开源Isaac GR00T系列模型,也是其最高明的战略之一。


作为机器人的“统一大脑”,这一开源基础模型家族实现了机器人认知与运动技能的跨越式发展。其双系统架构完美模拟了人类的认知方式,使机器人能完成从简单抓取到多步骤逻辑任务的复杂操作,目前已经成为业界普遍认可的共识。


这种“开放核心”策略,一方面能吸引全球开发者丰富其生态,反哺模型能力;另一方面,最优化、最高效的部署很可能依然紧密绑定在NVIDIA的硬件和软件生态之内。这既是技术优势,也是商业上的精准卡位。



 

全栈技术赋能,通用机器人走进现实


技术的价值最终要通过产业落地来体现。


NVIDIA 的全栈平台与 “三台计算机” 战略,已在全球范围内得到众多机器人企业的认可。


无论是国际巨头还是中国厂商,都在借助这套体系加速通用机器人的研发与商用。国外如波士顿动力、Agility RoboticsHexagon,国内如银河通用、宇树科技、傅利叶智能到智元机器人和优必选等行业领先企业,不约而同地选择 NVIDIA Jetson Thor 作为其下一代机器人的“大脑”。


 

例如作为人形机器人领域的标杆企业,波士顿动力将 Jetson Thor 集成到 Atlas 机器人中。这让 Atlas 得以在设备端搭载此前仅服务器才具备的计算能力,实现边缘端 AI 工作负载加速、高带宽数据处理及大容量内存支持,进一步提升其复杂动作的精准度与环境适应性。


Agility Robotics的第五代机器人 Digit 已实现商用,在仓库与制造环境中执行堆叠、装载等物流任务,而第六代 Digit 将 Jetson Thor 作为计算核心,实时感知与决策能力将进一步提升,能应对更复杂的 AI 任务需求,推动物流机器人的规模化应用。


海克斯康(Hexagon)借助 NVIDIA 三台计算机开发人形机器人 AEON,通过 Isaac Sim 仿真快速掌握核心技能,通过 GR00T 模型提升推理能力,再通过 Jetson 平台实现边缘端实时自主运行,AEON 能在复杂动态环境中精准完成导航、行走和机械臂操作,成为工业场景的高效协作者。


银河通用也将 Jetson Thor 部署至自研具身大模型机器人体内,其Galbot G1 Premium 集 NVIDIA Jetson Thor、银河通用自研具身大模型及自主研发的机器人操作系统于一身,即便在人流密集、干扰频繁的高强度连续任务中,也能保持稳定运行并实现闭环作业。


在仿真方面,银河通用自主构建了百亿级规模的高质量仿真数据,在数据生成过程中结合英伟达渲染引擎加速优化,在此基础上,团队发布了多个自研 VLA 具身大模型,包括端到端具身抓取基础大模型 GraspVLA、产品级端到端具身导航大模型 TrackVLA端到端零售场景具身大模型GroceryVLA 等。



 

而宇树科技旗下 H2等机器人搭载 Jetson AGX Thor 后,获得了强大的本地实时推理能力,实现 “思考与行动分离”。在家庭与工业场景中,该机器人能自主识别环境、规避障碍物,根据语音指令完成精准动作,无需依赖云端算力,自主化水平大幅提升。


智元机器人精灵 G2 工业级机器人更是融入 NVIDIA 全栈技术,通过 Isaac Sim 完成复杂场景仿真训练,借助 Jetson Thor 的边缘算力实现实时决策。在工业车间中,精灵 G2 能自主应对零件位置偏差、人员走动等突发情况,提升了复杂环境中的自主性与作业效率。


Jetson Thor 提供的强大边缘算力,还支撑优必选 Walker X 的多模态感知与世界模型推理,Isaac 平台则降低了其运动控制与 AI 算法的开发门槛,让 Walker X 能在家庭、办公等场景中实现自然的人机交互,动作更流畅、响应更快速。


可以发现,全球机器人企业都在广泛采用NVIDIA方案,这本质上是一场“效率驱动”和“风险规避”的集体决策,因为在通用机器人这片未知的、高风险的“无人区”中,NVIDIA凭借其全栈技术实力,铺设了一条最清晰、最成熟的“高速公路”。


企业上车,并非因为这是唯一的路,而是因为在当前阶段,这是能够以最高速度、最低确定性风险驶向目的地的最优路径。


 

结语:技术范式的汇聚与产业未来的拷问


全球机器人产业正屹立于一个史无前例的转折点上,技术浪潮汇聚。


从“仿真优先”的开发范式、作为认知核心的世界模型,到保障自主性的“边缘算力”,正共同将“通用机器人”从科幻叙事推向商业现实。


这一变革的本质,是机器人技术范式的深度融合与重构。


它不再依赖于单一算法的突破,而是要求算力、数据、仿真与模型在一个协同的架构中共生共进。


在这幅宏大的技术蓝图中,如NVIDIA等行业巨头所构建的全栈式平台,通过提供从云端训练到边缘部署的完整闭环,俨然成为了加速这一进程的“催化剂”。


它们极大地降低了顶尖研发的门槛,使得初创公司得以站在巨人的肩膀上,专注于创新与应用,从而催生了当前百花齐放的产业探索。


可以预见,我们期待的那个通用机器人的未来,或许不会在一夜之间到来。但可以肯定的是,因为NVIDIA Jetson AGX Thor等更先进产品与技术的出现,我们通往那个未来的道路,已经变得更加清晰、坚实,且充满无限可能。