2026年5月14日,百度AI开发者大会Create 2026・具身智能专题论坛在北京国家会议中心盛大启幕。本次论坛由百度智能云、机器人大讲堂联合主办,BV百度风投、一苇资本、原点学堂、清华MBA具身智能俱乐部等机构共同支持,汇聚北京大学、上海交通大学、英伟达、星动纪元、智平方等海内外顶尖高校、行业龙头企业的技术专家与创业者,围绕具身模型、数据体系、场景落地、产业生态等核心议题,深度剖析行业发展现状,共商技术规模化落地最优解,助力AI从数字世界全面走向物理世界。
01.
行业迈入关键拐点 具身智能成未来产业核心抓手
论坛伊始,百度集团副总裁袁佛玉发表致辞,她指出,过去两年大模型重塑了文本、图像、办公等数字世界,而当下全球AI产业的核心命题,已转向“让AI在物理世界安全、可靠、低成本行动”,产业机会从软件延伸至制造、物流、交通、民生服务等国计民生产业。
![]()
袁佛玉强调,具身智能并非单点技术突破,而是涵盖模型、数据、本体、芯片、传感器、控制、安全及供应链的系统工程,是一场 “知行合一” 的技术革命。百度智能云将从三大维度持续深耕:一是夯实AI Infra基础设施,优化VLA模型、世界模型训练推理性能,提供真机遥操、数据采集、语音交互、云边端协同等全栈能力,正助力启元研究院、星动纪元、智平方等企业开展具身模型研发;二是深化场景链接,开放行业Know-how、客户资源与落地经验,联合企业挖掘可规模化商业化场景;三是推动行业标准建设,作为工信部人形机器人与具身智能标准化技术委员会唯一入选云厂商,牵头数据采集、模型评测、整机安全等标准制定,降低产业协同成本。
02.
陈建宇:全栈系统驱动人形机器人规模化落地
星动纪元CEO、创始人陈建宇在主题分享中指出,人形机器人从“可用”迈向“可规模”,单点技术突破远远不够,必须构建AI Native全栈系统,覆盖数据、大脑、本体、应用四层闭环体系。他明确,场景价值、产品市场匹配(PMF)、稳定交付能力、可控成本,是规模化落地的四大核心前提;模型能力决定机器人性能上限,本体与工程能力决定实际落地下限。
![]()
在数据层面,星动纪元构建五级数据金字塔,从低到高依次为互联网数据、EgoCentric第一人称数据、物理世界生成数据、遥操数据、真机数据。陈建宇特别指出,长尾故障数据价值远超常规成功数据,而真实场景闭环产生的真机数据,是支撑模型持续迭代、本体不断优化的最高质量数据源。
在技术核心层面,陈建宇提出两大关键判断:大脑端,传统VLA模型存在天然泛化边界,世界模型是突破泛化上限的核心,核心价值是学习物理世界统一规律,而非简单模仿单一动作;本体端,星动纪元坚持核心硬件全栈自研、模块化产品设计,重点突破五指灵巧手技术,让硬件深度适配模型需求,为规模化落地筑牢硬件根基。
03.
张鹏:VLA 范式持续进化,类脑融合赋能通用智能
智平方合伙人、副总裁张鹏认为,VLA(视觉-语言-行为)并非具身智能的终点,而是连接数字世界与物理世界的核心航道,其范式正持续迭代、能力不断增强。他指出,VLA本质是语言、视觉、行为三要素的端到端对齐,未来智平方将持续融合世界模型、类脑计算、神经形态技术,逐步从专用场景适配走向通用场景覆盖,推动机器人成为第四代智能终端。
![]()
智平方自研NeuroVLA模型,创新性地将类脑计算与VLA深度融合,打破传统VLA响应延迟高、推理能力弱的瓶颈。该模型可实现毫秒级实时响应、强逻辑推理能力,适配物理世界动态、复杂、不确定的交互需求,为机器人在工业、公共服务等半结构化场景商业化落地提供核心技术支撑。
张鹏同时宣布,智平方联合百度智能云开源AlphaBrain Platform,开放自研VLA模型、测评工具、数据服务及场景化工具链。平台旨在降低行业研发门槛,将少数团队掌握的复杂系统能力转化为行业共有资源。他强调,具身智能落地离不开AI、硬件、场景三大要素的深度融合,只有构建完整商业闭环与数据闭环,才能实现行业可持续发展。
04.
熊蓉:SPIRE 知行融贯,大小脑分层攻克高精度难题
浙江大学求是特聘教授、浙江人形机器人创新中心首席科学家熊蓉提出SPIRE知行融贯发育体系,创新构建“大脑+小脑”分层架构,精准破解当前 VLM(视觉语言模型)识别不准、物理交互薄弱、算力依赖高、跨场景泛化不足四大行业痛点。大脑聚焦高维认知、空间关系推理、任务失败反思;小脑负责实时感知、精准动作执行、零样本泛化适配,二者协同实现端到端智能闭环。
![]()
熊蓉强调,力、触、重量、摩擦力等物理信息,无法通过视觉感知替代,必须纳入模型训练核心环节。团队通过高保真环境重构、人-机操作数据迁移、分层强化学习、紧凑拓扑感知等技术,让机器人实现亚毫米级操作精度,同时大幅降低算力依赖。
熊蓉介绍,SPIRE 体系已完成多场景规模化落地验证:工业场景中,攻克柔性布料高精度操作难题,与杰克科技已签订 2000 台订单,成为全球服装业首个批量化落地项目;家庭场景中,联合方太发布全球首个机器人总厨,实现烹饪辅助;康养场景中,完成语音交互下的喂饭、喂水、陪护等服务。她表示,后续将持续优化模型泛化性、降低硬件成本,推动具身智能从工业向家庭、康养等更多民生场景渗透。
05.
应茹:百舸AI Infra全栈支撑,适配三大研发范式
逆矩阵首创世界模型W0至W5分级理论,清晰界定行业演进层级:W0为单纯追求视觉流畅度的视频生成阶段,W5则是能够吃透物理规律、自主完成复杂任务的真实世界通用推理阶段。陈博远指出,类比自动驾驶从L0到L5的演进,世界模型存在W0至W5的演化进程,W0为单纯追求视觉流畅度的视频生成阶段,W5则是AI自主探索发现新物理规律、自主完成复杂任务的真实世界通用推理阶段。
百度智能云主任架构师应茹表示,百度百舸已从服务通用大模型的基础设施,全面升级为具身智能专属全栈AI Infra,覆盖数据准备、分布式训练、仿真评测、推理加速、真机部署全链路,精准适配当前行业三大主流研发范式:操作类VLA模型、世界模型、运动控制策略。
![]()
应茹指出,2026年具身智能行业呈现两大核心技术趋势:一是世界模型分布式训练进入爆发期,行业探索多种 VLA 与世界模型融合架构;二是运动控制策略从独立分散走向统一范式,从小规模训练向大规模 Scaling 演进。百舸针对性优化核心技术:提供5B–20B 中型模型并行训练高性价比算力配置,解决世界模型Diffusion结构推理延迟瓶颈,优化运动控制策略多机训练的通信与显存占用、并支持一键扩展至128卡集群。
应茹介绍,百度百舸已深度服务行业,累计支撑30余家具身企业完成模型研发、迭代与真机落地。平台预置智源双臂真机数据集、主流仿真环境、开源强化学习框架,集成英伟达 Isaac生态、SONIC全身控制底座、GR00T N 系列 VLA 模型,提供开箱即用的研发环境,大幅降低企业研发门槛、缩短迭代周期、降低试错成本。
06.
陈博远:世界模型核心在Action,因果建模决定物理理解
逆矩阵科技创始人兼首席研发官陈博远,从认知科学与人工智能双重视角溯源解读世界模型。他指出,世界模型的核心价值不在于生成逼真视频画面,而在于搭建物理世界的因果推理体系,动作正是建立因果关联、解构物理规律的关键核心。在他看来,物理规律蕴藏于物体动态交互过程,而非静态像素画面;人工智能想要真正理解现实世界,不能只依靠被动观察,更要通过主动行动感知推演。
![]()
陈博远认为,通用世界基座模型是各垂直场景规模化落地的核心基础。工业仿真、具身智能、游戏创作等领域遵循同一套物理规则,真实采样成本极高则是它们共同的产业痛点。各类真机数据与仿真数据可跨场景互补赋能、交叉训练,沉淀出对物理世界的通用认知,物理规律的通用性向上输出、垂直场景反哺物理深度向下沉淀,构成了世界基座模型的双向飞轮。
07.
戴亚奇:构建全模态表征,真实世界RL催生ChatGPT时刻
日冕机器人联合创始人戴亚奇以ChatGPT的发展路径为类比,提出具身世界模型的 Scaling 飞轮:表征、数据、训练范式,三者相互驱动、形成闭环,是实现技术跃迁、迎来行业 ChatGPT 时刻的关键。
![]()
日冕机器人认为,表征是探索具身世界模型Scaling飞轮的第一步工作。行业从VLA到WAM,其背后本质是尝试从“表征动作”到“表征世界”。当前主流的VLA模型已经能够通过将动作对齐到视觉语言空间来完成机器人动作生成,而为了应对真实世界天然的接触复杂性、任务多样性和长时因果关系,具身智能需要原生的“Token”级别表征体系创新。日冕认为下一代表征体系需要具备“离散性、普世性、结构性”,进而通过表征体系降低对“重人力采集”数据的依赖,真正开启具身数据的Scaling曲线,以期在Scaling过程中最终实现GPT级别的模型范式创新。
在模型体系上,日冕机器人将世界模型的泛化性优势融入真机世界强化学习(Real-World RL),提出了世界模型奖励系统(World Model Reward System)的方案。日冕的WMRS方案通过“泛化的策略模型尝试任务、泛化的监督模型评价纠错”的闭环机制,一方面大幅降低了此前具身强化学习对现场部署训练和人在环(Human in the loop)的依赖,另一方面也大幅降低了在产品部署过程中具身强化学习带来的回退风险,进而为大规模商业化后的交付闭环系统做好准备。
场景选择方面,日冕机器人将高速增长的 AI 基础设施制造业作为当前重点突破方向之一。该行业具备“多批量快迭代、精细操作丰富、扩产需求旺盛”三大特征,为日冕上述提出的世界模型范式和系统进入真实工业场景提供了高质量的验证土壤和量产基础,深度契合了日冕“在高速发展的产业中与人类协作、在精细交互的场景中突破人类极限”的目标。
最后,戴亚奇强调了“具身智能不是单打独斗的行业”,日冕一方面将在后续持续开源全模态表征工具和多场景全模态精细操作数据集,另一方面也期待联合行业伙伴共建数据和硬件生态,持续探索更多的优质场景和重要产业方,共同加速具身智能ChatGPT时刻的到来。
08.
王宇杰:Compute is Data,Cosmos世界模型赋能物理AI
英伟达解决方案架构师王宇杰围绕 GTC 2026 的“Compute is Data”核心表述展开分享,指出面向 Physical AI,行业正从“计算资源处理数据”走向“以高性能计算驱动高质量数据生产”的新范式。NVIDIA 的Physical AI Data Factory Blueprint 旨在统一并自动化训练数据的生成、增广与评估流程,帮助开发者将有限数据扩展为大规模、多样化的数据集。
![]()
王宇杰介绍,Cosmos 在 Physical AI 开发中可用于合成数据生成、视觉推理和动作仿真,以加速通用机器人智能在复杂环境中的开发与验证。
王宇杰表示,NVIDIA 已围绕具身智能构建较为完整的产品栈,包括 Isaac Sim、Isaac Lab、Newton、Cosmos、Isaac GR00T N 系列模型、Jetson Thor,以及用于机器人评测的 Isaac Lab-Arena,覆盖从仿真、训练、评测到部署的关键环节。
目前Isaac Sim/Lab和GR00T模型已在百度智能云上线,助力企业快速构建物理 AI 能力、加速机器人落地应用。
09.
任容玮:开源生态持续扩容北京人形×百度智能云共启具身智能黑客松
北京人形机器人创新中心知产与科研合作部负责人任容玮发表主题分享,系统介绍中心在开源开放领域的布局成果。作为具身智能领域的国家队,北京人形持续推动技术普惠,已开放天工 1.0 通用人形机器人硬件设计、RoboMIND 多模态数据集(累计 40 万条,下载量600W+)、运动控制框架TienKung-Lab,VLA 模型及世界模型等核心资产,构建起覆盖硬件、数据、模型、平台等全链路开源生态。
![]()
任容玮重点发布最新技术成果,包括基于通用具身智能平台“慧思开物”的低代码开发平台、行业领先的 VLA 仿真平台,大幅降低开发者使用门槛,助力快速实现技术验证与场景落地。依托上万平方米中试基地,中心为行业提供标准测试、快速试错及规模化验证服务,加速具身智能技术从实验室走向产业应用。
本次具身智能专场论坛上,北京人形机器人创新中心联合百度智能云,正式开启首届具身智能黑客松大赛。赛事聚焦行业核心技术难点,设立运动控制、VLA 模型微调两大赛道,面向企业、高校、科研团队及开发者全面开放报名。
![]()
赛事周期从5月延续至9月,整体分为启动发布、线上初赛、线下决赛、成果推广四个阶段。主办方将开放天工系列机器人硬件、RoboMIND开源数据集、XR-1仿真平台与百度百舸算力资源,为参赛团队提供全链路技术支持。
大赛评审阵容由北京人形机器人创新中心、百度智能云及清华、北大、浙大等高校专家共同组成,同时配套设置奖金、硬件资源和生态扶持等多项奖励。活动以赛促研、以赛促产,打通技术研发与真实应用场景的壁垒,推动具身智能走出实验室、实现规模化落地,持续带动整个产业生态加速成长。
10.
汇聚行业智慧 共话具身智能技术瓶颈与落地之道
本次论坛压轴圆桌以“The Hard Part”为主题,集结学界专家与企业创始人、高管,围绕技术路线、落地瓶颈、硬件形态收敛、人才培养、场景突破等核心议题展开深度交流,碰撞观点、凝聚产业共识。
![]()
上海交通大学助理教授穆尧、大晓机器人副总裁周泉、微分智飞首席科学家周鑫、四川具身科技CEO冯振宇、深朴智能联合创始人兼副总裁张迪、欧拉万象COO张靖、萝博派对CEO黄一、智域基石CEO杨哲轩共同参与本场圆桌对话。
![]()
穆尧从学术视角分析,具身智能已走完从0到1的原始突破,正迈入从1到100的规模化发展周期,整体行业发展势头向好。他提到,世界模型与VLA并非相互割裂,JAPA与PIXEL两条技术路线可以融合互补,后续会逐步演进为可插拔的统一技术范式。面对少样本迁移难题,可通过云端通用推理搭配轻量级动作模型、依托智能体自动化采集数据两条路径,减少行业对真机实测数据的依赖。
![]()
周泉判断2026年将迎来行业格局剧变,技术路线从多元分散走向逐步收敛,应用场景也从零散试点转向规模化落地,搭建完整数据闭环是驱动技术持续迭代的核心。他表示,零样本迁移是商业化落地的重要抓手,但长程任务仍存在泛化能力不足的问题,借助世界模型强化预测能力,才能让技术更好适配实际应用场景。
![]()
周鑫聚焦任务边界与数据闭环两大核心,明确清晰的任务界定、轻量化评测体系,是搭建数据闭环、支撑技术规模化发展的基础。在他看来,各类技术路线的差异,本质源于任务颗粒度不同:精细操作类场景需要高颗粒度世界模型支撑,飞行等粗粒度任务则可依靠底层表征完成推演,行业需根据不同场景匹配适配的技术方案。
![]()
冯振宇认为,情感共生已成为行业普遍共识,人形机器人的终极落点面向消费端。产品除了替代人力完成基础体力工作,更要承载情感陪伴的核心价值。他坚持硬件形态终将收敛到仿人构型,非仿人形态很难形成真正的通用智能;而真机实测数据是模型迭代的核心根基,可依托省级实训基地持续沉淀夯实数据储备。
![]()
张迪表示行业正处在技术迭代攻坚阶段,尚未形成统一发展路径,但业内已形成共识,首要解决泛化能力弱、优质数据稀缺、物理世界理解不足等行业痛点。商业化落地遵循循序渐进节奏,先从类家庭周边场景切入,逐步积累数据、打磨技术能力,再向完整家庭场景渗透,通过快速试错实现持续迭代升级。
![]()
张靖将真实落地、持续迭代视作行业发展核心关键词,把2026年定义为具身智能落地元年。他主张从开发者生态场景切入,打造具备成长进化能力的机器人产品,不必一味追求一步到位的完美形态。家庭场景优先守住安全底线,对高频日常任务进行渐进式优化,依托用户反馈形成正向循环,带动技术与产品同步成长。
![]()
黄一强调规模化发展与基础设施建设相辅相成,当前行业正同步推进规模扩张与底层基建完善。硬件形态会逐步向人体构型靠拢,轮式底盘则更适配工业专属场景;开源本体搭配小脑系统与底层基建,能够有效降低行业准入门槛、培育专业人才,同时行业应坚持先打磨至顶尖水准,再进行开源共享。
![]()
杨哲轩指出,具身智能本质是复杂系统工程,绝非单一模型可以定义,物理场景容不下算法幻觉,全链路协同配合才是发展关键。他提出,数据加工的重要性远超原始采集,高质量的数据编译是模型训练输入的核心;以第一视角数据可降低采集成本,跨本体通用训练则能提升模型泛化表现,为行业长期发展筑牢数据根基。
11.
结语与未来:
百度AI开发者大会Create 2026具身智能专场圆满落幕,集结产学研多方力量,梳理行业技术前沿、产业痛点与落地路径,为整个行业提振信心、明确发展方向。
从模型迭代、数据创新,到硬件自研、场景落地,全产业链协同节奏持续加快,行业共识逐步凝聚,发展路径愈发清晰。依托政策扶持、技术突破与生态完善,具身智能正加快走出实验室,走进真实应用场景,迈入规模化落地新阶段。
百度智能云将持续联合行业伙伴,深耕核心技术、赋能产业发展,携手推进具身智能创新演进,助力国内AI产业提质升级,以科技实力赋能实体经济,共建全新智能产业生态。