数据基建,具身智能的下一场赛局

2026-05-13100具身智能

过去一年,具身智能赛道持续升温,从无人车床轰鸣的工业重地,到24小时自动分拣的物流园区,再到手术机械臂挥动的线下医院,物理世界的生产力在其带动下提升了不止一个量级。

在这条万亿赛道上,具身数据正成为具身智能产业「水电煤」级战略资源

想像一个场景,机器人的机械臂稳稳抓住盛着牛奶的杯子,调整好施力力度后均匀朝着人面前移动,全程把关节震动控制到极低,杯身没有丝毫大幅晃荡。它将杯子稳稳送进对方张开的手中,确认接稳后才松开夹爪,整杯牛奶完好交付,全程没有掉落。

这一过程看似简单,实则包含了复杂的机器感知与行为逻辑变化,正像移动互联网产业所依赖的是遍布大街小巷的信号基站,机器人想要理解物理常识,处理上述现实场景,就必须建立一个可供机器人学习的数据基础设施平台。

在这一点上,业内共识正逐渐成形,黄仁勋在2026年的CES展上,更是发出那句振聋发聩的声音:「没有真实世界的数据,具身智能只能是幻觉」,引爆了行业思考。

多方资本的下场,则打开了具身数据产业更广阔的想象空间。

 

PART 01

具身数据竞赛正酣

 

国内具身数据赛道,已出现多位垂直技术破局者。

光轮智能成立于2023年,核心使命是将复杂的真实物理世界转化为机器人可以学习的数据。

从成立初期仅有寥寥数家投资方,到今年一季度完成最新一笔10亿元融资,光轮智能吸引到新希望集团、奥克斯、三安光电三大制造业巨头入局,亦有建投华科、道禾长期投资等市场化机构投进真金白银,该轮融资资方阵容达到近10家,也将其推至行业独角兽地位。

另一家成立不足5个月、已获近亿元在手订单的具身数据厂商智域基石,专注打造物理世界到机器人模型训练之间的数据编译基础设施,不久之前也完成数千万元天使轮融资。值得行业关注的是,其股东来自四家具身智能企业,这意味着具身厂商与数据平台的绑定日益紧密

同时,国内互联网巨头入局正酣,各有各的打法。阿里以阿里云为技术底座,靠菜鸟、高德跑通具身数据闭环;京东依托零售、物流线下场景优势,搭建具身数据基础设施与合规交易平台;百度的智能云联合行业伙伴打造了具身智能数据超市。

根据各厂商的赛道定位及核心方向,光轮智能、智域基石分别卡位具身数据生产的前端仿真生成和中端标准化处理两大核心环节,做深垂直基础设施,阿里、京东、百度则依托自身原有业务优势(产业场景、云服务、开源生态等)做生态化布局,和光轮智能、智域基石的业务阵线合作互补,共同夯实机器人训练的数据底座。

另外,放到全球视野上,Google Deep Mind已主导全球最大真实机器人开源数据集Open X-Embodiment,为实验室、家居、工业、户外等场景提供数据训练服务;英伟达开发的机器人仿真平台NVIDIA Isaac Sim使开发者能够在接近真实世界的虚拟环境中完成机器人建模、算法验证以及合成数据生成等工作。

图片
 

图片来源:谷歌DeepMind

无论是垂直技术方的崛起,亦或是全球巨头躬身入局,都表明具身数据平台正成为具身智能产业对接数据训练与落地运营的基础设施。

基础设施的不断完善,吸引具身智能厂商买单。据《澎湃科技》报道,目前数据需求方大致集中在大模型团队、海内外大厂以及初创机器人公司,呈现「有多少买多少」的狂热状态,这助推具身数据平台销售额暴涨。

以光轮智能为例,其客户名单堪称豪华,不仅有英伟达、DeepMind、字节跳动、阿里等全球顶尖大模型公司,亦受银河通用、智元机器人等头部机器人巨头所青睐。2025年光轮智能营收实现十倍增长,2026年Q1预计收入已超过去年全年营收。

事实上,在硅谷具身智能圈子里,光轮这个名字出现的频次日益增多。多位投资人认为,光轮智能兼具技术壁垒、生态优势和商业化增长潜力,有望成为具身数据的「最大公约数」。

不过,即便行业势头如此迅猛,具身数据产业仍处发展早期,诸多痛点已经成为制约行业进步的关键。

 

PART 02

没好数据,难跑具身智能

 

目前,具身数据行业内主要存在三条训练数据路径,即仿真合成数据、真实世界机器人数据、人类行为示范数据,但这三条路径彼此互搏,路线之争已摆上台面。

仿真合成派认为,真实数据只是给机器人学习打「补丁」,最终还是要靠大规模的仿真数据来实现机器人大脑的进化;真实派则将真实世界原生数据的训练奉为圭臬,是实现机器人从实验室走向人类世界岗位的重要途径。另一派通过记录人类在真实环境中执行任务时的多模态交互信息(如视觉、动作、力触觉等),让机器人「站在人类肩膀上学习」,用低成本、高泛化性破解物理世界的复杂性。

路线之争的水面之下,整个具身数据赛道正面临严重的「数据荒」,成为制约行业进步的桎梏。

其一,高质量具身交互数据缺口巨大。比如机器人「倒牛奶」的一个动作,需要100条不同角度/力度的操作数据,但全行业能提供的仅1条,而实际需要100万条类似数据才能泛化到不同杯子、奶盒、倾斜角度,模型训练缺口达十万倍量级;

其二,机器人采集数据成本高昂。比如训练机器人「医院递手术刀」,涉及视觉、触觉、运动轨迹三大数据,这类多模态数据获取成本往往是纯文本的1000倍以上,中小厂商根本承担不起这一开支;

其三,数据质量堪忧。现有数据多来自实验室预设场景,泛化能力弱。比如在工厂部署的仓储机器人,在实验室中抓取成功率高达98%,然而放到真实货仓中,受货架阴影遮挡等因素干扰,其成功率骤降至50%以下,很难成为人类真正的「好帮手」。

图片
 

图片来源:GXO Logistics

另外,产业链脱节带来的供需错配,正在吃掉大量行业资源。多数具身数据服务商仍沿用传统大数据的订单式交付逻辑——只管按要求交够数量、做完标注,根本没搞懂具身算法到底需要什么样的特征数据。就像算法团队要的是抓取不同物体的力觉分布数据,服务商却塞过来一大堆重复的物体视觉画面。这导致订单看似达标,实际上近半数数据都是无效资产,平白烧了钱还拖慢了全行业的研发节奏。

最后,数据孤岛与合规枷锁,限制了产业整体效率提升。不久之前光轮智能CEO谢晨在与科技产业记者张小珺的播客对谈中也提到,「大部分机器人企业的数据都封闭在自有体系内,不同企业重复标注、重复采集同类数据,既造成数据资源浪费,也难以形成覆盖全场景的标准化高质量数据集」。

更何况,碰到家庭服务、医疗护理这类贴近C端用户的场景,数据本身带隐私,再加上数据确权、合规流通的规则没落地,企业既怕违规又怕泄露核心竞争力,没人敢开放自有数据,反倒把数据孤岛越筑越牢。

是时候解决这些顽疾,让产业再上一个台阶了。

 

PART 03

具身数据破局三步走

 

入局者已经祭出不同杀招。

互联网巨头中,既有京东这一布局全流程数据基建与交易平台的全栈玩家,也有腾讯这类侧重提供底层算力支撑的生态连接者,各展所长构筑机器人算力底座。垂直技术服务商光轮智能靠虚拟仿真改善了真机数据采集成本高、规模上不去的现状;智域基石自研的数据编译引擎,为具身智能补数据缺口、提效保障高精度,支撑其规模化落地发展。

图片
 

光轮智能CEO谢晨,图片来源:NVIDIA 官方频道访谈

同时,机器人原生厂商智元创新针对高质量工业级真机数据稀缺情况,推出全开源的数据集,目前该款主流具身模型超八成训练数据都来自该数据集,有效推动了行业数据共享。

另外,由工信部指导、开放原子开源基金会发起,乐聚机器人牵头,联合多家高校、企业共建了具身智能开源数据集社区,集众家之所长解决数据孤岛、采集成本高等行业难题。

由此,产业已摸出清晰的三部路径,短期先用「仿真做基础数据、真实数据调效果」的混合模式,普及轻便好上手的通用采集工具,先把拿数据的成本快速降下来;中期解决数据孤岛问题,共同定好不同场景的统一数据标准,从源头砍掉没用的重复投入;长期靠隐私计算、数据确权搭建合规的数据共享平台,打破数据孤岛,把各家浪费在重复建设上的钱,变成行业共用的公共基础设施。

眼下,具身智能正处在从实验室演示走向规模化落地的临界点,过去行业聚光灯大多打在大模型和机器人本体上,如今终于到了完善上游基础设施的时候。这一场由数据驱动的渐进式马拉松尚未跑到终点,让我们期待通用机器人真正走进日常生活的那天。