“机器人训练数据本不应该如此昂贵和稀缺。”鹿明机器人创始人兼CEO喻超的这句话,或许正是当下具身智能行业最真实的痛点。
目前,具身智能的核心破局点在数据已经成为业内共识,当全球科研团队和企业为采集高质量操作数据投入高昂成本时,鹿明却选择了一条截然不同的路,将数据变成像超市货架上的商品一样,明码标价、在线下单。
机器人大讲堂注意到,近日,鹿明正式上线“FastUMI Pro数据超市”,用户能像在电商平台选购商品一样,直接通过官网商城下单。
![]()
这一动作,不仅意味着具身智能数据首次以“标准商品”形态进入市场流通,或许更预示着行业数据基础设施的范式转移。
机器人大讲堂独家采访到鹿明机器人CTO丁琰,希望聊聊数据超市这个鹿明首创的新物种。
01.
数据超市诞生始末
在逛鹿明数据超市之前,笔者发现鹿明其实做了另外一件事,他们做了一款便携的标准数采工作站——鹿明FastUMI Pro(背包版),也是全球首款背包形态的UMI数采设备,搭载了超高清鱼眼相机、高精度深度相机等核心组件,支持多模态数据采集,8小时长续航+高定位精度,能适配各类开放环境。
在更早之前,鹿明通过数采场采集的形式,已累计交付100万条高质量操作数据,单日数据增量可达数万条,这也让鹿明的销售开始忙不过来。丁琰在采访中直言,数据超市的诞生,就源于这个朴素的商业逻辑:当客户数量呈指数级增长,不如将通用数据产品化并且上架,让客户自己看、自己选。
![]()
FastUMI Pro数据超市的出现,正是鹿明机器人基于自身技术积累和行业洞察,给出的一套系统性破局方案。从超市上架的数据商品情况来看,鹿明将海量操作数据按场景分类,再细分为具体任务,并制定透明的定价体系。他们试图以标准化、规模化的数据供给,打通从数据到模型的“最后一公里”。
从覆盖场景与任务来看,数据超市目前包含工业生产装配、家庭生活、教育场景、酒店服务、商业零售与陈列、餐饮、特种作业、物流仓储、医疗护理、专业科研10个场景的任务数据,每个场景按照任务特性进一步细分,同时用户能看到任务时长、标签等信息,可见鹿明已经初步形成了结构化、多维度的标准化操作数据体系,以期精准匹配不同场景下机器人的操作训练需求。
丁琰透露道,前期数据超市以通用型数据为主,属于平台核心流通品类;后期数据超市会上线数据定制板块,即该部分数据为客户专属,满足个性化训练需求,按照任务时长、夹爪数量、物料成本进行综合定价。
丁琰介绍,由于鹿明采集的所有数据,由于均通过统一采集设备获取,因此可以确保格式一致性,这些数据有着较广的适用范围。数据可直接用于机器人全品类模型训练,包括工业机械臂、服务机器人、人形机器人等,依托鹿明FastUMI Pro无本体数据的通用性,兼容Xarm、方舟无限、Franka、UR、非夕等主流硬件机型。
02.
数据价值几何?
机器人是典型的“数据密集型”技术,模型的训练、优化与落地,都离不开海量、高质量的真实操作数据。随着具身智能逐步走向真实应用,数据的局限往往比模型能力更早暴露出来。丁琰对机器人大讲堂解释,数据定价有所差异在于价值本质不同,而这又主要由于采集设备成本、物料成本、采集过程的难度决定,因而可用于模型训练的优质真实场景数据极其稀缺。
在他看来,数据问题并非一蹴而就,而是伴随任务复杂度逐步显现。丁琰把数据采集拆解为清晰的阶段:第一阶段是在数采场内进行采集,光线、环境、背景、人员管理都可控。鹿明机器人在这一阶段持续完善采集SOP、迭代采集软硬件,并建立数据质量评估机制,“基本上在数采厂里可以实现自动运转”。但当任务难度抬升,模型开始面对更复杂的物理约束与环境噪声时,可控场景的数据分布很快显出边界。
他判断,行业之所以出现仿真、视频、强化学习等多种数据路线,很大程度上是因为不少早期任务相对简单,多种方式“看起来都能做”。可一旦进入更真实、更凌乱的作业场景,数据的真实性与一致性就会变成硬约束。
以工厂质检为例,这并不是在实验室“干净环境”中的简单抓取,而是在复杂工况中完成更强约束的操作与判断,“如果只是做一些简单的仿真,或者其他方式,已经很难满足客户要求”。
视频数据可以帮助模型“看懂世界”,仿真可以扩展一定的组合空间,但当目标是“上手干活”,与物理世界交互的能力最终仍需真实交互数据支撑。换句话说,随着任务复杂度上升,数据成为决定模型能否继续向前的底层条件。
![]()
FastUMI Pro在分拣零部件任务中,完成“数据采集-策略训练-模型推理”闭环
如果说数据超市是“前端商店”,那么背后这些数据从哪来?鹿明的聪明之处在于,其尝试先造好“数据铲子”,用硬件设备创新打破采集边界,用规范化流程优化数据资源,更好推进真实场景采集计划,挖掘“数据矿山”。在数采场完成方法论与流程打磨之后,鹿明把重心逐步转向真实环境,让数据从“可控产出”走向“真实复杂”。
![]()
鹿明“采-训-推”一体化闭环能力,是鹿明数据基建能力的核心。此次规模化数据采集的启动,正依托于这一已全面打通的基建体系:依托FastUMIPro,鹿明双臂具身机器人MOS在5小时内完成从“数据采集-策略训练-模型推理”的工厂质检全流程验;FastUMI Pro在合肥实地部署后,仅用7小时便跑通真实场景下的采集、训练与部署推理。
2026年,鹿明计划在全国多个城市投放1万台背包版FastUMI Pro设备,继续深入工业、家庭、酒店、餐馆、商场、办公等场景,目标直指百万小时级数据量。与实验室或数采厂采集不同,真实环境中的数据变量更加丰富——背景复杂度、光照变化、人员干扰、物料差异等都会被直接采进数据体系。这些变量不再被“消除”,而是成为提升模型泛化能力的重要养分。
具体而言,在数采场进行的数据采集,往往只能模拟有限场景,物料种类也受成本限制。而鹿明通过与合作伙伴共创的真实场景采集模式,能深入更多实际环境。毕竟,当模型开始“卡在数据上”,具身智能不得不正视真实世界。
当然,数据若要通过商品化模式打通流通链路,数据质量是前提。为了保证最终上架数据的质量可控,鹿明建立了八道数据质量评估体系,只有通过自动化检测(如特定时间节点是否出现预期画面)的数据才会入库。这种机制倒逼采集人员——包括内部团队、合作伙伴以及未来可能加盟的第三方——严格遵循标准流程,避免“为凑数而采”的无效数据,在规模扩张的同时守住数据质量底线。
![]()
03.
数据超市意义何在?
从数据超市的上线情况来看,围绕“数据”,鹿明目前基本完成了数采硬件、规模化体系、数据流通的全维度布局。机器人大讲堂认为,当通用数据可像硬件一样在线下单,具身智能有望正式告别定制化的小范围探索,迈入标准化、工程化的生产阶段,同时打通了从数据到模型的“最后一公里”,加速智能Scaling Law进程。
过去,一家研发家庭服务机器人的初创公司,若想训练叠衣服模型,要么自建采集环境、雇佣人员耗时数月,要么向数据服务商高价定制,动辄数十万成本且数据难以复用。如今,这家公司只需登录鹿明数据超市,在家庭场景下找到“叠衣服”任务,按需购买数百条高质量操作数据,百条数据的价格低至百元级。
![]()
据悉,配合鹿明4月初将上线的专属benchmark体系,整合鹿明自研的高性价比适配机械臂、pi,pi0.5等开源baseline模型,以及3个任务共1.5万条免费样例数据集,未来有望形成“平台+数据+模型”的完整使用框架,大幅降低企业和研究团队的使用门槛。
在沟通中,丁琰表示,未来鹿明的数据超市布局并非单一的“采集+售卖”模式,而是以数据为核心构建机器人行业的生态体系。短期来看,数据超市与规模化采集形成“采销一体”的商业闭环,让数据成为可规模化交付的基础设施。长期来看,鹿明将推动数据生态的开放,从目前的自营数据逐步走向类似互联网平台“自营+他营”的平台化模式,未来开放第三方接口,让合作伙伴、设备客户都能成为数据提供者,形成“采集-评估-交易-使用”的完整数据生态。
04.
结语与未来
“整个具身数据市场相比去年一定是十倍以上的增长。”喻超的判断背后,是鹿明对数据战略的笃定。
当数据不再是稀缺资源,当通用数据可以像硬件一样在线下单,行业模型训练的门槛将被显著拉低。鹿明的布局,恰与行业趋势同频,从专用场景的小模型走向通用智能的大模型,数据规模与质量成为决定能力上限与填补机器人落地Gap的关键。
鹿明通过万台便携数据采集设备铺开六大场景、构建数据超市,正在将“无处不在却未被收集”的物理世界操作数据,转化为可规模供给的标准化基础设施。
这不仅是商业模式的创新,更多是一种对具身智能底层逻辑的重构:当数据能力本身成为可交付的基础设施,智能的Scaling Law才真正开始加速。
当然,要实现真正的AGI还远,就像丁琰说的,“那是永无止境的过程”。但至少现在,一家公司想买点数据训练机器人叠衣服、分拣螺丝,不用再自己搭团队、建产线、折腾几个月了。
点开网页,下单,搞定。
鹿明FastUMI Pro数据超市入口:www.fastumi.com/data-market