没有真实数据,何谈具身智能?帕西尼用十万平工厂集群给出终极答案

Jack2026-03-201357机器人技术及应用

在人工智能的演进谱系中,具身智能(Embodied AI)被视为通往通用人工智能的关键一跃。然而,这一跃迁始终面临一个根本性困境:仿真环境中的“满分学霸”,为何在现实世界中频频“崩溃”?

这一问题可追溯至汉斯·莫拉维克等学者在20世纪80年代提出的悖论,让计算机在智力测试中击败人类相对容易,而让它们具备一岁婴儿的感知与运动能力却异常困难。其根源在于,物理世界的交互涉及无穷维度的连续变量,例如摩擦系数、材质形变、接触力动态分布这些变量在仿真环境中只能被近似建模,而近似意味着信息丢失。

柏拉图在《理想国》第七卷中以洞穴比喻揭示了人类认知的局限:囚徒只能看到火光投射在墙壁上的影子,并将其误认为真实世界。当下具身智能领域对仿真数据的过度依赖,无异于让算法学习墙上的投影,纵然投影分辨率再高、帧率再快,它依然无法复现真实物理接触中微妙的力觉反馈与材料流变特性。Sim-to-Real Gap因此成为制约具身智能泛化能力的核心瓶颈。

破解问题的答案,隐于一条朴素的第一性原理:唯有让模型直面过真正的万物,它才能理解万物。



 

01.

全球最大规模数据工厂集群诞生

在近期刚刚发布的“十五五”规划纲要中,已经明确提出要加快建设人工智能语料库,建设高质量数据集,培育壮大数据产业。这意味着国家已经意识到,在这场关乎行业未来主动权的竞赛中,谁掌握了数据,谁就掌握了行业定义权。

然而,行业内部对数据的重要性心知肚明,真机数采是提升具身智能泛化性的关键这一判断,在今天的机器人产业圈内几乎已是共识,但真正愿意下重注、付诸行动的,寥寥无几。

帕西尼,无疑选择了这条最难走、也最有价值的路。早在2024年,帕西尼便率先提出并落地"以人为中心"的全模态真实数据采集体系。2025年4月,全球首座全模态超级数据采集工厂,天津Super EID Factory正式投产,成为行业标志性事件,国家数据局党组书记、局长刘烈宏亲赴实地调研,其亿级数据集OmniSharingDB获得互联网头部客户及科研机构的高度认可。



 

现在,帕西尼宣布了更大的动作:在江苏宿迁、湖北武汉、四川自贡、江西赣州再建四座超级数据采集工厂。从空间维度看,天津Super EID Factory作为先导基地已成熟运营,占地12000平方米,部署150个标准化采集单元;如果其余四座工厂逐步落地,五地工厂形成辐射华北、华东、华中、西南、华南五大区域的战略纵深,会构建起全球规模最大、模态最全、标准最高、协同最强的具身智能数据采集工厂集群。

规模有多大?五地工厂合计形成十万平级实景基地,年产近百亿条高质量全模态数据。这一体量,在全球具身智能数据领域,没有第二家能与之比肩。

效率有多高?从时间维度看,五厂联动依托统一的数据接口与协同调度系统,可实现跨区域数据的秒级流转与融合。单日数据产出量等效于人类个体一生的交互经验。采集效率较行业常规水平提升3至6倍,帕西尼正以这种“一日一生”的采集速率,以规模化、高效化的数据产出,为具身智能Scaling Law提供了物理世界的支撑,终结具身智能领域长期存在的数据饥渴困境。

从产业适配维度看,五地布局还深度结合区域禀赋,实现了“数据源于场景、用于场景”的精准适配。武汉工厂依托国家网安基地与汽车制造产业体系,主攻工业场景数据;宿迁工厂与京东集团产业集群协同,深耕智慧物流、白酒酿造、绿色家居等场景;自贡工厂融入当地无人驾驶与低空经济生态,打造“数据-模型”闭环;赣州工厂导入新能源与特色农业场景;天津工厂则持续沉淀标准化全模态数据。这种分布式采集矩阵,使数据生产嵌入真实的产业流通过程,数据的场景相关性与生态效度得以最大化。

02.

数采体系与触觉模态的回归

如果说五地工厂集群回答了“数据量级”的问题,那么帕西尼全球首创的“以人为中心”(Human-Centered)全模态高精度实采数据体系,则回答了“数据质量”的根本追问。

传统数据采集模式可归结为两类:一是仿真合成数据,其局限前文已述;二是机器人遥操作采集,即由人操控机器人执行任务并记录轨迹。后者虽部分保留了真实物理交互,却受制于两个先天缺陷:其一,机器人本体的运动学与动力学特性限制了动作的自然性与流畅度,数据中隐含着机械臂的惯性、延迟与自由度假象;其二,传统遥操作设备几乎无法采集力学反馈信息,触觉维度长期处于缺失状态。



 

如何在规模、质量与成本之间找到平衡点?帕西尼的路径选择兼顾了经济性和效率性,那就是让人回归为数据的直接生产者。研究者佩戴自研的PMEC数据采集手套执行各类操作任务,手套中集成了数千颗ITPU多维触觉传感单元,可实时解析法向力、切向摩擦力、材质纹理、温度等15个维度的触觉信息。与此同时,多视角视觉矩阵同步采集空间影像,实现触觉、视觉、语音、运动轨迹的全模态时空对齐,系统延迟控制在5毫秒以内。

这一设计隐含着一个深刻的洞察:触觉是人类智能的核心构成要素。神经科学早已揭示,灵巧操作依赖于来自皮肤机械感受器的连续力觉反馈,大脑通过预测与校正的循环完成对物体的稳定控制。若缺乏触觉模态,机器人将永远无法理解“握持”与“捏碎”的边界,无法区分玻璃杯与塑料杯的材质差异,无法在无视觉信息的情况下完成穿针引线。帕西尼的数采体系,首次将高精度触觉真值纳入了大规模工业级数据生产流程。

从经济学角度看,这一范式带来了显著的成本优势。因为国内单台人形机器人本体价格普遍在60万元以上,数据采集设备摆脱了对昂贵机器人本体的依赖,将高端触觉传感器的单价从“万元级”压缩至“百元级”。同时,数据采集效率较传统遥操作提升3至6倍。更重要的是,采集的数据具备本体解耦性。一套数据可适配不同构型、不同尺寸的机器人,有效消解了数据生产中的硬件依赖与环境过拟合风险。

03.

从感知硬件到世界模型的飞轮效应

单纯的数据采集,无论规模多大,都只是原材料开采。帕西尼的核心竞争力在于构建了从底层感知硬件到上层决策模型的闭环统治路径。

依托五大工厂源源不断产出的百亿级真实数据,帕西尼的线上模型验证平台已实现“数据入,模型出”的高速迭代通道。模型的迭代周期从以“月”计压缩至以“天”计,数据价值的转化效率发生质变。而由于技术自研率超过90%,单条数据的采集成本被压低至行业均值的十分之一,这意味着在同等资本投入下,帕西尼能够积累十倍于竞争对手的数据量级。

更值得关注的是数据飞轮的形成。因为优化后的模型可一键部署至各类机器人终端,部署在真实场景中的机器人将实时回传最新的交互数据,形成“数据增长反哺模型优化,提升客户拓展能力,持续丰富场景”的正向飞轮。模型越用越聪明,数据越采越精准。



 

这一自增强的循环飞轮一旦高速运转,后来者的追赶成本将随时间呈指数级增长。数据壁垒、模型壁垒、场景壁垒三者相互强化,构筑起难以逾越的技术护城河。这也使得帕西尼已不止是感知硬件供应商,也不止是数据供应商,而是一个拥有从底层核心感知硬件,到海量全模态数据,再到上层OmniVTLA通用大模型的具身智能全栈主体。

正如电网之于电气时代、互联网骨干网之于信息时代,高质量、标准化的真实世界数据集将成为具身智能时代的核心生产要素。谁掌握了数据基础设施的定义权,谁就掌握了行业的话语权。而帕西尼正在扮演具身智能领域的数据基础设施提供者角色。

04.

百亿估值背后的产业共识

资本是聪明而敏锐的,它总是流向价值的高地。

2026年3月的B轮融资,是资本市场对帕西尼上述逻辑的集中确认。超10亿元融资、百亿估值,使帕西尼跻身国内具身智能第一梯队。值得细究的是投资方构成:黄浦江资本、凯泰资本、信安资本领投,比亚迪、京东、TCL、上汽、北汽等产业巨头加持,并吸引Meta关联方、LEO LION等海外资本。

产业资本的大规模入局,意味着具身智能正在从实验室概念走向生产线现实,帕西尼这一投资阵容则传递出一个强烈的信号,百亿估值并非资本催熟的泡沫,而是实打实撑起的产业分量。

对于比亚迪、京东等战略投资者而言,投资帕西尼就是投资未来十年的生产力。在汽车产线、物流分拣、3C制造等核心生产场景中,帕西尼的解决方案已经实现批量商业级交付。从天津启航,到宿迁、武汉、自贡、赣州的全面点亮,帕西尼不仅为自己铸就了难以逾越的竞争壁垒,更为中国乃至全球的具身智能产业筑牢了高质量的数据底座。

通过“硬件造数据、数据哺模型、模型优硬件”的全栈闭环路径,帕西尼不仅解决了高端触觉传感器90%依赖进口的窘境,将单价从数十万元降至千元级乃至百元级;资本的深度绑定,实质是将数据采集场景与最终应用场景提前锁定,形成产业协同的生态优势。



 

05.

结语与未来

当行业大多数参与者仍在争论算法路线、本体结构、大模型架构之时,帕西尼选择埋头去做最苦、最重,却也最不可或缺的那件事:造粮仓。

五大数据工厂的落成,如同五颗强劲的心脏,将富含触觉、视觉、语言、动作的全模态血液,泵向整个具身智能产业。百亿级实采数据集群的建设,不仅在于它让中国企业在全球具身智能竞争中占据了关键卡位,更在于它为整个产业铺设了一条回归物理真值的进化轨道。在这条轨道上,机器人不再只是看着墙上的投影学习世界,而是亲手触摸世界、感知世界、理解世界。

从柏拉图洞穴到帕西尼工厂,人类对智能的探索走过了一个漫长的循环。如今,我们终于开始为机器人建造一座通向真实光的桥梁。这座桥梁的基石,正是那些以“一日一生”速率积累起来的、带着温度与力度的百亿条触觉数据。

让机器人拥有触觉,让智能拥有身体,这是帕西尼正在书写的产业叙事,也是具身智能迈向通用人工智能的必经之路。