从全球首条产线落地到模型世界第一!千寻智能引领具身智能的Deepseek时刻

李鑫2026-01-121322机器人技术及应用

RoboChallenge 的核心优势在于 “真机实测”,支持单机械臂(Franka、Arx5 和 UR5)和双臂系统(ALOHA) 等主流机型 7×24 小时运行,提供多视角 RGB 与深度信息,精准评估 VLA 算法在物理世界的泛化能力,其测试场景还涵盖时间依赖性、多阶段长序列任务等关键能力维度,同时考验模型在多构型、全新任务上的迁移效率,是检验通用机器人策略的标准测试。该平台的 Table30 任务集涵盖插花、整理碗碟、开关水龙头、制作三明治、插入网线等 30 个真实场景,全面考察 3D 定位、遮挡处理、多视角协同等技术难点,同时适配双臂协作、软体操作等不同机器人类型,兼顾物体形状、材质等属性差异。评估机制采用端到端任务成功率与过程评分结合的方式,即使任务最终失败,完成关键步骤也能得分,客观反映算法真实能力。

具身智能技术价值的评判到底应该在什么维度?

在刚刚过去的2025年,我们发现,机器人已经可以在实验室里精准完成擦桌、浇花等复杂动作。但对于行业来讲,它真的能走出实验室在非结构环境下稳定作业吗?另一侧,当顶级具身模型登顶排行榜拿下高分的时候,市场更关心的是,这份成绩能转化为真实产业价值吗?这两个问题是对所有具身智能企业的灵魂拷问。


RoboChallenge最新排名情况(2026年1月11日 15:00)
 

 

2026 开年,具身智能领域爆出重磅消息。千寻智能自研VLA基础模型Spirit v1.5在第三方机器人模型评测组织RoboChallenge的Table30榜单上位列第一,超过了之前最强模型Pi0.5。为了证明榜单成绩来自自研模型且真实有效,千寻智能开源了Spirit v1.5的基模权重、推理代码以及使用样例。接受公众检验,也方便社区在Spirit v1.5的基础上创新。

开源链接如下:

Code: https://github.com/Spirit-AI-Team/spirit-v1.5

Model: https://huggingface.co/Spirit-AI-robotics/Spirit-v1.5

Blog:https://www.spirit-ai.com/en/blog/spirit-v1-5

值得关注的是,搭载该模型的人形机器人“小墨”,已于 2025 年 12 月底落地宁德时代中州基地,正式投入新能源动力电池 PACK 生产线运行。这两项成果的落地,标志着中国具身模型首次在 “可评测性能” 与 “真实工业场景可用性” 两大核心维度完成双重验证,成功跻身行业性能第一梯队。

▍30个真实任务遥遥领先Spirit v1.5到底强在哪儿?

在具身智能领域,评测榜单是检验技术实力的重要标尺,但并非所有榜单都具备同等含金量。RoboChallenge是国内目前为数不多甚至唯一一个具身模型评测榜单,2025年正式上线,该标准化评测体系由Dexmal、Hugging Face、智源研究院等机构联合发起,直指传统机器人测试场景碎片化、标准不统一的行业痛点。平台通过统一任务标准、评估指标和跨模型对照机制,构建了开放公正的评测环境。



 



 

在最新公布的榜单中(截至 2026 年 1 月 13 日),千寻智能Spirit v1.5以66.09分50.33%成功率的成绩超越此前领先的Pi0.5(61.84分、42.67%成功率),稳居榜首。值得一提的是,该成绩基于统一硬件和真实任务的系统级评测,未依赖定制化优化,而是通过平台开放资源实现性能突破,其技术核心源于开放式、目标驱动的多样化数据采集范式—— 摒弃脚本化约束,以 “做有用的事” 为核心准则,鼓励采集员即兴完成目标任务,形成包含抓取、扭转、插入、双手协调等多样化原子技能的连续数据流,而非孤立的单一动作演示。


Spirit v1.5部分子项评测分数一栏 (共30项具体评测项目)
 


Spirit v1.5堆叠彩色方块任务分为10个评价维度,成功率80%,子项总分85分

 

这种训练方式使模型积累了更全面的物理常识与技能连接能力,在迁移学习中表现突出:相比基于精选 “干净数据” 训练的模型,Spirit v1.5 达到相同性能所需的微调迭代次数减少 40%,且随着多样化数据规模扩大,模型在新任务上的验证误差持续下降,充分印证了模型在复杂环境中的泛化能力与技术普适性。

▍Spirit v1.5模型已能够应对工业级应用的实战考验

中州新能源生产基地是宁德时代按“灯塔工厂”标准打造的全自动化电池生产基地,对驻场设备的生产节拍、连续作业稳定性及环境适应性要求极高。相较于实验室测试环境,工业产线的复杂工况对具身智能设备的实战能力提出严苛考验。



 

在此背景下,打造千寻智能Spirit v1.5模型的人形机器人“小墨”已在该基地进行实战作业。“小墨”主要负责电池包下线前终检、耐压测试等关键工序,具体完成高压测试插头精准插接、线束连接状态检测及作业间隙设备巡检等任务。

根据官方披露的数据,小墨机器人在PACK生产线插接成功率超99%,作业效率较人工提升三倍,有效规避了人工操作的高压安全风险,保障了生产质量稳定。由此可见,千寻智能Spirit v1.5模型在宁德时代产线的稳定运行,足以证明其已具备工业级场景的工程化应用能力。

▍具身智能产业需要推动实体革命的破局者

具身智能行业长期存在两类技术错配的现象。一类是算法在榜单上成绩亮眼,却缺乏工程化适配能力,难以落地真实应用场景;另一类是产品Demo 演示效果突出,却扛不住标准化横向评测,技术不具备规模化推广的普适性。

这两类现象催生行业技术泡沫,下游厂商选型时顾虑重重,更直接阻碍了具身智能技术的产业化进程。

千寻智能的差异化优势十分明确,其技术能力同步通过了RoboChallenge评测的上限验证与宁德时代产线的下限验证。



 

RoboChallenge评测的登顶成绩,证明了其技术在标准化评测体系下的领先性,宁德时代产线的稳定运行,则印证其具备工业级场景的工程化应用能力。这种“能比又能用”的双重验证,构成了具身智能领域真正具备产业价值的领先范式,更从根本上解决了行业技术与产业脱节的核心痛点。

▍国产具身模型是推动产业变革的关键钥匙

可以确定的是,在这个急剧变化的2026年,国产化具身模型的突破从来不是技术问题,而是时间问题。敢为人先的是千寻智能提前做到了这一点。



 

对于机器人厂商而言,千寻智能的突破意味着国产具身模型已具备从“备选项”升级为“主选项”的条件。此前由于国产模型缺乏标准化验证和真实场景落地案例,难以获得本体厂商的认可,而随着千寻智能Spirit v1.5奠定的技术成果,已能证明国产模型在技术实力上已能与国际顶尖产品抗衡,且在工程化适配、本地化服务等方面更具优势。

对系统集成商来说,模型的不确定性曾是自动化项目推进的核心风险。千寻智能在宁德时代产线的成功落地,提供了可参考的工业级应用案例,证明国产具身模型的工程化可靠性,将显著降低项目实施风险,加速自动化方案落地进程。

从产业来看,这是中国具身模型首次在“全球顶级评测+头部制造业产线”双重标准下获得验证。千寻智能的突破标志着中国在具身智能领域的技术实力和产业化能力已达到国际先进水平,行业正式从技术探索期迈入实用化阶段。



 

千寻智能Spirit v1.5 模型的霸榜与技术落地,不仅是单一模型的突破,更是中国具身模型发展的重要里程碑。这一成果印证国产具身模型已实现性能与可用性的双重达标,成为推动我国机器人产业关键技术自主可控的核心钥匙,一个机器人规模化落地、能干活、干好活的时代正加速到来。