100位舞者同时跳动,身上一共有5300个Marker点,76台2600万像素的光学动捕相机需要以每秒120帧的速度快门取像,数据洪流涌入AMD 64核处理器,最终映射在现场大屏的数字空间实时展示,每一帧的处理窗口只有8.3毫秒。
2026年5月31日,上海青瞳视觉MCP无界棚内,100名动捕演员成功完成了这场百人实时动作捕捉挑战,在上海市新虹桥公证处全程官方认证和证据保全后,现场爆发出了经久不息的热烈掌声。
![]()
机器人大讲堂了解到,此前国际公开认证的最高纪录为19人,国内最高为41人,这次挑战是国内记录的2.5倍。这不仅仅意味着,从这一天起,全球百人以上实时动捕的技术白线,正式画在了中国。同时,这背后恰恰是青瞳视觉作为国内动捕领域头部企业,一场关于光学动捕技术工业化天花板的真实叩问:硬件算力、系统架构、算法优化,三块木板拼成的木桶,如今到底能装多少水?
![]()
01.
一个关于“迷宫”的比喻
光学动作捕捉的工作原理并不复杂,由相机发射红外光,被贴在人体上的Marker点反射后,相机捕捉到二维坐标,再通过三角定位还原出三维空间位置,进而生成骨骼动画。但原理简单,工程上却极其折磨人。
走进那间1000平方米的动捕棚,最直观的感受是全场的相机密度。青瞳视觉CEO张海威说得更直白:“40人到100人,数量提高两倍多,相机从28台提到76台,听起来参数变化不大,但背后是一个指数爆炸的NP问题。”因为这不仅仅需要76台K26光学动作捕捉相机均匀覆盖整个空间,更意味着每台相机每秒产生约72MB的原始数据,整系统每秒处理约720万个二维图像点。这不是简单的线性增长,更像技术一次长足的跨越。
一位了解该技术的人士曾向机器人大讲堂描述这个过程:“Marker点就像灯泡,相机就像眼睛。几十个人还好,上百个人同时动,灯泡和灯泡之间会互相遮挡,身份识别就开始出错。”更棘手的是串位问题,A身上的Marker被误判给B,系统会把两个人的骨骼数据混在一起重组,画面看起来就像两个人拧成了一团麻花。
这个问题的难点在于,它不是随人数线性增长,而是几何级暴增。百人身上共有5300个Marker点,每个点都要在76台相机的视野里被同时识别、交叉比对、还原成三维坐标。每新增一个人,不只是增加了53个点,而是增加一个新变量。一个点被遮挡,相邻相机接力补位;多个人同时遮挡,变量组合呈指数增长,实际运算复杂度要远远高于原先。
![]()
张海威的一个比喻或许更为恰当,他说,每个相机总归会看到两三千个点。我们可以把每个相机想象成一个迷宫,70多层迷宫,每层有两三千个岔路口。选取一个岔路口,走到下一个相机,又会遇到两三千个岔路口。
现实情况是,在迷宫中穿行,19人时出错的概率还能接受,41人时系统已经开始频繁丢帧,100人时,任何一步超时都会导致整帧数据作废。青瞳视觉技术负责人在接受采访时为我们算过一笔账:系统每秒需要解算处理60万个三维点,任何一步多花0.1毫秒,这一帧就没了。
更大的挑战在时间维度。120fps帧率,意味着每帧的完整处理窗口是8.33毫秒。只有严格控制在8ms之内,画面才具备稳定性和流畅度。延迟高的后果,远不只是画面卡顿。延迟高一方面像VR眩晕,更重要的是系统堵塞。短暂延迟一两帧无所谓,但如果长期阻塞,一帧帧延迟下去,计算会越来越拥挤,一旦上一帧用了10ms,下帧就只有6ms,时间就会挤压,迅速塌缩。
02.
物理世界的盲区,AI开始来填
100人同时在棚内移动、舞剧,交叉、叠合,遮挡是不可避免的物理现实。问题随之而来:当一台相机的视野被另一个人完全遮挡,那个Marker点在物理上就是不可见的。传统的做法是依赖多相机交叉补位,但如果同一个点被连续遮挡超过两三帧,三维位置就会飘移,整套骨架的还原就会出错。
青瞳视觉的解决办法是,研发了一套独特的AI结算管线,专门处理这个问题。他们意识到,相机捕捉到的遮挡很多,但可以用AI去解算动作、还原动作。相机物理上被挡住了解算不出来,但在3D还原时,可以用AI把丢失遮挡的点给还原出来。
![]()
张海威介绍,这不是类似修图的补帧,而是基于骨骼运动学约束的语义级重建,因为AI知道53个点之间的关联约束,知道人体关节的活动范围极限,知道上一个合法帧的姿态和下一个合法帧的姿态之间,缺失的几十毫秒最可能以什么轨迹运动,从而被遮挡的点进行语义级还原,并基于人体运动规律的推断重建。这条AI结算管线,是百人规模能够成立的技术前提之一,也是AI技术目前在动捕上最有力的实现。
03.
硬件冗余是唯一的解题思路
解决了捕捉和解耦问题,算力是另一道槛。百人同时运动,Marker点的数据量是爆炸式的,但系统却需要在8毫秒的单帧窗口内,完成全部二维点提取、Marker匹配、三角定位、骨骼重构、CGI渲染,任何一步超时都意味着这一帧被丢弃,画面出现撕裂或卡顿。
机器人大讲堂获悉,本次百人动捕算力底座是一台搭载AMD 64核Threadripper PRO 9985WX处理器的工作站,加一块Radeon RX 9070 XT显卡(16GB显存)。看似采用的产品规格不高,但AMD渠道FAE高级经理焦健庭在现场解释了这次挑战的数据规模,5300多个标记点,最终形成6万多条数据同时并行处理,需要在低延迟约束下完成三维重建、实时结算和渲染输出。但AMD团队发现,这个负载对CPU的压力极大,GPU相对较轻,考虑到实际落地应用合理性后,团队用一个消费级的9070XT承担渲染输出,最终发现完全能够满足要求。
![]()
这得益于AMD处理器的全大核设计,而非目前市场上的大小核差异性架构。因此AMD全大核架构在这个场景里表现出的稳定性,在张海威看来是架构层面的先天优势:在动捕运算中,大小核架构很难保证每一帧渲染出来的延迟都可控,线程调度会产生更多困扰。没有大小核差异性调度问题,每一帧的延迟都稳定、可控,不会因为线程迁移产生不确定的等待。
此外,机器人大讲堂获悉,双方团队还通过对BIOS配置、线程调度及数据通路的协同优化,在软件侧算法效率提升的基础上,实现了系统整体性能约20%的提升,并显著降低运行延迟,并且能做到持续稳定数十分钟的高频工作。最终实现百人规模下毫秒级稳定运行,满足了高帧率及高动态捕捉的应用需求,最终让科技与艺术协同,把技术挑战成为可观看的数字动作。
在此过程中,CPU与GPU承担了截然不同的角色。焦健庭把GPU的工作描述为“干重活干粗活”,把最终重建结算出的数据渲染到屏幕上。而CPU做的是最精细的工作,53个Marker点对应53段骨骼,每段骨骼的动作都有细腻差异,需要实时采集、精准重建、逐帧结算,只有64核全大核设计才能在毫秒内完成如此大量的并行计算而不产生线程调度抖动。
![]()
AMD的这种做法也证明了,降低复杂度,可以是用更聪明的算法换来的,而非一定要用更强的硬件堆出来。从设置层面让处理器充分稳定发挥潜能,让算法更适合多线程并行运算,也能最终实现殊途同归。
这条逻辑的背面是,硬件总有上限,而算法没有。一个依赖定制顶级硬件才能跑通的方案,永远无法规模化;一个在商业硬件上用算法逼近极限的方案,才有真正的商业价值。
但三个维度,指向同一个目标,就是让那8.3毫秒成为一条恒定可靠的输出曲线,而不是忽高忽低的抖动波形。
04.
人和机器人的三个差异
动捕棚的另一端连接着具身智能产业。张海威在采访中提到了遥操作背后的技术现实。因为人和机器人有三个根本差异,肢体比例结构不同,关节活动度不同(人靠肌肉骨骼,机器人靠电机),重量分布和脚底摩擦系数也不同。要把人的动作迁移到机器人身上,需要解决re-targeting问题,也就是让机器人做出“神似”而非“相同”的动作,同时满足机器人关节限位约束,并实时保持平衡不摔倒。
这个过程有两层价值。在现阶段机器人自主能力不足时,遥操作可以直接用于遥控干活;与此同时,遥控过程中产生的"操控-响应"数据对,是训练机器人自主执行同类任务的珍贵素材。
这意味着,动捕棚正在从内容生产工具变成数据生产工具,不是生产视频,而是生产机器人的训练原料。而百人同时采集的能力,直接把数据采集的效率门槛从5人提升到了50人。
![]()
百人同场听起来是一个规模问题,但张海威更愿意把它描述为一个效率问题。“我们计算复杂度降低超过300%。越复杂需要算力越多,系统可靠性越差。降低复杂度后,才能应用到复杂场景,比如大规模遥操、大规模数据采集。”他说。
这也使得张海威特意强调,这次百人动捕的软硬件都是正常出货的商业版本,不是为挑战特别定制的版本。这不是一句场面话。在技术类挑战活动中,定制化演示和可量产方案之间隔着一道工程鸿沟。前者意味着理论上可以,后者意味着你买了就能用。
05.
扩展无限场景可能性
百人实时动捕挑战的完成,价值并不止于“同时捕捉更多人”。它意味着这种大规模高并发实时动作捕捉系统,已经具备面向更大空间、更高并发、更复杂交互场景的工程化处理能力。
对于数字内容产业而言,大规模实时动捕可应用于群体动画、虚拟制作、数字演出、虚拟演唱会、影视战争场景、体育赛事可视化等复杂内容生产场景,例如虚拟偶像可以做30人50人的团体规模直播综艺,显著提升群体动作采集效率与动作真实感。
对于具身智能与机器人产业而言,百人级实时动捕能力也意味着更大规模、更复杂行为的真实世界动作数据可以被稳定采集和同步处理。数据采集效率实现倍增。这类数据可用于机器人遥操作、人形机器人动作学习、多主体协作行为研究、具身智能数据集建设等方向,为机器人从“模仿单个动作”走向“理解复杂人类行为与群体协作”提供更丰富的数据基础。
在科研测量、工程验证与智能交互场景中,大空间、多目标、低延迟的实时动捕能力,也可进一步支持无人系统集群测试、人机协同实验、运动科学分析、沉浸式交互和复杂系统仿真等应用。由此,百人实时动捕不只是一次视觉化的技术挑战,更是一次面向未来数字内容生产、智能系统训练和真实世界动作数据基础设施的系统能力验证。
![]()
采访的最后,张海威和焦健庭一起聊到了一个关于未来的注脚。“下一步可以把GPU也用起来,做实时生成,边捕捉边生成。把后续流程应用起来。”目前百人挑战中,GPU主要承担渲染输出角色,CPU扛住了核心计算重担。但GPU的并行算力还有大量富余,那块Radeon RX 9070 XT的16GB显存只用了“一小部分”。真正的下一代场景是,捕捉的同时做实时生成,边跳边渲染,边采集边训练,而这将会让人机交互步入新的台阶。
06.
结语与未来
回看中国动作捕捉产业的发展轨迹,从早期依赖进口设备、受限于他人制定的性能天花板,到如今在百人实时动捕这个全球无人区插上自己的旗帜,青瞳视觉完成的这场挑战,本质上是中国动捕从“国产替代”迈向“全球领跑”的一个缩影。
过去我们说“跟上”,今天我们开始定义“什么才是可能”。8毫秒的长征翻过最陡的坡,意味着中国团队已经掌握了在极限复杂度下定义动捕系统架构、调度算力、融合AI全栈工程能力的话语权。
从追赶到并跑,再从并跑到领跑,这条路的第一个百人里程碑,落在了青瞳视觉MCP无界棚,也让指数爆炸的长征,正式走过了最陡的那段坡。