01.
AI 已经很强,但还差最关键的一步
如今 AI 已经具备了非常强大的功能,能写论文、可以 Coding、能生成逼真的图片和视频。但从"知道"到"理解",从"生成"到"行动",中间横亘着一道巨大的鸿沟。
这也是为什么,OpenAI、谷歌、微软等顶级科技公司,以及 Yann LeCun、李飞飞等 AI 领域最具影响力的学者,都将注意力集中到同一个方向:世界模型(World Model)。
而放眼国内,近日一家致力于打造全球首创物理世界模型的新锐高潜玩家浮出水面——清华00后特奖刘松铭领衔的LiberAI已连续完成种子轮、天使轮、天使+轮融资,融资金额数亿元,获得真格基金、红杉中国、美团龙珠、顺为资本等一众头部基金联合押注。LiberAI以物理智能为纵轴,目标推出 Scaling 曲线最陡峭的世界模型。
![]()
创始人/CEO 刘松铭
要读懂 LiberAI 的突围关键,或许要从世界模型的本质出发。
02.
要理解世界模型的价值,不妨先看看人类是怎么行动的
当你走到桌边,看到一个装满水的玻璃杯悬在桌子边缘,你不需要真的伸手去推,大脑里就已经自动"播放"了一段水杯掉落摔碎的画面。于是你会下意识地把它往桌子里面推一推。
这个"在脑子里提前推演未来"的能力,本质上就是人类的世界模型。
如今的机器人大脑,恰恰缺失这种能力。VLA的本质是模仿学习policy,如果机器人只会死记硬背人类教给它的动作来干活,一旦环境发生一点点改变,就会茫然失措,只会机械地模仿动作,并不真正理解动作背后的物理逻辑。
当前机器人所需要的,也许正是从"模仿动作"走向"因果推理"的质变——不只是看懂世界,而是能够预判"如果我做了这个动作,世界会发生什么变化"。
03.
那什么是世界模型?
围绕“如果我做了这个动作,世界接下来会发生什么?”这个核心问题的具体定义和解法,催生了当下几大技术流派。
• 视频生成派:data-driven,但学习的是相关性
视频生成派以 OpenAI 的Sora、谷歌的Genie 为代表,是目前最主流的路线,核心思路是用海量视频数据训练模型,直接在像素空间里预测世界的演变。
这条路线最大的优势是可扩展性极强。互联网上积累的海量视频数据天然就是训练素材,完全 data-driven。
但它的根本局限在于:模型本质上只是在"预测下一帧像素",并没有真正理解三维空间和物理因果。见过海量视频后模型记住了像素演变的统计规律,而不是真正建立了对时空和物理的理解。
• 3D 空间智能派:从3D空间出发重建世界,并非端到端
以李飞飞创立的 World Labs 为代表,这一流派仿佛建筑师:显式地重建出整个世界的空间结构,再在这个基础上实时渲染出二维画面。
它的核心优势是空间一致性极强,但这条路线面临两个难以绕开的结构性问题。
第一是数据和成本的问题:高质量 3D 数据在互联网上极度稀缺,采集设备昂贵,流程繁琐;且算力消耗也远高于视频路线。
第二是流程割裂的问题:3D 空间的重建和世界的动态演化是两个分开的步骤,本质上无法做到完全的端到端优化,世界"长什么样"和世界"怎么动"之间的协同深度不足,整体 Scaling 效率也因此受限。
• 隐空间预测(JEPA)派:不画世界,只提炼抽象本质
LeCun的核心判断是:人在街上走路做决策时,脑子里不会精确预测每个行人的脸。真正有价值的是更高层的抽象信息:前面有人,要绕开。
因此 JEPA 完全放弃了像素生成,转而在隐空间里直接预测世界状态的变化。具体来说,JEPA本质上是训练一种特征表示,让预测器(Predictor)依托这份表征信息,重构出输入数据中被掩码(mask)隐藏、剔除的局部内容与动态片段。
优点是这样的计算效率极高,天然摒弃了无用细节;理论上提炼出的抽象表示更适合 Agent 做动作规划。
缺点有两个层面。
一是验证困难:隐空间里的内容看不见也摸不着,没有人能直接判断模型到底"理解"了什么,评估和调试不便。
二是生态割裂:JEPA 构造了一套全新的表征空间,很难直接继承整个行业在语言和视频方向上积累的技术红利。
• 物理引擎派:把规律写进公式,但存在Sim-to-Real Gap
以英伟达的 Isaac、Genesis 为代表,这一流派的逻辑最直接:尝试用数学公式表达物理规律,尝试将重力、摩擦力、流体动力学等写入虚拟环境。
但这条路线的核心矛盾在于Sim-to-Real Gap。写进代码的物理公式,本质上都是人类经过近似和简化的理想情况:极柔软的衣物形变、非结构化环境里未知的摩擦系数、各种材质的复杂接触、这些在真实世界无处不在的细节,几乎不可能被完美仿真。
• 世界动作模型(WAM)派:预测世界,同步输出动作
以英伟达的 DreamZero 为代表,WAM 迈出了更关键的一步——把"理解世界"和"指导行动"统一在同一个模型里。
模型先在脑海中生成执行任务的未来视频,再把这套"脑内画面"翻译成精确的电机控制信号。
这种架构带来了两个额外的好处:
第一,video 提供了逐帧的监督信号,而不只是末端的一个动作标签,数据利用效率大幅提升;
第二,模型不仅能接受 expert demonstration,还能消化多样化的、甚至包含失败案例的数据,因为世界模型关注的是"世界如何演变",而不是"哪个动作是对的"。
WAM代表了目前最接近"理解世界并指导行动"的技术方向,但它有一个尚未被真正解决的核心缺陷:
视频与物理数据之间的模态对齐不足。
这个问题听起来技术,但背后的逻辑并不复杂。WAM 的训练数据由两部分组成:海量的视频数据,以及相对稀缺的物理数据(力、位置、轨迹等)。当这两种数据被直接混合在一起训练时,模型能从视频里学到"90%的概率能抓起杯子",却不知道为什么能抓起来。它建立的是相关性,而不是因果性。模型不理解"施力充足才能抓取、施力不足就会失败"这套因果机制,自然也无法在遇到新物体、新场景时做出可靠的物理判断。
更本质的问题是物理数据在现实中极度稀缺,而直接混合训练的方式效率极低。在数据量有限的条件下,暴力混训几乎无法让模型真正建立起对物理世界的因果理解,它只是在用海量视频的统计规律"压过"稀缺物理数据的信号。
04.
LiberAI 的切入点,正是从这道裂缝开始。
![]()
LiberAI 的创始人刘松铭将这个问题类比到多模态大模型的发展历史:
互联网上的文本数据海量,但图文配对数据极度稀缺。这和今天世界模型面临的“模态不平衡”困境一模一样,视频数据充足,但视频与物理信息的对齐配对极难获得。
多模态领域已经验证了解法:不是把图片和文字直接混在一起暴力训练,而是专门做一步模态对齐。
把不同来源的信息映射到同一个表示空间,让模型看到图像时能自动与文本产生关联,从而把跨模态问题转化为模型已经熟悉的领域。
LLaVA-1.5 的实践已经证明,这种对齐方式仅用 1/1000 的图文配对数据,就能达到当时的开源最高水平。
LiberAI深挖模态对齐“四两拨千斤”的价值,将其创新性应用到物理世界模型的架构设计与训练中。
现有方案跳过物理数据与视频数据的对齐,把各模态数据混混合在一起暴力训练。但多模态领域的历史经验表明,跳过对齐阶段直接进行联合训练,效率可相差 1000 倍,甚至导致不收敛。
而LiberAI通过独有的物理Encoder预训练,将力、位置、轨迹等物理模态信息对齐到已有的视频表示空间。
在完成模态对齐的基础上,Scaling 效率大幅提升,物理数据稀缺的问题被大幅缓解。少量的高质量物理数据,通过对齐机制就能激活模型在视频模态中已经积累的大量物理常识。
除了模态对齐,LiberAI 还引入了物理先验作为第二个核心武器。
当数据充足时,混合训练靠规模堆出结果尚可接受。但在物理数据极度稀缺的现实条件下,模型需要从近乎零开始学习物理因果,这个过程极为低效。引入物理先验,相当于在对齐阶段主动告诉模型物理世界的基本规律,大幅减轻其从零学习的负担,从而在数据有限的条件下显著提升 Scaling 效率。
![]()
05.
为什么别人没有先走这条路?
这个问题值得回答。原因或许有两个。
第一是硬件基础设施的限制。
这条路线高度依赖高质量物理动作数据的大规模获取。在早期阶段,行业内根本无法大规模采集物理数据,大多数团队的自然选择是强化学习——因为强化学习在初始阶段不需要海量现成数据就能启动。LiberAI 能走这条路,是因为在硬件设备规模化量产和真实数据采集网络上取得了早期突破,才有条件率先布局这一方向。
第二是高质量的物理动作数据难以采集。
采集这类数据从来都不是一个纯算法问题,传统遥操作方案成本高、难以规模化;轻量化的夹爪方案又与互联网人手视角视频存在模态不一致,知识迁移困难。真正能规模化采集高质量物理数据的方案,需要在硬件设计、传感器精度、数据漂移补偿上同步攻克,缺少任何一环都无法跑通。大多数团队卡在了这里,自然无法走上依赖高密度物理数据的对齐路线。
LiberAI 能率先布局,核心在于day0的全栈系统化战略,同步解决了数据采集的硬件与算法瓶颈,率先打通了这套采集闭环。
从视频生成到 3D 空间重建,从物理引擎到隐空间预测,世界模型的每一条路线都在逼近同一个终点:
让 AI 真正理解物理世界,并在其中可靠地行动。这场竞赛的决胜点,从来都不是谁能生成更逼真的画面,而是谁能在有限数据下,最高效地建立起对物理世界的因果理解。
这正是 LiberAI 选择的战场,通过模态对齐与物理先验的系统性引入,打造Scaling 曲线最陡峭的世界模型。而这,或许正是物理AGI走向GPT3时刻的那把钥匙。
![]()