近日,图灵奖得主、Meta前首席AI科学家杨立昆(Yann LeCun)接受了播客节目“Unsupervised Learning”主持人Jacob Effron的深度访谈。这次对话发生在一个特殊的时间节点:杨立昆刚刚离开工作了十年的Meta,创办了自己的AI公司AMI Labs。在ChatGPT引发的AI狂潮中,这位深度学习的奠基人却选择了一条与硅谷主流截然不同的道路,他公开质疑大语言模型的技术路线,认为这是通往通用人工智能的“死胡同”。

在长达两小时的对话中,杨立昆详细阐述了他的“异端”观点:为什么LLM存在根本性缺陷?什么是世界模型?为什么他认为整个行业将在2027年初意识到范式转换的必要性?他还首次披露了离开Meta的真实原因、Llama开源背后的内部博弈,以及他对AI安全争议的尖锐看法。
PART 01
LLM的本质局限:为什么自回归架构走不通?
杨立昆对大语言模型的批评并非出于学术傲慢,而是基于对其架构本质的深刻洞察。他指出,LLM的核心问题在于其自回归(autoregressive)的生成机制,这种机制天然地限制了系统的推理能力。
“当你让GPT-4解决一个需要30步推理的数学问题时,它会失败,”杨立昆在采访中直言不讳,“但如果你给它提供思维链(chain-of-thought)提示,让它逐步展示推理过程,成功率会显著提升。这说明了什么?说明模型本身并不具备真正的推理能力,它只是在模仿训练数据中见过的推理模式。”
这个观察揭示了LLM的根本矛盾:它们擅长模式识别和统计关联,但缺乏真正的逻辑推理能力。更关键的是,自回归架构的单向性使得模型无法进行迭代优化。每个token一旦生成就固定下来,无法根据后续推理结果进行回溯修正。这就像一个人在解题时不允许擦除重写,只能一路向前,这显然不是人类思考的方式。
杨立昆进一步指出,即使通过提示工程让LLM生成更长的推理链,也会遇到不可逾越的成本障碍。“如果一个复杂问题需要生成10000个token来推理,这在计算成本上完全不可行,”他计算道,“而且token越多,累积误差越大,最终结果的可靠性反而下降。”
这种架构局限在实际应用中已经显现。尽管OpenAI推出了o1等“推理模型”,试图通过更长的思维链来增强推理能力,但杨立昆认为这只是在现有范式内的修补,并未触及根本问题。“你不能通过堆砌更多token来获得真正的推理能力,就像你不能通过让鹦鹉说更多话来让它理解语言一样。”
PART 02
世界模型的起点是视觉,不是语言!
杨立昆提出的替代方案是“世界模型”(World Model),一个能够理解物理世界运作规律、进行预测和规划的AI系统。这个想法的灵感来自对人类和动物智能的观察。
“人类婴儿在学会说话之前,就已经通过观察世界积累了大量关于物理规律、因果关系的知识,”杨立昆解释道,“一个四岁孩子通过视觉观察获得的信息量,相当于50万年的文本阅读量。这说明视觉学习的效率远高于语言学习。”
这个对比揭示了当前AI研究的一个根本性偏差:我们过度依赖语言数据,而忽视了更丰富、更基础的感知学习。语言是人类智能的高级表现形式,但并非智能的基础。动物没有语言,却能进行复杂的规划和决策,这说明智能的核心在于对世界的理解,而非语言操作能力。

杨立昆设想的AI架构是分层的:底层是世界模型,负责理解和预测世界状态的演变;中层是推理和规划模块,基于世界模型进行目标导向的决策;顶层才是语言交互界面,用于与人类沟通。在这个架构中,语言只是表层工具,真正的智能来自对世界的深层理解。
“想象一个机器人需要完成一个它从未见过的任务,比如用特定方式摆放一组物体,”杨立昆举例说,“如果它只有语言模型,它会尝试在训练数据中寻找类似的指令模式。但如果它有世界模型,它可以在脑海中模拟不同的操作序列,预测每个动作的结果,然后选择最优方案。这才是真正的智能。”
PART 03
JEPA架构:在抽象空间中预测未来
为了实现世界模型,杨立昆团队开发了一种名为JEPA(Joint Embedding Predictive Architecture)的新架构。这是对传统生成式模型的根本性改造。
传统的视频预测模型试图预测下一帧的每一个像素,这在计算上极其昂贵,而且容易陷入无关细节。“如果我给你看一段视频的前几帧,让你预测接下来会发生什么,你不会去预测每个像素的RGB值,”杨立昆解释道,“你会预测高层次的语义信息,比如那个人会转身或球会落地。”
JEPA的核心思想是在抽象的表示空间(representation space)中进行预测,而非像素空间。系统首先将输入编码为高层次的语义表示,然后预测这些表示在未来的演变,最后可以选择性地将预测解码回像素空间。
这种方法有几个关键优势:首先,它大幅降低了计算成本,因为抽象表示的维度远低于像素空间;其次,它迫使模型学习真正重要的语义特征,而非表面的统计相关性;第三,它更接近人类的认知方式,我们理解世界是通过概念和关系,而非像素级的细节。
但JEPA面临一个技术难题:如何防止表示空间“坍缩”(collapse)?如果没有适当的约束,编码器可能会学习将所有输入映射到同一个无信息的表示,从而使预测变得trivial。杨立昆团队正在探索多种正则化技术,包括最大化编码器输出的信息熵,以及使用对比学习的变体。
“我们最近发表了几篇论文,提出了显式的正则化器来防止坍缩,”杨立昆说,“基本思想是最大化编码器输出的信息内容。挑战在于,信息量是很难直接测量的,我们只能计算它的上界或下界。”
PART 04
FAIR坚持研究成果必须公开
2013年,杨立昆在Meta(当时的Facebook)创立了FAIR(Facebook AI Research),这是科技公司中少有的纯研究机构。他坚持的原则是:研究成果必须公开发表,研究人员可以自由选择课题,不受产品开发的直接压力。
“我们发表了超过1000篇论文,培养了大量AI人才,其中很多人后来成为了领域的领军人物,”杨立昆回顾道。FAIR的开放文化吸引了顶尖研究者,也为整个AI社区贡献了大量基础研究成果,包括PyTorch框架、各种计算机视觉模型、以及自监督学习的多项突破。

但随着2022年Alex Krakowski加入Meta并主导AI战略,情况发生了变化。公司开始全力押注大语言模型,推出了Llama系列。杨立昆澄清,他对Llama的技术开发“零贡献”,他的唯一贡献是力推Llama 2的开源。
“内部有过激烈的辩论,”他回忆道,“法务部门担心法律风险,政策部门担心滥用问题,产品团队担心竞争优势流失。但我和Andrew Bosworth都坚持认为,开源Llama 2会jumpstart整个AI产业,最终对Meta也是有利的。事实证明我们是对的,Llama成为了开源AI的事实标准,Meta也因此在AI社区获得了巨大的影响力。"
然而,组织重心的转移也带来了深层张力。当公司将大部分资源投向LLM产品化时,基础研究的空间被压缩。更重要的是,杨立昆对LLM技术路线的根本性质疑,与公司的战略方向产生了冲突。
“我不认为LLM是通往AGI的道路,”杨立昆直言,“但公司需要在短期内交付产品,需要跟上竞争对手的步伐。这是可以理解的商业决策,但这不是我想做的研究。”
这种张力最终促使杨立昆在2024年决定离开Meta,创办自己的公司AMI(Advanced Machine Intelligence)。“我在Meta度过了非常充实的十年,但现在是时候追求我真正相信的技术方向了,”他说。
PART 05
AMI的使命:为真实世界构建AI
AMI的使命很明确:开发基于世界模型的新一代AI系统,专注于“真实世界的AI"(AI for the real world)。杨立昆组建了一支约30人的精英团队,其中包括多位从Meta、Google等公司追随他而来的资深研究者。
“我们不会去做另一个LLM,”杨立昆明确表示,“市场上已经有足够多的LLM了,而且坦率地说,我不认为这是正确的方向。我们要做的是真正能够理解物理世界、进行规划和推理的AI系统。”
AMI的技术路线图分为几个阶段。短期内(1—2年),团队将专注于在受控环境中验证JEPA架构的有效性,比如机器人操作、视频理解等任务。中期目标(3—5年)是构建能够在复杂真实环境中运作的世界模型。长期愿景则是实现真正的通用人工智能,不是通过语言操作,而是通过对世界的深层理解。
“我们的第一个里程碑是在一年内展示一个能够在抽象表示空间中进行有效预测的系统,”杨立昆透露,“这听起来很技术化,但它是整个架构的基础。如果我们能证明JEPA在这个层面上work,后续的扩展就会容易得多。”
杨立昆也承认,这条路线充满挑战。“我们在做的事情,在短期内不会有ChatGPT那样的爆炸性效果,”他坦言,“但我相信,如果我们想要真正的AI,能够在真实世界中可靠运作、能够进行复杂推理、能够适应新情况的AI,我们必须走这条路。”
PART 06
开源之战:为什么AI不能成为少数巨头的专利?
除了技术路线,杨立昆对AI产业的另一个重要主张是开源。他认为,AI系统,尤其是基础模型,应该是开放的公共基础设施,而非少数公司的专有资产。
“想象一下,如果互联网协议是专有的,如果HTTP、TCP/IP都是某家公司的专利,互联网会是什么样子?”杨立昆反问道,“AI基础模型应该像互联网协议一样,是开放的、可定制的、属于所有人的。"
他特别强调了AI主权的重要性。“世界上有很多国家,既不是美国也不是中国,他们绝对需要某种程度的AI主权,”杨立昆说,“不仅是为了产业竞争,更是为了文化和价值观的多元化。你不能让全世界的AI助手都由加州或北京的价值观训练出来。”
这种观点在当前的AI安全辩论中颇具争议。一些研究者和政策制定者认为,开源强大的AI模型会带来安全风险。但杨立昆坚决反对这种“AI末日论”。
“那些声称AI会毁灭人类的人,要么是真的相信这一点,那他们需要看心理医生,要么是在制造恐慌来推动监管,那他们是在玩政治游戏,”杨立昆毫不客气地说,“历史上每一次技术革命都有人预言世界末日,但人类总是找到了管理新技术的方法。”
他认为,真正的AI安全来自透明和多元化,而非封闭和集中控制。“如果只有少数公司掌握AI技术,那才是真正的风险,”他指出,“开源让更多人能够审查、改进、定制AI系统,这才是长期安全的保障。”
PART 07
规模法则的终结:为什么“更大”不等于“更智能”
杨立昆与硅谷AI主流的分歧,不仅是技术路线之争,更是关于智能本质的哲学之辩。
当前的AI产业被一种“规模法则”(scaling laws)的信仰所主导:只要有足够的数据、足够的算力、足够大的模型,就能实现AGI。OpenAI、Anthropic等公司都在这条路上狂奔,不断刷新模型规模的纪录。

但杨立昆对此深表怀疑。“规模法则在一定范围内是有效的,但它不是万能的,”他说,“你不能通过简单地扩大规模来解决架构的根本性缺陷。这就像你不能通过造更大的飞艇来达到飞机的速度,你需要不同的原理。”
他引用了Geoffrey Hinton的一个计算来说明问题。Hinton曾估算,人类大脑皮层大约有160亿个神经元,如果考虑到生物神经元与人工神经元的效率差异,可能需要10个生物神经元才能等效于一个反向传播神经元,那么人脑的“等效规模”大约是16亿参数。
“按这个逻辑,GPT-4已经超过了人脑的规模,那它应该和人一样聪明了吧?”杨立昆反问道,“但显然不是。这说明什么?说明智能不仅仅是参数数量的问题,架构和学习机制同样重要,甚至更重要。”
这种分歧也体现在对AI能力的评估上。当OpenAI宣称o1模型在某些推理任务上达到“博士水平”时,杨立昆的反应是skeptical。“这些benchmark往往测试的是模式匹配能力,而非真正的推理,”他指出,“一个系统能够解决训练分布内的问题,不代表它具备泛化到全新情况的能力。”
PART 08
临界点:一场即将到来的范式革命
在采访的最后,杨立昆描绘了他对AI未来的愿景。他认为,未来的AI系统将是模块化的、分层的,而非当前的单一大模型。
“底层是世界模型,它理解物理规律、因果关系、常识知识,”他说,“中层是推理和规划模块,它基于世界模型进行目标导向的决策。顶层是各种任务特定的模块,包括语言交互、视觉感知、运动控制等。LLM可能会在顶层占有一席之地,作为语言接口,但它不会是整个系统的核心。"
这种架构的优势在于灵活性和可靠性。不同的模块可以独立训练和优化,系统可以根据任务需求动态组合不同的能力。更重要的是,世界模型提供了一个“现实检验”机制,系统可以在执行动作前模拟其后果,从而避免灾难性错误。
“当前的LLM是盲目的,”杨立昆比喻道,“它们不知道自己在说什么,不能预测自己的输出会产生什么后果。这就是为什么它们会产生幻觉,会给出危险的建议。有了世界模型,系统可以看到自己行动的后果,这从根本上改变了可靠性。”
对于时间表,杨立昆保持谨慎乐观。“我不会承诺五年内实现AGI,那是不负责任的,”他说,“但我相信,在未来十年内,我们会看到基于世界模型的AI系统在真实世界任务中展现出远超当前LLM的能力。”
PART 09
结语:一场豪赌还是必然之路?
杨立昆的选择无疑是一场豪赌。在整个产业都在LLM的道路上狂奔时,他选择了一条更艰难、更不确定的路线。他放弃了Meta的资源和平台,组建了一个小团队,去追求一个可能需要十年才能验证的技术愿景。
但从另一个角度看,这也许是必然之路。AI的历史充满了范式转换,从符号主义到连接主义,从浅层网络到深度学习,每一次突破都来自对主流范式局限的深刻反思。当前的LLM范式已经展现出明显的天花板,也许正是需要新范式的时候。
无论结果如何,杨立昆的探索都将为AI领域提供宝贵的洞见。如果他成功了,我们将见证AI发展的又一次范式转换;如果他失败了,我们也将更深刻地理解智能的本质和实现路径。
在这个AI狂热的时代,我们需要更多像杨立昆这样的思考者,不盲从潮流,不追逐短期利益,而是坚持对真理的探索。这才是推动科学进步的真正力量。