剑桥团队放大招:AI Agent一天生成10000个3D模型,还能自己动?

2026-05-2210000协作机器人具身智能人工智能(AI)

一个AI系统,24小时内生成超过1万个可活动的3D模型,这是剑桥大学和牛津大学研究团队刚刚发布的研究成果,他们开发的Articraft系统,让大语言模型直接写代码来构建3D物体。不需要Blender这类专业建模软件,不需要反复调用图像生成模型,就能批量产出从笔记本电脑到无人机、从剪刀到机械臂的各种可动模型。更关键的是,这些模型不是静态摆设,铰链能转、抽屉能拉、机械臂能伸缩。

Image
 

 

 

PART 01

给LLM配上专业建模工具包

 

现有的3D生成方法大多依赖扩散模型或神经辐射场,但这些方法在处理可活动物体时遇到了瓶颈。它们要么只能生成静态模型,要么需要大量人工标注的训练数据。

Image
 

Articraft的思路完全不同。研究团队给大语言模型准备了一套专门的编程接口(SDK),包含创建几何体、定义关节、设置运动约束等功能。LLM拿到物体描述后,直接调用这些接口写出Python代码,代码运行后就生成了完整的3D模型。

Image
 

这套SDK基于Trimesh和PyBullet构建,前者负责几何建模,后者处理物理仿真。整个流程不依赖外部图形软件,推理成本被压到了极低水平,生成一个模型平均只需1.97美元,耗时几分钟。

系统的工作流程分为三个阶段。首先是规划阶段,LLM分析输入的物体描述,确定需要哪些部件、它们之间如何连接、运动范围是多少。比如生成一个笔记本电脑,它会规划出屏幕、键盘底座、铰链三个主要部分。

Image
 

接着进入实现阶段,LLM调用SDK编写代码。它会创建每个部件的几何形状,定义铰链的位置和旋转轴,设置屏幕的开合角度限制。代码写完后自动执行,生成初步的3D模型。

最后是验证和修复阶段。系统会检查模型是否符合物理规律——部件之间有没有穿模、关节能不能正常运动、重心是否合理。如果发现问题,LLM会分析错误信息并修改代码,这个过程可能迭代多次直到通过所有检查。

研究团队特别设计了一套轻量级的验证机制。直接在代码层面做几何和物理检查,大幅降低了计算开销。

 

PART 02

用户研究:42%的测试样例排名第一

 

研究团队从PartNet-Mobility数据集的46个类别中各选5个提示词,构建了一个包含230个测试样例的基准。他们把Articraft和四个代表性方法做了对比:Articulate-Anything、PhysX-Anything、URDF-Anything+,以及OpenAI的Codex。

Image
 

用户研究的结果相当明显。在所有测试样例中,42%的情况下Articraft(GPT-5.5版本)被评为最佳,28%排第二。相比之下,直接用GPT-5.5不加任何领域适配的Codex表现垫底,只有10%的样例排进前三。

这个对比说明了什么?光有强大的LLM还不够,必须给它配上合适的工具和工作流程。Articraft提供的专用SDK和验证机制,让LLM的代码生成能力真正落地到3D建模这个专业领域。

研究团队还测试了不同基础模型的表现。他们用同一个提示词"紧凑型折叠四旋翼无人机",分别让GPT-5.5、Gemini 3.1 Pro和Claude Opus 4.7生成模型。三个模型都正确恢复了运动结构,但GPT-5.5生成的视觉细节最丰富,有78个可视元素,而Gemini和Claude的几何形状更简单。

推理强度主要影响几何细节的丰富程度。同样是生成折叠无人机,低强度产出39个可视元素,中等强度51个,高强度78个。但运动结构本身没有差异,说明LLM在理解物体功能和规划关节方面已经相当稳定。

 

PART 03

批量生产:10K数据集覆盖245个类别

 

有了这套系统,研究团队做了一件更大胆的事,批量生产3D模型数据集。

他们从多个来源收集了10909个物体描述,涵盖日常用品、工具、家具、电子设备、交通工具等245个类别。用Articraft跑了一遍,生成了10909个模型。然后人工评审,按照几何真实性、运动合理性、物理约束三个维度打分,最终筛选出10018个高质量模型,通过率91.8%。

这就是Articraft-10K数据集。它的规模是现有最大可活动3D数据集PartNet-Mobility的近6倍,类别覆盖面也远超后者的46个。

Image
 

数据集不是为了堆数字。研究团队用它训练了Particulate模型,一个从单张图片估计3D物体关节结构的神经网络。在Lightwheel基准测试上,用Articraft-10K增强训练数据后,模型的分割精度从0.332提升到0.394,部件完整度从0.168降到0.144(越低越好),关节几何精度从0.305涨到0.361。

Image
 

研究团队详细记录了使用不同模型的成本。GPT-5.5高推理强度模式下,生成一个模型平均花费1.97美元;中等强度1.08美元;低强度0.60美元。Gemini 3.1 Pro最贵,达到3.14美元,而Claude Opus 4.7是1.37美元。

Image
 

值得注意的是,即使是最便宜的配置,Articraft的生成质量仍然超过了需要外部渲染和图像反馈的传统方法。这验证了研究团队的核心假设:对于可活动3D物体生成,代码是比像素更高效的表示形式。

 

PART 04

机器人仿真和游戏开发的新可能

 

Articraft生成的模型直接兼容主流机器人仿真平台。研究团队演示了几个应用场景:在Isaac Sim中导入生成的机械臂模型进行抓取任务仿真;在MuJoCo中测试四足机器人的步态;用生成的家具模型构建室内导航环境。

这些模型包含完整的物理参数——质量、惯性、摩擦系数、关节阻尼,可以直接用于强化学习训练,不需要额外的物理标注工作。

游戏开发是另一个潜在应用方向。传统游戏美术流程中,可交互物体的建模和绑定非常耗时。Articraft能快速生成大量可动道具,虽然视觉精度还达不到AAA游戏的标准,但对于独立游戏或原型开发已经足够。

研究团队还展示了一个有趣的用例:生成训练数据来改进视觉感知模型。他们用Articraft生成的模型渲染出大量带标注的图像,用于训练物体姿态估计网络,在真实场景测试中取得了不错的泛化效果。

Articraft目前还有一些明显的限制。生成的模型在视觉细节上比不过专业美术师手工建模,表面纹理、材质、光照效果都比较基础。对于需要高精度几何的应用场景,比如工业设计或医疗器械,现有输出质量还不够。

系统对复杂机械结构的处理也不够稳定。当物体包含多级传动、齿轮组或连杆机构时,LLM有时会在运动学约束上出错。研究团队在论文中提到,大约8.2%的生成结果因为严重的物理违规被过滤掉。

另一个问题是生成的随机性。同一个提示词多次运行,得到的模型在几何细节和部件数量上可能差异很大。这对需要精确控制输出的应用来说是个挑战。

研究团队指出了几个改进方向:引入多模态反馈机制,让系统能参考真实物体的图片或视频;增强对材质和纹理的建模能力;支持更复杂的物理约束,比如弹簧、绳索、流体。

 

PART 05

结语与未来

 

从更长远看,这项工作展示了一种新的3D内容生成范式。与其训练一个端到端的神经网络去拟合3D数据分布,不如让LLM学会使用专业工具。这个思路可能适用于更多需要结构化输出的生成任务,建筑设计、电路布局、分子结构,任何能用代码精确描述的领域。

论文和代码已经在articraft3d.github.io公开,Articraft-10K数据集也会开放下载。

论文地址:https://arxiv.org/pdf/2605.15187

项目地址:https://articraft3d.github.io/