EN

AG真人app

AG真人APP

AG真人·国际(中国)官方网站 刚刚,李飞飞亲身下场界说宇宙模子

发布日期:2026-06-04 20:14 来源:未知 作者:admin 浏览次数:

宇宙模子火,火到都有点乱了。

单单一个界说,就越来越众说纷纭:视频生成模子不错是宇宙模子,能生成游戏的话语模子也被叫宇宙模子,还有东说念主把物理引擎也塞进这个筐里……

乱,乱得李飞飞本东说念主都有点看不下去了。刚刚,她亲身撰文,给宇宙模子来了个领略的功能分类。

用词绝不客气:宇宙模子是现时东说念主工智能领域最进攻也最被花费的术语之一。

古希腊东说念主无法就宇宙的组成已矣共鸣,因为"宇宙"从来不是一个单一的实体。东说念主工智能也禁受了相同的问题,而此时,这个领域恰好最需要的便是精确性。

至少,要先分清三件事:

渲染、模拟、缠绵。

话未几说,赶快一皆来作念条记。

宇宙模子的三大功能

李飞飞当先拆析了宇宙模子的本领真义。

智能体(东说念主、机器东说念主或系统)会采选步履,这些步履会影响宇宙的景色。

所谓"景色",是对某一特定时刻宇宙所发生的一切的完整描写,包括每一个物体、每一个位置、每一个速率和每一个属性。

不雅察是主体对这种宇宙的客不雅确实的局部感知。步履是主体对这种确实的回话。

主体→步履→景色→不雅察→复返,赋予了"宇宙模子"以本领真义。现在被称为宇宙模子的多样事物,本色上是统一个轮回的不同投射。

具体到功能上,李飞飞以为,宇宙模子具有渲染、模拟、缠绵三大功能。

其中,模拟器取得关心最少,但最要害,是阿谀渲染和缠绵的桥。

渲染器

渲染器输出给东说念主看的不雅察末端,中枢方针是视觉保真度。

谷歌的 Genie 3,以及李飞飞自家 World Labs 的 RTFM,都属于渲染器。

这些模子本人并不具备对三维结构的明确意会。它生成的是不雅众看到的画面,而不是本色存在的画面。

比如,AI 生成的无东说念主机航拍镜头中,建筑物从空中俯视可能竣工无瑕,但若是你开车穿过底下的城市,就会发现它们摇摇欲坠。

李飞飞以为,渲染器是现时交易上最熟悉的本领。比如 Nano Banana,便是风靡寰球的代表。

局限性在于,渲染器优化的是视觉上的传神度,而非物理上的精确度。其输出末打量配吸睛,但无法用于建筑遐想或机器东说念主西宾这么与实践宇宙结合更概括的场景。

缠绵器

缠绵器输入不雅察和主义,输出下一步动作。

VLA 模子和新一代宇宙动作模子都属于缠绵器,这些系统决定了机器东说念主在非结构化宇宙中应该作念什么。

缠绵器最迷惑东说念主,也最具发展后劲。具身智能就与此概括关连,而普遍热钱也正在涌入这一门径。

但李飞飞指出,连年来好多令东说念主印象深刻的机器东说念主演示,都局限于高度受限的实验室环境,主义对象范围忐忑,任务周期短,无法在真实宇宙部署所需的复杂性、可变性和执续时辰下进行考据。

模拟器

模拟器输出可忖度、可交互的景色,AG真人·国际(中国)官方网站强调几何、物理、动态一致性。

模拟器要求几何结构经得起西宾,在物理上相宜物理定律,其能源学步履相宜宇宙运行的边幅。

模拟器同期办事于两个用户群体:

建筑师、遐想师、电影制作主说念主和游戏建立者等专科东说念主士需要卓著视觉传神性的精确度。

强化学习智能体、机器东说念主限度器和自动驾驶等领域则将模拟器算作西宾场,以大领域地与宇宙交互,测试那些在实践中危机、不菲或不行能运行的场景。

李飞飞以为,模拟是阿谀渲染和缠绵的桥梁。

若是说话语是对宇宙的抽象,像素是对宇宙的投影,那么几何、物理和能源学便是宇宙本人。

而模拟器,恰是视觉外不雅(关于渲染器而言)和动作成果(关于缠绵器而言)得以生成的结构骨架。

仿真模子不错将自身的意会转变为像素图像供东说念主类使用,并瞻望实体智能体的步履。机器东说念主西宾、自动驾驶测试、建筑可视化、工程遐想和药物研发等都依赖于某种仿真本领。

其交易利用出息极其广大,比如英伟达的 Omniverse 平台,就对准了这一超万亿好意思元的潜在商场。

问题在于,能用来西宾模子器的数据太少了:具有明确几何体式、材料属性和物理标注的三维数据比渲染器西宾所用的互联网视频少几个数目级。

模拟本人就与实践存在互异,而生成式模拟器还引入了新的风险:AI 生成的东西可能看起来正确,但细究起来又有好多不相宜物理的所在。

大领域多物理场模拟(刚体、可变形物体、流体、布料相互作用……)的老本更是比单域模拟跨越几个数目级。

World Labs 自家产物 Marble 旨在破裂模拟门径的瓶颈:它相沿文本、图像、视频或空间草图等多模态输入,生成可探索 3D 环境,并输出 Gaussian splats 和可供物理引擎操作的碰撞网格。

尊龙凯时中国官网入口

但李飞飞也强调:Marble 只是是这一领域漫长发展流程的开赴点。

界限正在消融

李飞飞在这篇著作中的另一个要害不雅点是:三类模子正在相互交融。

渲染一个宇宙、模拟一个宇宙、在一个宇宙中步履,所需要的学问,在很猛进度上是统一套学问。

举个例子:

若是一个模子真实意会一个杯子是何如放在桌子上的,包括其几何结构、材料属性、受力响应等等,那么它就应该好像从随便角度渲染这个杯子,模拟杯子被激动时发生什么,并缠绵一只手何如把它提起来。

这三类身手,其实是对统一种底层意会的三种投影。

近期询查仍是剖判,至少在意见上,一个预西宾视频渲染器不错算作合资宇宙瞻望和步履瞻望的主干收集。

这暗意了渲染器和缠绵器之间的一座桥梁:

让统一个模子既瞎想接下来会发生什么,也瞎想接下来应该作念什么。

Marble 从单个模子中同期输出 Gaussian splats 和碰撞网格,便是渲染器和模拟器之间界限消融的一个体现。

每一个层级都在从被迫输出,走向交互系统。渲染器正在变得以步履为条目。模拟器正在生成更可控、更可裁剪的宇宙。缠绵器则正在从单纯响应,走向真实的审慎念念考。

这个逻辑绝顶,是一个统一的宇宙模子——

一个基础模子,既好像渲染相片级真实的视图,也能生成物理准确的结构,并缠绵步履序列。

中枢的挑战仍然是数据。

渲染器领有海量互联网视频,但模拟器和缠绵器却严重缺少 3D 钞票和机器东说念主演示数据。

追求视觉好意思感,可能会葬送机器东说念主或高保真模拟所需要的精度。如安在单一架构中调处这些矛盾,是今天宇宙模子询查最中枢的洞开问题。

但李飞飞乐不雅地长远:标的仍是很明晰了。

三条蓝本相互孤苦的询查陈迹,如今各自仍是驱动并塑造了数十亿好意思元级别的产业。而现在,它们开动发扬得像统一件事。

当它们的界限共同塌缩,这种变化将重塑一个更大的问题:机器智能,和它所处的物理宇宙之间的关系。

这便是空间智能的漫长曲线。话语给了机器一种驳倒宇宙的边幅,而宇宙模子,将是机器最终意会、瞎想、推理并与宇宙互动的边幅。

原文聚积:

https://x.com/drfeifei/status/2062247238143996275

—  接待 AI 产物从业者共建  —

� �「AI 产物学问库」是量子位智库基于永恒产物库跟踪和用户步履数据推出的飞书学问库,旨在成为 AI 行业从业者、投资者、询查者的中枢信息要害与有谋略相沿平台。

一键关心 � � 点亮星标

科技前沿进展逐日见AG真人·国际(中国)官方网站