忘记密码?
其他方式登录

近2亿美元!VAST完成新一轮融资,正式披露世界模型路线

2026年6月1日

VAST近期完成合计近2亿美元的A+及A++轮融资,领投方为渶策资本、国寿长三角科创基金。拿到这笔钱的同时,VAST也带来了他们最新的世界模型进展:Project Eden。区别于业内「动作条件视频生成」与「静态3D场景生成」等常规路径,Project Eden创造性地将底层状态推演与视觉呈现进行了原生解耦。

详细介绍

通用人工智能公司VAST,带来两个新消息:

一,完成近2亿美元的新一轮融资

二,终于正式对外披露自己的世界模型路线

VAST近期完成合计近2亿美元的A+及A++轮融资,领投方为渶策资本、国寿长三角科创基金。

投资方汇聚了头部市场化基金、国资平台与产业龙头战投,包括深圳市人工智能终端产业基金(产业方为全球头部终端厂商荣耀)、上海半导体产投等产业投资方,以及深创投、元生资本、沃赋创投与方广资本等一线财务资本。

同时,春华创投、靖亚资本、BV百度风投、东方嘉富等老股东亦持续超额追投。

这也是VAST继今年3月完成5000万美元A轮融资后,再度获得资本加持。

拿到这笔钱的同时,VAST也带来了他们最新的世界模型进展:Project Eden

区别于业内「动作条件视频生成」与「静态3D场景生成」等常规路径,Project Eden创造性地将底层状态推演与视觉呈现进行了原生解耦

AI 3D和世界模型,本就在同一条河流。VAST此番正式对外披露世界模型路线,也在情理之中。

VAST首席科学家曹炎培表示:

从第一天开始,VAST真正在做的,是解锁下一代互动内容的底层基础设施,也是为通用人工智能打造专属世界底座

整体路径分为两大阶段:第一步完成「造万物」;第二步实现「造世界」,为用户和智能体提供可演化、可试错的完整虚拟环境。

造万物,是用AI生成天然兼容工业管线的3D资产。

而造世界则再往前走一步:构建可以动态推演、多人实时交互、状态永久留存的世界。

Project Eden:全新世界模型技术路线

行业里流传着一个梗:「什么模型都可以叫世界模型」。

这并不全是在开玩笑,现在世界模型的技术路线纷繁复杂,每一家都有自己核心押注的bet。

Google DeepMind的Genie走的是单体视频模型路线,把空间、世界、交互、视角全部压缩进像素历史。

但镜头一旦移开,模型就不知道那个地方发生了什么。它缺乏独立的状态概念,想支持多玩家交互,在架构上几乎不可能。

「AI教母」李飞飞创立的World Labs,走的是另一条路。

Marble强调空间结构和几何一致性,从一张图就能生成持久的3D世界,空间感知做得不错。

但这条路剥离了时间维度和物理运行逻辑,目前还停留在静态3D场景的重建,缺乏时间维度上状态的变化和推演。

Yann LeCun力推的JEPA,主张在潜空间里维护内部状态进行推演。这与VAST在底层哲学上有一定一致性,但前者目前更多停留在学术纲领上。

VAST认为,一套合格的通用世界模型,必须同时解决两大核心命题,第一是定义世界当下的客观状态(State),第二是驱动世界持续自主演化(Transition)。

他们的最终目标是构造可交互的虚拟世界,这是一个能够支持多人交互、环境永久存在、随时可以重访的世界。

Project Eden的技术核心,是把底层状态推演与视觉呈现进行原生解耦

具体来说,系统分为三层。

底层是结构化状态层,维护着一个跨时间持续存在的全局世界状态。这个状态独立于相机视角,不管镜头转到哪里,世界的底层都在持续运转。

它是一种紧凑的隐式表征,记录着场景几何结构、物体身份属性和全局事件逻辑,计算效率有保证。

中间是条件接口层,作用是把底层3D状态,转化为特定视角下的语义和几何约束。

所有视角的渲染,都同源于同一个底层世界,物理一致性从架构层面就有保证,不是靠模型「猜」出来的。

上层是生成式渲染层,拿到状态约束之后,专注补全纹理、光照、材质和局部动态细节。

它不再需要盲猜画面结构,算力全部集中在渲染本身。

问题在于,为什么一定要把状态和渲染拆开,不能放在一个模型里一起训练?

曹炎培举了个例子:假设玩家按下灭火器,这个时候世界下一刻会发生什么?在一个紧凑的状态空间里推理这件事,给定足够的数据,其实并不复杂。

但如果把「状态预测」和「画面呈现」耦合在同一个模型里,两件事同时要考,不只要判断灭火器粉末喷出去了没有,还要保证喷出去的样子足够逼真,模型的负担会以指数级增加。

解耦之后,状态模型只负责推理「发生了什么」,渲染模型只负责呈现「看起来怎样」,两者都能做得更专、更准。

而支撑这套架构跑起来的,是两层数据策略。

L1是海量互联网视频自标注。

依托Tripo积累的3D基础模型能力,对互联网2D视频进行反向解构,提取深度、相机位姿与几何轨迹,把普通视频提炼成底层推演态和视觉渲染态都有的双态数据,给模型打下泛化底座。

互联网视频的体量是合成数据无法比拟的,这是L1能够持续scale的根本。

L2是引擎合成数据,负责精准。

游戏引擎天生就同时运行两种状态,是最天然的双态数据来源。

但如果靠人工录制,就算有1万台机器,也很难找1万个人坐在电脑前持续操作出足够多样的内容。

VAST的做法是让Agent在引擎环境里7×24小时不间断探索,自动录制带有精准3D状态标注的训练配对数据,帮模型学会严密的物理演变和控制逻辑。

三大能力与三大落地场景

得益于对状态的解耦,Project Eden跨过了单体视频模型的三座大山

第一,原生的环境持久化。

对象离开相机视锥之后,依然在底层状态中持续运转。

用户转回视角时,模型查询的是确定存在的客观状态,而不是靠历史帧重新生成,从而实现了长程记忆和一致性。

近2亿美元!VAST完成新一轮融资,正式披露世界模型路线

第二,场景自由复用与模块化。

传统视频世界模型是一镜到底的盲盒,时间线不可逆。

而Project Eden允许用户反复介入一个正在运转的底层世界状态,用户对场景的破坏、改造等操作被真实留存,后续进入者看到的是完全一致的结果。

同一个底层世界状态,支持反复介入与模块化搭建。无需重复生成场景,从而实现全域状态延续与高效复用。

第三,原生多玩家交互。

状态演化与渲染流程相互解耦后,单一底层世界可同时承载大量真人用户与AI智能体多并发在线交互。

如果是单体视频模型,处理多玩家时,每个视角各自维护一套像素历史,算力会随人数指数爆炸。

而Project Eden的底层状态被所有智能体共享并同步推演,系统只需根据各自坐标分别渲染多路画面,算力成本是线性可控的

真正的多人在线世界,在架构上第一次成立了。

这三大能力,也打开了两个方向的落地空间:

面向消费创作者,是AI原生沙盒平台。

它支持用户以自然语言或简易动作,一键创作可多人共享的互动数字世界,内容持续累积,不需要每次重新生成。

面向科研,则是具身智能的高质量仿真基座。

具备稳定物理逻辑、时序一致、可长期持久化的生成式世界,天然支持集群式智能体训练和多智能体协同研究。

近2亿美元!VAST完成新一轮融资,正式披露世界模型路线

曹炎培表示,VAST的愿景是,让每个人都能亲手创造、自由探索无数个可交互的世界。

Project Eden这个名字本身也很有意思,它来自于西方神话中的伊甸园。

《创世记》里,人类因偷食禁果被逐出伊甸园。

整个西方文明叙事的开端,就是一次人类的好奇心被惩罚——在创世之初,求知本身就要付出代价。

而Project Eden想要改写这个开端:世界可以拥有成千上万座花园,朝着无需批准的方向恣意生长,结出无数种果实,等待所有人采摘和品尝。

从造万物到造世界,这条路有根可循

正如曹炎培所说,从AI 3D到世界模型,其实是紧密相关的,可以分为两步走:从造万物到造世界。

李飞飞也曾指出,空间智能是机器在3D空间和时间中感知、推理和行动的能力,在她看来,AI发展必然迈向对三维世界的理解。

而谢赛宁和李飞飞的合作研究明确指出,空间推理对人类智能至关重要,视觉空间智能在现实世界的应用比以往任何时候都更近了。

3D能力,是世界模型绕不过去的地基。

问题是,谁在这条路上积累最深?

VAST必然榜上有名。它坐拥全世界最大的高质量原生3D数据集,旗下Tripo系列产品已成为全球使用最广泛的通用3D生成大模型之一。

其生态合作覆盖阿里巴巴、腾讯、字节、网易、上汽、拓竹、群核科技等头部企业,旗下Tripo Studio平台也已聚集超过2000万创作者。

过去三年,Tripo系列模型每一次迭代都成为全球行业标杆。

2026年3月正式上线的Tripo H3.1,以雕塑级几何细节刷新了AI 3D的精度天花板。

近2亿美元!VAST完成新一轮融资,正式披露世界模型路线

Tripo P1.0则是全球唯一能在数秒内输出生产级网格的3D大模型,较市面其他方案提速百倍,代际领先。

近2亿美元!VAST完成新一轮融资,正式披露世界模型路线

Tripo 8K 贴图是业内首款原生8K AI贴图算法,将过去资深贴图师需要3至5天才能完成的工作压缩至2分钟以内,单张边际成本近乎为零,3A渲染画质由AI原生呈现。

近2亿美元!VAST完成新一轮融资,正式披露世界模型路线

近2亿美元!VAST完成新一轮融资,正式披露世界模型路线

智能部件拆分Segmentation V2依托升级后的多模态3D结构理解模型,引入三档颗粒度控制,覆盖3D打印、游戏开发、精细模组等不同下游场景,「生成—分件—补全—打印」全流程被进一步压缩。

近2亿美元!VAST完成新一轮融资,正式披露世界模型路线

近2亿美元!VAST完成新一轮融资,正式披露世界模型路线

而在开源生态上,VAST已历经三季开源计划。

第一季与Stability AI联合开源TripoSR,将单图3D生成速度压缩至0.5秒级别。

第二季陆续释放TripoSG、TripoSF、UniRig、HoloPart等八大项目,UniRig稳坐全球3D自动绑骨开源方案标杆。

第三季聚焦动态互动内容,与清华大学联合开源TripoSplat(DeG)SkinTokens,与香港大学联合开源AniGen,从静态生成到可动资产,再到动态交互,脉络清晰。

近2亿美元!VAST完成新一轮融资,正式披露世界模型路线

近2亿美元!VAST完成新一轮融资,正式披露世界模型路线

三年累计对外开源项目超30个,覆盖从基础表征到生成管线的完整技术栈。

可以说,VAST是目前全球商业化落地最深的AI 3D公司之一。

VAST长期积累的深度估计、相机位姿、几何结构、多视角一致性能力,直接支撑了Project Eden的数据策略和架构设计。

从Tripo系列的3D生成,到Project Eden的状态与渲染解耦,这是一条逻辑连贯的技术演进路线。

曹炎培表示,推进世界模型的研发,也与他们从第一天开始就树立的「造世界」的目标完全吻合,是一个水到渠成的过程。

VAST背后的创始团队,也有着深厚的技术积累。

宋亚宸,创始人兼CEO,是一位97年的创始人。

他曾在商汤科技推动多个AI项目落地,参与创立通用大模型公司MiniMax。用他自己的话说,是「因为相信所以看见」的创业者。

梁鼎,CTO,清华大学本硕博,人工智能领域深耕十余年,发表论文50余篇,拥有100多项专利,累计引用上万次,曾任商汤科技通用模型负责人。

曹炎培,首席科学家,清华大学计算机系本科及博士,主导threestudio、TripoSR等开源项目累计获超15000 GitHub星标。

他曾联合创立Owlii后被快手收购,后任腾讯ARC实验室与AI Lab专家研究员,Dream3D、TGS等工作引领文生3D和图生3D方向,是国内生成式3D领域最具代表性的研究者之一。

VAST自己也清楚,还有两块硬骨头要啃。

一块是更高复杂度场景的物理演化:未来的世界底座,需要支持更丰富的物理动态、更广阔的自由视角,以及颗粒度更细的对象间交互。

另一块是状态的自主维护:完整的闭环需要一个强大的状态转移模型,能够完全根据智能体的交互行为与视觉观测,持续自监督地更新底层状态,不再依赖外部标注和引擎辅助。

这一步实现之后,世界才真正「活」起来。

通向世界模型的征程,才刚刚起步,技术路线远没有收敛。

而在起点,VAST就做了一个不跟随的选择,提出了一条全新的技术路线。

世界模型最终长什么样,没有人知道。但至少在这个起点上,VAST已经走出了自己的方向

文章来自于微信公众号 “量子位”,作者 “量子位”

联系方式

赞赏支持

累计赞赏 0 积分 0 人支持
登录后赞赏

💬 发表评论