近2亿美元！VAST完成新一轮融资，正式披露世界模型路线

2026年6月1日

VAST近期完成合计近2亿美元的A+及A++轮融资，领投方为渶策资本、国寿长三角科创基金。拿到这笔钱的同时，VAST也带来了他们最新的世界模型进展：Project Eden。区别于业内「动作条件视频生成」与「静态3D场景生成」等常规路径，Project Eden创造性地将底层状态推演与视觉呈现进行了原生解耦。

详细介绍

通用人工智能公司VAST，带来两个新消息：

一，完成近2亿美元的新一轮融资；

二，终于正式对外披露自己的世界模型路线。

VAST近期完成合计近2亿美元的A+及A++轮融资，领投方为渶策资本、国寿长三角科创基金。

投资方汇聚了头部市场化基金、国资平台与产业龙头战投，包括深圳市人工智能终端产业基金（产业方为全球头部终端厂商荣耀）、上海半导体产投等产业投资方，以及深创投、元生资本、沃赋创投与方广资本等一线财务资本。

同时，春华创投、靖亚资本、BV百度风投、东方嘉富等老股东亦持续超额追投。

这也是VAST继今年3月完成5000万美元A轮融资后，再度获得资本加持。

拿到这笔钱的同时，VAST也带来了他们最新的世界模型进展：Project Eden。

区别于业内「动作条件视频生成」与「静态3D场景生成」等常规路径，Project Eden创造性地将底层状态推演与视觉呈现进行了原生解耦。

AI 3D和世界模型，本就在同一条河流。VAST此番正式对外披露世界模型路线，也在情理之中。

VAST首席科学家曹炎培表示：

从第一天开始，VAST真正在做的，是解锁下一代互动内容的底层基础设施，也是为通用人工智能打造专属世界底座。

整体路径分为两大阶段：第一步完成「造万物」；第二步实现「造世界」，为用户和智能体提供可演化、可试错的完整虚拟环境。

造万物，是用AI生成天然兼容工业管线的3D资产。

而造世界则再往前走一步：构建可以动态推演、多人实时交互、状态永久留存的世界。

Project Eden：全新世界模型技术路线

行业里流传着一个梗：「什么模型都可以叫世界模型」。

这并不全是在开玩笑，现在世界模型的技术路线纷繁复杂，每一家都有自己核心押注的bet。

Google DeepMind的Genie走的是单体视频模型路线，把空间、世界、交互、视角全部压缩进像素历史。

但镜头一旦移开，模型就不知道那个地方发生了什么。它缺乏独立的状态概念，想支持多玩家交互，在架构上几乎不可能。

「AI教母」李飞飞创立的World Labs，走的是另一条路。

Marble强调空间结构和几何一致性，从一张图就能生成持久的3D世界，空间感知做得不错。

但这条路剥离了时间维度和物理运行逻辑，目前还停留在静态3D场景的重建，缺乏时间维度上状态的变化和推演。

Yann LeCun力推的JEPA，主张在潜空间里维护内部状态进行推演。这与VAST在底层哲学上有一定一致性，但前者目前更多停留在学术纲领上。

VAST认为，一套合格的通用世界模型，必须同时解决两大核心命题，第一是定义世界当下的客观状态（State），第二是驱动世界持续自主演化（Transition）。

他们的最终目标是构造可交互的虚拟世界，这是一个能够支持多人交互、环境永久存在、随时可以重访的世界。

Project Eden的技术核心，是把底层状态推演与视觉呈现进行原生解耦。

具体来说，系统分为三层。

底层是结构化状态层，维护着一个跨时间持续存在的全局世界状态。这个状态独立于相机视角，不管镜头转到哪里，世界的底层都在持续运转。

它是一种紧凑的隐式表征，记录着场景几何结构、物体身份属性和全局事件逻辑，计算效率有保证。

中间是条件接口层，作用是把底层3D状态，转化为特定视角下的语义和几何约束。

所有视角的渲染，都同源于同一个底层世界，物理一致性从架构层面就有保证，不是靠模型「猜」出来的。

上层是生成式渲染层，拿到状态约束之后，专注补全纹理、光照、材质和局部动态细节。

它不再需要盲猜画面结构，算力全部集中在渲染本身。

问题在于，为什么一定要把状态和渲染拆开，不能放在一个模型里一起训练？

曹炎培举了个例子：假设玩家按下灭火器，这个时候世界下一刻会发生什么？在一个紧凑的状态空间里推理这件事，给定足够的数据，其实并不复杂。

但如果把「状态预测」和「画面呈现」耦合在同一个模型里，两件事同时要考，不只要判断灭火器粉末喷出去了没有，还要保证喷出去的样子足够逼真，模型的负担会以指数级增加。

解耦之后，状态模型只负责推理「发生了什么」，渲染模型只负责呈现「看起来怎样」，两者都能做得更专、更准。

而支撑这套架构跑起来的，是两层数据策略。

L1是海量互联网视频自标注。

依托Tripo积累的3D基础模型能力，对互联网2D视频进行反向解构，提取深度、相机位姿与几何轨迹，把普通视频提炼成底层推演态和视觉渲染态都有的双态数据，给模型打下泛化底座。

互联网视频的体量是合成数据无法比拟的，这是L1能够持续scale的根本。

L2是引擎合成数据，负责精准。

游戏引擎天生就同时运行两种状态，是最天然的双态数据来源。

但如果靠人工录制，就算有1万台机器，也很难找1万个人坐在电脑前持续操作出足够多样的内容。

VAST的做法是让Agent在引擎环境里7×24小时不间断探索，自动录制带有精准3D状态标注的训练配对数据，帮模型学会严密的物理演变和控制逻辑。

三大能力与三大落地场景

得益于对状态的解耦，Project Eden跨过了单体视频模型的三座大山。

第一，原生的环境持久化。

对象离开相机视锥之后，依然在底层状态中持续运转。

用户转回视角时，模型查询的是确定存在的客观状态，而不是靠历史帧重新生成，从而实现了长程记忆和一致性。

近2亿美元！VAST完成新一轮融资，正式披露世界模型路线

第二，场景自由复用与模块化。

传统视频世界模型是一镜到底的盲盒，时间线不可逆。

而Project Eden允许用户反复介入一个正在运转的底层世界状态，用户对场景的破坏、改造等操作被真实留存，后续进入者看到的是完全一致的结果。

同一个底层世界状态，支持反复介入与模块化搭建。无需重复生成场景，从而实现全域状态延续与高效复用。

第三，原生多玩家交互。

状态演化与渲染流程相互解耦后，单一底层世界可同时承载大量真人用户与AI智能体多并发在线交互。

如果是单体视频模型，处理多玩家时，每个视角各自维护一套像素历史，算力会随人数指数爆炸。

而Project Eden的底层状态被所有智能体共享并同步推演，系统只需根据各自坐标分别渲染多路画面，算力成本是线性可控的。

真正的多人在线世界，在架构上第一次成立了。

这三大能力，也打开了两个方向的落地空间：

面向消费创作者，是AI原生沙盒平台。

它支持用户以自然语言或简易动作，一键创作可多人共享的互动数字世界，内容持续累积，不需要每次重新生成。

面向科研，则是具身智能的高质量仿真基座。

具备稳定物理逻辑、时序一致、可长期持久化的生成式世界，天然支持集群式智能体训练和多智能体协同研究。

近2亿美元！VAST完成新一轮融资，正式披露世界模型路线

曹炎培表示，VAST的愿景是，让每个人都能亲手创造、自由探索无数个可交互的世界。

Project Eden这个名字本身也很有意思，它来自于西方神话中的伊甸园。

《创世记》里，人类因偷食禁果被逐出伊甸园。

整个西方文明叙事的开端，就是一次人类的好奇心被惩罚——在创世之初，求知本身就要付出代价。

而Project Eden想要改写这个开端：世界可以拥有成千上万座花园，朝着无需批准的方向恣意生长，结出无数种果实，等待所有人采摘和品尝。

从造万物到造世界，这条路有根可循

正如曹炎培所说，从AI 3D到世界模型，其实是紧密相关的，可以分为两步走：从造万物到造世界。

李飞飞也曾指出，空间智能是机器在3D空间和时间中感知、推理和行动的能力，在她看来，AI发展必然迈向对三维世界的理解。

而谢赛宁和李飞飞的合作研究明确指出，空间推理对人类智能至关重要，视觉空间智能在现实世界的应用比以往任何时候都更近了。

3D能力，是世界模型绕不过去的地基。

问题是，谁在这条路上积累最深？

VAST必然榜上有名。它坐拥全世界最大的高质量原生3D数据集，旗下Tripo系列产品已成为全球使用最广泛的通用3D生成大模型之一。

其生态合作覆盖阿里巴巴、腾讯、字节、网易、上汽、拓竹、群核科技等头部企业，旗下Tripo Studio平台也已聚集超过2000万创作者。

过去三年，Tripo系列模型每一次迭代都成为全球行业标杆。

2026年3月正式上线的Tripo H3.1，以雕塑级几何细节刷新了AI 3D的精度天花板。

近2亿美元！VAST完成新一轮融资，正式披露世界模型路线

Tripo P1.0则是全球唯一能在数秒内输出生产级网格的3D大模型，较市面其他方案提速百倍，代际领先。

近2亿美元！VAST完成新一轮融资，正式披露世界模型路线

Tripo 8K 贴图是业内首款原生8K AI贴图算法，将过去资深贴图师需要3至5天才能完成的工作压缩至2分钟以内，单张边际成本近乎为零，3A渲染画质由AI原生呈现。

近2亿美元！VAST完成新一轮融资，正式披露世界模型路线

智能部件拆分Segmentation V2依托升级后的多模态3D结构理解模型，引入三档颗粒度控制，覆盖3D打印、游戏开发、精细模组等不同下游场景，「生成—分件—补全—打印」全流程被进一步压缩。

近2亿美元！VAST完成新一轮融资，正式披露世界模型路线

而在开源生态上，VAST已历经三季开源计划。

第一季与Stability AI联合开源TripoSR，将单图3D生成速度压缩至0.5秒级别。

第二季陆续释放TripoSG、TripoSF、UniRig、HoloPart等八大项目，UniRig稳坐全球3D自动绑骨开源方案标杆。

第三季聚焦动态互动内容，与清华大学联合开源TripoSplat（DeG）、SkinTokens，与香港大学联合开源AniGen，从静态生成到可动资产，再到动态交互，脉络清晰。

近2亿美元！VAST完成新一轮融资，正式披露世界模型路线

三年累计对外开源项目超30个，覆盖从基础表征到生成管线的完整技术栈。

可以说，VAST是目前全球商业化落地最深的AI 3D公司之一。

VAST长期积累的深度估计、相机位姿、几何结构、多视角一致性能力，直接支撑了Project Eden的数据策略和架构设计。

从Tripo系列的3D生成，到Project Eden的状态与渲染解耦，这是一条逻辑连贯的技术演进路线。

曹炎培表示，推进世界模型的研发，也与他们从第一天开始就树立的「造世界」的目标完全吻合，是一个水到渠成的过程。

VAST背后的创始团队，也有着深厚的技术积累。

宋亚宸，创始人兼CEO，是一位97年的创始人。

他曾在商汤科技推动多个AI项目落地，参与创立通用大模型公司MiniMax。用他自己的话说，是「因为相信所以看见」的创业者。

梁鼎，CTO，清华大学本硕博，人工智能领域深耕十余年，发表论文50余篇，拥有100多项专利，累计引用上万次，曾任商汤科技通用模型负责人。

曹炎培，首席科学家，清华大学计算机系本科及博士，主导threestudio、TripoSR等开源项目累计获超15000 GitHub星标。

他曾联合创立Owlii后被快手收购，后任腾讯ARC实验室与AI Lab专家研究员，Dream3D、TGS等工作引领文生3D和图生3D方向，是国内生成式3D领域最具代表性的研究者之一。

VAST自己也清楚，还有两块硬骨头要啃。

一块是更高复杂度场景的物理演化：未来的世界底座，需要支持更丰富的物理动态、更广阔的自由视角，以及颗粒度更细的对象间交互。

另一块是状态的自主维护：完整的闭环需要一个强大的状态转移模型，能够完全根据智能体的交互行为与视觉观测，持续自监督地更新底层状态，不再依赖外部标注和引擎辅助。

这一步实现之后，世界才真正「活」起来。

通向世界模型的征程，才刚刚起步，技术路线远没有收敛。

而在起点，VAST就做了一个不跟随的选择，提出了一条全新的技术路线。

世界模型最终长什么样，没有人知道。但至少在这个起点上，VAST已经走出了自己的方向。

文章来自于微信公众号 “量子位”，作者 “量子位”

联系方式

赞赏支持

累计赞赏 0 积分 0 人支持

登录后赞赏

💬 发表评论取消回复

要发表评论，您必须先登录。

近2亿美元！VAST完成新一轮融资，正式披露世界模型路线

详细介绍

Project Eden：全新世界模型技术路线

三大能力与三大落地场景

从造万物到造世界，这条路有根可循

联系方式

赞赏支持

💬 发表评论 取消回复

💬 发表评论取消回复