三组数据,先感受一下这个赛道的温度:

2026 年 3 月,Yann LeCun 的 AMI Labs 完成 10.3 亿美金种子轮,欧洲史上最大。同一个月,李飞飞的 World Labs 累计融资突破 12 亿美金

两个人加起来拿了 22 亿美金,做的都是同一件事——世界模型。

蚂蚁的「灵光」App 上线 6 天下载 200 万,用户两周手搓了 330 万个「闪应用」,其中互动小游戏占比最高。一句话、30 秒,一个可玩的游戏就出来了。

昆仑万维 Matrix-Game 3.0 做到了 5B 参数、720P、40fps 实时生成游戏画面。两年前这个赛道的天花板是「跑 3 秒 DOOM」。

一边是顶级研究者带着几十亿美金从 LLM 阵营集体出走,一边是普通用户已经在用 AI 30 秒手搓小游戏。世界模型(World Model)这个词,正在同时从最高的塔尖和最低的地面向中间挤压。

它到底是什么?为什么突然所有人都在做?

说白了:LLM 是个瞎子。它再强,也只是在预测下一个 token。

你跟它说「请描述一下重力」,它能写三千字论文。但你让它模拟一个球从桌上滚下去?它脑子里根本没有「桌子」这个东西。

世界模型要解决的就是这件事:让 AI 不只会说话,还会「看路」。

这篇文章梳理了这个赛道的40+ 产品、4 条技术路线、7 种商业场景,从 10 亿美金的基础研究到 30 秒手搓的小游戏。

先说结论:方向确定没问题,但 90% 的公司会死在随着基模升级的路上。

本文价值 100 元,有帮助请点赞。

一、什么是世界模型?为什么突然火了?

先给个最直白的解释。

你让 Sora 生成一个视频,一只狗从沙发后面跑过去——它可能跑到一半项圈消失了,沙发变成了另一张沙发。

Sora 2 了还是这样。为什么?因为视频模型本质上在猜「下一帧最像什么」,它脑子里压根没有「这是同一只狗」「这是同一张沙发」的概念。它在做的事,类似于一个美术生蒙着眼睛画接力——每一笔单看都不错,连起来就是毕加索附体。

世界模型就是要解决这个问题。

它不只是「生成看起来对的画面」,而是在内部维护一个对环境的理解:哪些物体在哪、物理规则是什么、你的操作会导致什么后果。这玩意一旦做成了,游戏、机器人、自动驾驶、AR/VR 全都能受益。

划重点:世界模型不是一个单一技术,而是一个研究范式。它把感知、预测、决策串成一条链。

LeCun 的 JEPA 是一种路线,DeepMind 的 Genie 是另一种,李飞飞的 Marble 又是一种。大家殊途同归,但技术路线差别很大(后面详细拆)。

那为什么 2026 年突然火了?三个原因:

LLM scaling 遇到瓶颈。预训练数据快到天花板了,纯堆算力的边际收益在下降。OpenAI 自己内部都承认 GPT-5 的提升没达预期。

行业需要新叙事,投资人需要新故事。你不能连续三年跟 LP 说「我们还在 scale」。

视频生成暴露了「理解」的缺失。Sora、Veo 生成的视频越来越好看,但物理一致性一塌糊涂。一个人走路走着走着多了条腿,这叫什么 AI?这叫 PS 自动化。行业开始反思:光会画不行,得真懂啊。

具身智能和机器人需要训练环境。机器人不能全在真实世界试错,需要大量仿真环境。世界模型天然是最佳造场景的工具。

二、全球玩家点名:谁在做,做到哪了

1. Yann LeCun / AMI Labs —— 最贵的「理想主义」

2026 年 3 月,LeCun 正式公布 AMI Labs,种子轮 10.3 亿美元,估值 35 亿。欧洲史上最大种子轮,还没出产品。Bezos Expeditions、NVIDIA、Samsung、Toyota Ventures 全来了。

他的核心赌注是 JEPA(Joint Embedding Predictive Architecture)不在像素空间做预测,而是在抽象表征空间学习世界的运行规律。

说人话就是:不学「下一帧长什么样」,学「下一步世界状态会怎么变」。LeCun 自己说过:「LLM 太局限了,scaling 不会带来 AGI。」

但话说回来,这是个非常长期的赌注。AMI Labs CEO Alex LeBrun 自己都说「大概需要一年才能出第一个可用的东西」。投资人买的是 LeCun 的名字和他十年的学术积累,不是短期回报。瞄准的场景是医疗、机器人、可穿戴设备和工业自动化。

2. 李飞飞 / World Labs / Marble —— 最先商业化的

李飞飞的打法完全不同。2025 年 11 月就发布了 Marble,2026 年 2 月又融了 10 亿美金(NVIDIA、AMD、Autodesk 全来了)。这是目前世界模型赛道里唯一一个已经商业化、有定价、普通人可以用的产品。

Marble 的定位是「多模态 3D 世界生成模型」。给一张照片、一段文字、一个视频,它生成一个可以 360° 走进去的 3D 空间。不是全景图,是真 3D,能导出 Gaussian Splat 和三角网格,直接丢进 Unity 或 Unreal。

它还搞了一个叫 Chisel 的编辑器,你先用方块搭好空间结构,AI 再补视觉细节——结构和风格分离,创作者不会被 AI 牵着走。

传统游戏做一个 3D 场景可能花几万到几十万,周期几天到几个月。Marble 几分钟搞定。定价从免费到 95 美金/月不等。有人说这是在革游戏美术的命,我觉得不至于,但至少是在革「3D 场景外包公司」的命。

3. Google DeepMind / Genie 3 —— 研究最扎实的

DeepMind 在世界模型上的积累最深。

从 Genie 1 到 Genie 2 再到 2025 年 8 月发布的 Genie 3,一步步推进。Genie 3 训练了超过 3 万小时的游戏录像,能根据文字描述实时生成可交互的 3D 环境,24fps 运行。2026 年 1 月对外开放了研究预览。

DeepMind 把它定位为 AGI 路上的关键垫脚石——有了世界模型,就能无限生成训练环境来教 AI agent。但目前还是研究预览状态,没有商业化。

4. Decart / Oasis —— 第一个让你「玩」的

Oasis 号称是第一个完全由 AI 实时生成的可玩游戏。

你用键盘鼠标操作,它用 Diffusion Transformer 逐帧生成画面,20fps,零延迟。没有预渲染,没有传统游戏引擎,所有画面、物理、规则全是 AI 现编的。效果类似 Minecraft。开源了 500M 参数的小模型。

局限也很明显:画面模糊、物品管理不精确、长时间玩一致性崩。但比 2024 年 Google 的 GameNGen(只能跑 DOOM 3 秒)进了一大步。最近还推出了 Lucy 2.0 和 Custom Worlds,可以上传图片变成可玩世界。

坦率地说,现在的 Oasis 更像是一个「AI 能做游戏」的信仰充值器,而不是一个真正能玩的东西。但信仰这玩意,在 AI 行业比技术值钱。

▲ Oasis 实时生成的 Minecraft 风格游戏画面——全部由 AI 逐帧生成,没有传统游戏引擎

5. Runway —— 从视频工具到世界模拟

Runway 本来做 AI 视频生成,Gen-1 到 Gen-3 在影视广告行业很有名。

但 2025 年底直接发布了「通用世界模型」GWM-1,官网 slogan 改成了「Building AI to Simulate the World」。2026 年 3 月底又搞了个 1000 万美金的基金投 AI+世界模拟方向。

很明显,它想从工具公司变平台公司。

我个人觉得 Runway 是这个赛道里最被低估的玩家,它有真实的商业收入(视频生成 SaaS)、有成熟的用户基础(影视行业)、有技术积累(Gen 系列的视频生成能力直接复用到世界模型)。

不像 AMI Labs 纯烧钱做研究,Runway 是一边赚钱一边转型。这种路径成功率高得多。

6. 腾讯混元 3D + 昆仑万维 Matrix-Game

腾讯结合自己的游戏、地图、AR/VR 业务做混元 3D。

发布了 World Play 交互模型,2025 年 11 月国际版上线腾讯云,开源版下载量破 300 万。优势是有真实业务需求做牵引。

昆仑万维在 2026 年 3 月中关村论坛一口气发了 Matrix-Game 3.0、SkyReels V4、Mureka V9 三个模型。Matrix-Game 3.0 做到了 5B 参数、720P、40fps 实时生成,打通了 GTA5、赛博朋克 2077 等 3A 游戏做数据采集。还搞了一个「AI 版 Roblox」猫森学园。

三、AI 互动游戏:两年进化时间线

▲ 世界模型关键里程碑时间线:从 3 秒 DOOM 到 10 亿美金种子轮

2024.08 GameNGen —— Google Research 用改版 Stable Diffusion 跑出了可玩的 DOOM,单张 TPU、20fps。

训练分两阶段:先用 RL agent 玩 DOOM 生成轨迹数据,再学「给定历史帧+操作 → 预测下一帧」。人类分不清 AI 和真实画面。但只能跑 3 秒。意义:证明了这事可行。

▲ GameNGen 效果对比:左为早期世界模型(糊到看不清),中为 GameGAN,右为 GameNGen(几乎和真实 DOOM 一样)

2024.10 Oasis —— Decart 把同样思路换成 DiT 架构 + Diffusion Forcing 训练,开放世界 Minecraft,20fps。比 GameNGen 进了一大步——从 3 秒 DOOM 到持续可玩的开放世界。

2025.08 Genie 3 —— DeepMind 做到了文字生成可交互环境,不局限于模仿已有游戏,能凭空创造新世界。3 万+小时训练数据。

2026.03 Matrix-Game 3.0 —— 昆仑万维做到 5B 参数、720P、40fps,引入 Memory 机制解决长时序一致性,Unreal Engine 合成数据+3A 游戏数据双管线。开始有工业级的味道。

两年时间,从「跑 3 秒 DOOM」到「720P 40fps 实时开放世界」。进步飞快,但离替代传统游戏引擎还早。

目前这些 AI 游戏的共同问题:画面不够清晰、物理不精确、长时间一致性崩。

我的判断:AI 互动游戏最靠谱的落地方式不是替代传统引擎,而是做增量——场景快速生成、NPC 行为、关卡自动创建。

全由 AI 实时生成一整个游戏?再等两三年。

那些天天喊「游戏引擎要被颠覆」的人,大概率没做过游戏。

你让 AI 模型保证两个玩家在同一个世界里看到完全一样的物理表现试试?确定性这一条就够卡死 99% 了。

就和现在 vibe coding 小游戏头部的产品,都是几个固定的玩法模版,动态化一些素材而已。

四、技术路线速览:四条路线,谁先跑出来?

世界模型不是一个统一方案,至少四条路线在并行推进。

路线一:DiT 生成式(Oasis / GameNGen / Matrix-Game)—— 把游戏画面当视频逐帧生成。好看,但不懂物理。

路线二:JEPA 表征预测(AMI Labs / V-JEPA 2 / VL-JEPA)—— 不生成像素,在 embedding 空间预测「世界状态会怎么变」。V-JEPA 2(1.2B 参数)已经能做 zero-shot 机器人规划。

路线三:3D/4D 重建(Marble / NeoVerse / TeleWorld)—— 把 2D 重建成持久 3D 结构。NeoVerse(CVPR 2026)用普通手机视频就能做 4D 重建,推理比同类快 7.5 倍。

▲ NeoVerse 4D 世界模型架构:输入单目视频 → 4D Gaussian 重建 → 任意视角生成(CVPR 2026)

路线四:混合 RL + 仿真(Genie 3 / Cosmos / DreamerV3)—— 最务实的路线。Genie 3 的价值公式:世界模型 = 无限训练场生成器。

▲ DreamerV3:agent 在学到的世界模型中「做梦」练习,再迁移到真实环境(Nature 2025)

四条路线对比

▲ 四条技术路线能力雷达图:没有一条路线在所有维度占优,这就是为什么我赌混合路线

路线核心方法代表优势局限
DiT 生成式扩散模型逐帧生成Oasis, Matrix-Game 3.0视觉直观,用户体验好不理解物理,长时序崩
JEPAembedding 空间预测V-JEPA 2, AMI Labs高效、语义理解、可规划无视觉输出
3D/4D 重建2D → 持久 3D 结构Marble, NeoVerse几何一致、可编辑导出动态场景弱
混合 RL+仿真RL + 世界模型 + 物理仿真Genie 3, Cosmos, Dreamer最接近真实推理计算量巨大

五、产品图鉴:谁已经能玩了?商业场景在哪?

前面讲了技术路线和论文,但普通人更关心的是:有没有东西我现在就能上手玩?钱从哪来?谁愿意付费?

▲ 世界模型 & AI 互动赛道象限图:右上「黄金区」的玩家最少,左上「轻量爆款区」最拥挤

先拉一张全景产品地图。这个赛道最容易被误导的一点是:一提世界模型就只想到 LeCun 和李飞飞那些几十亿美金的大玩家。

其实从大厂到一个人的 side project,这条赛道上至少有 40+ 个产品在同时跑。按体量分三层:

第一梯队:巨头与独角兽(融资 $100M+)—— AMI Labs($1.03B / JEPA 世界模型)、World Labs / Marble($1.23B / 3D 世界生成)、Google DeepMind / Genie 3(未独立融资 / 互动世界生成)、NVIDIA Cosmos(平台级 / 物理 AI 基础模型)、Runway GWM-1($860M 累计 / 通用世界模型三条线)、General Intuition($134M 种子 / 空间推理 agent)。

这一层的共同特点是:都在做底层模型或平台,烧钱凶猛,商业化普遍没跑通。

第二梯队:中腰部产品公司(融资 $5M-$50M 或有稳定收入)—— Decart / Oasis($53M / 实时游戏生成)、Odyssey Explorer(自动驾驶团队转型 / 互动视频)、昆仑万维 Matrix-Game(上市公司 / 游戏世界模型)、腾讯 HunyuanWorld 系列(1.0/1.5 WorldPlay/Voyager 全开源 / 3D+探索)、Inworld AI(NPC 引擎 / 已集成 Unity+Unreal / 被 Skyrim mod 验证)、Charisma.ai(对话叙事 AI / VR+教育)、RPGGO(Pre-Seed / Text-to-Openworld RPG / 腾讯系团队)、Scenario(游戏美术资产 / 自定义风格训练)、Rosebud(浏览器端全流程游戏创作)、SEELE / 百度系(端到端 3D 游戏生成 / Unity 导出)、WebSim($11M / AI 网页/游戏生成器)、Jenova.ai(AI Agent 驱动的角色扮演+叙事游戏平台)、SpAItial($13M 种子 / 图片→3D Gaussian Splat / 欧洲团队)。

这一层特点是:要么有明确的垂直场景,要么有可验证的用户数据。

第三梯队:小而美 / 开源 / 早期探索(种子轮或 bootstrap)—— MakeGamesWithAI(一句话生成可玩游戏 / 浏览器端)、Spawn.co(自然语言创建 3D 多人世界)、Ludo.ai(AI 游戏创意+市场调研+Playable Generator)、Saga(AI 文字冒险/角色扮演平台)、AI Town(Convex 开发 / AI 角色社交模拟)、Layer AI(自定义 3D 资产风格训练)、Meshy(文字/图片→3D 模型)、Cascadeur(AI 动画替代动捕)、Replica Studios(AI 配音+商用授权)、Leonardo AI(美术资产批量生成)、Convai(实时语音 NPC / VR 场景)、Promethean AI(自然语言→3D 环境 / Unreal 集成 / AAA 在用)、AIVA + Beatoven.ai(AI 游戏配乐)、Etched / Sohu(专用 Transformer ASIC / Oasis 的硬件搭档)、Yume 1.5(开源互动世界生成模型)、Microsoft Muse(Xbox 部门 / 研究阶段)、RADiCAL(视频→动捕数据)、Figma Make(AI 游戏原型 / 设计工具内置)、Google Playables Builder(YouTube 内置 / Gemini 3 驱动)。

这一层的特点是:切口极小,但如果赛道起来了,每个都可能成为生态里不可或缺的一块拼图。

我的看法:大多数人只看第一梯队——因为融资新闻最响。

但真正离钱最近的是第二梯队:Inworld 已经被 Skyrim mod 社区验证了、Scenario 的独立开发者在用真金白银订阅、腾讯 HunyuanWorld 系列开源下载破 300 万。

第三梯队看着小,但别忘了 Roblox 当年也是从一个不起眼的小工具做起来的。这个赛道最终的赢家,很可能不在今天的头条新闻里。

下面按产品形态详细拆解,每种都给商业场景判断:

类型一:Vibe Coding 小游戏 —— 2026 年的第一个爆款品类

2026 年 1 月,很多游戏人最关心的产品居然不是 3A 大作,而是比小游戏还小的文字型游戏。《大厂模拟器》上线当天挤爆服务器,《赛博徒步:生死鳌太线》在社交媒体刷屏。这些游戏只有一两个人做,形式就是一条链接,没有美术画面,只有文字选择和数值养成。

为什么火?因为 Vibe Coding 不是降低了游戏制作门槛,而是摧毁了门槛

开发者不需要编程,不需要美术,只需要一个好点子 + 买点 token。AI 生成系统、数值、剧情分支,你提供创意就行。一个周末就能做出一款可玩的游戏。

这对传统游戏行业意味着什么?意味着你花三年做的独立游戏,可能被一个大学生周末手搓的东西抢走热度。

不是因为他做得好,是因为他快到离谱,而且话题性拉满。

商业场景:社交裂变 + 广告变现。

这类游戏只需要一个网页链接就能玩,加载比小游戏还快,心理负担极低,天然适合社交传播。

《大厂模拟器》就是靠互联网人群的圈层传播爆的。变现路径是广告(页面内嵌入)和付费解锁(额外剧情线)。单款游戏天花板不高(几万到几十万),但制作成本几乎为零,ROI 极高。

类型二:AI 闪应用/闪游戏 —— 灵光、Google Playables

灵光(蚂蚁集团)是 2025 年底中国最火的 AI 产品之一。6 天下载量超 200 万,速度超过 ChatGPT 和 Sora 2。核心功能「闪应用」:一句话最快 30 秒生成一个可交互、可编辑、可分享的小应用。上线两周用户创建了 330 万个闪应用,覆盖互动游戏、情绪减压、倒计时、备考自测等场景。后来又升级了「闪游戏」功能——输入’帮我生成一个空战 1942 的小游戏’,30 秒就出来了,还能改角色、背景、难度。

Google Playables Builder是 YouTube 官方推出的 AI 游戏生成工具,基于 Gemini 3,让 YouTube 创作者用文字/图片/视频片段生成 HTML5 小游戏,直接嵌入 YouTube 播放页面。Google 的意图很明确:对抗 Roblox,争夺年轻用户时长。

商业场景:平台粘性 + 生态闭环。灵光的逻辑是用闪应用/闪游戏把用户留在蚂蚁生态里,未来接支付宝小程序、信用体系。业内预测 2026 年会出现「生成式小程序」爆发潮——字节、阿里、腾讯都会把生成能力嫁接到自己的支付、社交、电商场景里。Google Playables 则是内容平台的互动化:让视频从单向播放变成双向交互。

划重点:闪应用这个品类的竞争不是产品竞争,是生态战争。

谁的分发渠道强,谁的闪应用就能活。灵光背后是支付宝,Playables 背后是 YouTube,你一个独立开发者或者小团队拿什么打?

抖音现在的小游戏广告占比 也比之前高了,而重分发的赛道 如果没有持续的爆款就很难做出成绩。低频产品再怎么折腾也没用。

类型三:AI NPC / 互动叙事 —— Charisma.ai、RPGGO

Charisma.ai 不做完整游戏,而是提供一套面向叙事和角色对话的 AI 系统——让创作者构建可控的 AI 角色、对话逻辑和互动剧情。用在互动叙事游戏、培训模拟、品牌体验、教育内容等场景。

RPGGO 主打 Text-to-Openworld:输入一个故事梗概,AI 构建出包含分支剧情、智能 NPC 记忆、实时生成立绘和语音的可玩 RPG 游戏。核心团队来自腾讯等一线大厂,拿到了 Makers Fund 的 Pre-Seed 轮融资。

Jenova.ai 用专门的 AI Agent 做不同类型的互动内容——Roleplay Game Master(桌游式 RPG,无限记忆+任意规则系统)、Film Screenwriter(剧本协作)、Webtoon Creator(竖屏漫画连载)。它不做自己的模型,而是调用 GPT-5.2 / Claude / Gemini 3 等前沿模型搭 agent 框架。思路是:模型层不碰,只做场景层。这可能是小团队最聪明的打法。

Saga 做 AI 文字冒险和角色扮演平台——从经典文字 RPG 那套复古审美出发,加入 AI 动态对话和剧情生成。可以用官方预设世界,也可以自建。小而美的产品,主打怀旧 RPG 玩家群体。

AI Town(Convex) 是个很有意思的实验项目——AI 角色在一个虚拟小镇里自主生活、社交、形成记忆和目标。每个角色有独立人格。开发者可以搭建自己的 AI 驱动小镇。斯坦福那篇著名的「25 个 AI agent 生活在虚拟小镇」论文的产品化版本。

商业场景:B2B 中间件 + C 端订阅。Charisma.ai 这类走 B2B 路线——卖给游戏工作室、教育机构、品牌方做 NPC 对话引擎,按 API 调用收费。RPGGO 走 C 端——玩家订阅制玩无限 AI 生成的 RPG。

更大的商业想象力在于:当 NPC 能真正「记住你」并动态反应,游戏的复玩价值和付费意愿都会大幅提升。

类型四:世界模型原生产品—— Oasis、猫森学园、WebSim

Oasis(Decart) 前面详细说过了——AI 完全实时生成的 Minecraft 类游戏。目前还是免费 Demo 状态,商业化路径不明。

▲ Oasis 生成的开放世界——所有方块、天空、光影都是 AI 实时计算的,没有一个像素是预制的

猫森学园 2.0(昆仑万维) 定位是「AI 版 Roblox」——可以口述玩游戏、口述 DIY 游戏。是昆仑万维「3+1」AGI 战略中面向互动娱乐的产品层。

WebSim 是 AI 网页/交互应用生成器:用自然语言描述一个网站或小游戏,直接生成可运行的 Web 页面,支持持续迭代和链接分享。融资约 1100 万美元。不是完整游戏引擎,但非常适合做网页游戏原型和互动体验。

商业场景:UGC 平台经济。这些产品的共同逻辑是:不是自己做游戏,而是让用户做游戏,平台抽成。

Roblox 已经证明了这个模式的天花板有多高(年收入 30 亿美金+)。AI 的加入会让创作门槛进一步降低——从「会编程的人能做游戏」到「会说话的人能做游戏」。

类型五:3D 世界生成工具 —— Marble、Rosebud

Marble(World Labs) 前面说过了,从免费到 95 美金/月。定位是给游戏开发者、VFX 工作室、建筑设计师用的 3D 场景生成器。已经有早期用户在把生成的 Gaussian Splat 导入 Unity 做游戏和互动内容。Vision Pro 和 Quest 3 可以直接查看生成的 3D 世界。

Rosebud 是云端全流程游戏创作平台——输入 prompt 生成可玩的 2D/3D 游戏原型,内置精灵动画生成器、AI NPC 创作器、视觉小说工具。主打教育场景和浏览器端快速原型。

SEELE(百度系) 定位端到端多模态游戏生成平台,文字描述直接生成可交互 3D 游戏世界,支持 Unity 项目导出(这点比 Rosebud 强),内置 500 万+动画预设库和完整音频生成。号称生成速度比手写代码快 480 倍。

Spawn.co 用自然语言指令创建 3D 多人游戏、应用和虚拟世界。

SpAItial 欧洲团队,$13M 种子轮。用自家模型 Echo 从单张图片生成 3D Gaussian Splat 模型。比 Marble 轻量得多——不做完整世界,只做单场景 3D 化。适合电商产品 3D 展示、室内设计预览这类不需要「走进去」的场景。

腾讯 HunyuanWorld 系列 是目前开源世界模型里迭代最快的。2025 年 7 月发 1.0(文字/图片→360° 3D 世界,支持 Unity/Unreal 导出),10 月发 1.1 WorldMirror(视频→3D),同月还出了 FlashWorld(单 GPU 5-10 秒生成 3DGS),9 月发 Voyager(超长距离 3D 探索),12 月发 1.5 WorldPlay(实时交互)。半年迭代五个版本,开源下载破 300 万。说句实话,如果你是个独立开发者想试水世界模型,HunyuanWorld 开源版是目前性价比最高的起点——免费、有文档、能跑在 4090 上。

商业场景:SaaS 订阅 + 降本增效。

游戏行业美术成本通常占研发总成本的 50%-80%,一个 3D 角色模型成本几万到近百万。

Marble 这类工具的价值公式:原来花 10 万做的场景,现在 20 美金/月几分钟搞定。

类型六:AI 游戏资产工具链 —— 隐形基建

这一类不是做完整游戏,而是做游戏开发中某个环节的 AI 加速。单拎出来不够性感,但组合起来就是一条完整的 AI 原生游戏生产线。

Scenario —— AI 游戏美术资产生成。核心能力是训练自定义 AI 模型,保持风格一致性。你把自己游戏的美术风格喂给它,它就能批量生成风格统一的角色、道具、场景。支持像素风、写实风等 12 种生成模式,每批最多 16 张。对美术团队少的独立工作室是刚需。

Inworld AI —— AI NPC 引擎,由 Google Dialogflow 团队出身的人做的。NPC 有独立人格、记忆、情感系统,能根据玩家行为动态反应。已经直接集成 Unity 和 Unreal,按用量付费。Skyrim 和骑马与砍杀 2 的 mod 社区已经在用它,证明了玩家确实愿意为「更聪明的 NPC」买单。

Convai —— 实时语音 NPC 交互,延迟 200-300ms。和 Inworld 的区别是更偏语音端,适合 VR/AR 场景。

Replica Studios —— AI 配音和对话生成。给 NPC 配音不用真人录音棚了,订阅制,付费版有完整商用授权。

Cascadeur —— AI 辅助角色动画。设好关键帧,AI 自动计算中间的自然动作。相当于用软件替代动作捕捉,成本降几个量级。

Leonardo AI —— 游戏美术资产批量生成,支持角色、纹理、环境。可以用预训练模型,也可以训练自己的风格模型。

Meshy —— 文字/图片转 3D 模型,快速生成道具和场景元素,导入游戏引擎使用。

Promethean AI —— 用自然语言描述生成完整 3D 环境,专为关卡设计师打造。直接集成 Unreal Engine,AAA 工作室在用。

AIVA / Beatoven.ai —— AI 游戏音乐生成。AIVA 专注古典和影视配乐风格,Beatoven.ai 可以根据游戏场景情绪实时适配音乐。

Ludo.ai —— AI 游戏研发助手。不生成资产也不写代码,而是做游戏创意和市场调研——分析排行榜游戏 DNA、混合机制生成新概念、自动生成可玩原型。最近推出了 Playable Generator,输入描述直接出可玩 Demo。

商业场景:工具链 SaaS,各切一刀。

一个独立开发者的理想工作流:Ludo.ai 做创意 → Scenario 生成美术 → Meshy 做 3D 模型 → Inworld 做 NPC → Replica Studios 配音 → AIVA 配乐。

每个环节都有人收月费。这种「乐高式拼装」的 AI 游戏工具链,2026 年已经是独立开发者的标配。

类型七:世界模型驱动的互动视频/探索 —— 新品类

这一类是技术最前沿、离商业化最远、但想象力最大的。

▲ TeleWorld 的 Macro-from-Micro Planning:DiT 逐段生成视频,上层宏观规划控制长时序一致性

Runway GWM-1 / Game Worlds —— Runway 的世界模型产品分三条线:GWM-Worlds(游戏互动世界)、GWM-Robotics(机器人仿真,提供 Python SDK)、GWM-Avatars(对话式数字人)。Game Worlds 是面向消费者的入口——浏览器端直接创建和分享 AI 生成的互动文字冒险。720P/24fps 实时交互,物理感知环境。

Odyssey Explorer —— 主打「互动视频」——你能同时看和操作的视频。每 40-50ms 生成一帧,20fps 流式输出。用「因果式」方法生成:只基于过去事件,不预设未来,所以你的每个操作都会改变所有可能的后续。训练数据来自自动驾驶团队的真实 360° 拍摄,输出更偏写实风格(Gaussian Splat),可以导入 Unreal/Blender/After Effects。

Microsoft Muse —— 微软 Xbox 部门做的世界模型,用 7 年的 Xbox 游戏《Bleeding Edge》录像训练。能根据手柄操作实时生成游戏场景。目前还在研究阶段。

Yume 1.5 —— 文字控制的互动世界生成模型,2025 年底开源。输入文字描述控制世界变化。

NVIDIA Cosmos —— 不面向消费者,而是面向开发者的「世界基础模型平台」。提供物理感知的合成训练数据,主要客户是自动驾驶和机器人公司。200 万+下载。

商业场景:目前以 B2B 和研究为主。Runway GWM-Robotics 卖给机器人公司做仿真训练(比在真实世界测试便宜几个数量级)。Game Worlds 尝试 C 端但还在 beta。Odyssey 瞄准影视后期和游戏环境预览。Cosmos 走开发者平台路线。说白了,这一类产品的商业化还在「找第一个愿意付钱的客户」阶段,但一旦跑通,想象空间巨大——世界模型 as a Service,按「世界数量」收费。

小结:七种产品形态的商业逻辑

产品形态代表产品商业模式目标用户
Vibe Coding 小游戏《大厂模拟器》等社交裂变 + 广告/付费解锁独立创作者、自媒体人
闪应用/闪游戏灵光、Google Playables平台生态闭环、广告时长普通用户(零门槛)
AI NPC / 互动叙事Charisma.ai、RPGGOB2B API + C 端订阅游戏工作室、RPG 玩家
世界模型原生Oasis、猫森学园、WebSimUGC 平台抽成创作者生态
3D 世界生成Marble、Rosebud、SEELESaaS 订阅、降本增效游戏/影视/建筑开发者
资产工具链Scenario、Inworld、Replica 等环节 SaaS,乐高式拼装独立开发者、中小工作室
世界模型互动GWM-1、Odyssey、Muse、CosmosB2B 仿真 + C 端探索机器人/自动驾驶/影视

我的看法:短期内最赚钱的不是世界模型本身,而是基于 AI 生成能力的轻量产品——闪应用、Vibe Coding 小游戏这些。它们不需要等世界模型技术成熟,用现有的 LLM 能力就够了。

世界模型的商业化更像是一个 2-3 年的中期故事:先从工具链切入(Marble 卖订阅给开发者),再逐渐渗透到平台层(UGC 世界构建),最终可能改变整个内容产业的成本结构。

现在这个赛道里,赚到钱的是卖铲子的(Scenario、Inworld 这些工具),不是挖金子的(做世界模型本体的)。

信仰要充值,很合理。

六、别被 Demo 骗了:当前世界模型的真实水平

先说结论:能看,但不能用。能发朋友圈,但不能上生产线。别被那些精心挑选的 demo 视频骗了——那都是跑了一百次选出来最好的那一次。

▲ 当前世界模型综合能力评分:物理一致性和长时序稳定性两项不及格,这是最大的短板

视觉保真度 B+:短时间(几秒到几十秒)画面相当好。拉长到分钟级逐渐模糊变形。Marble 的静态 3D 不错,细看有 Gaussian Splatting 特有的「斑点感」。

物理一致性 C:最大短板,也是这个赛道的「皇帝的新衣」。球可能穿墙、水可能往上流、一个杯子放在桌上你转个身回来变成了花瓶。CVPR 2025 的 benchmark 论文直接打脸——最好的视觉语言模型区分运动轨迹的准确率接近随机猜。接近随机猜啊朋友们,这些模型号称「理解世界」的。

交互可控性 B-:键盘鼠标控制基本实时,但精度不够——想把方块放特定位置,模型可能放偏。Matrix-Game 3.0 通过分离鼠标/键盘信号有改进。

长时序稳定性 C-:自回归方案的通病——误差累积。Error Buffer、Diffusion Forcing、4D 重建引导都在试图解决,但没有方案能做到「无限时长稳定」。

推理效率 B:20-40fps 实时已实现,但在 256×256 到 720P 的低分辨率下。1080P/4K 实时还差一到两个数量级的算力。DyDiT 等效率优化在帮忙,专用硬件可能才是终极解。

七、未来 1-3 年会发生什么

2026 下半年(6-12 个月)

•世界模型在游戏场景生成(NPC、地图、背景)上进入生产流水线,作为传统引擎的补充而非替代。第一波买单的是中小游戏工作室——大厂有自己的技术栈,看不上;独立开发者没预算,用不起。中间这层最饥渴。

•V-JEPA 系列在机器人 sim-to-real 跑通概念验证,但无法量产。学术界会很兴奋,工业界会继续观望。

•4D 世界模型(NeoVerse 类)成为自动驾驶仿真的标配数据增强手段。这是世界模型最先赚到真金白银的场景——自动驾驶公司不缺钱,缺的就是仿真数据。

•Vibe Coding 小游戏继续爆发,但 99% 是垃圾。Steam 上 AI 生成游戏的数量会翻三倍,但能赚钱的不超过 1%。

•AMI Labs 大概率还在闷头研究,没有产品。LeCun 不是做产品的人,他是做范式的人。别催他。

2027 年(1-2 年)

•专用推理芯片到位,1080P 实时交互式世界模型成为可能。AI 原生游戏从 Demo 变成可玩 10-30 分钟的完整体验。注意是「完整体验」不是「好游戏」——能连续玩 30 分钟不崩已经是巨大进步了。

•路线开始收敛——大概率「3D/4D 重建 + 生成式」的混合路线胜出。纯生成式(Oasis 这条线)画面好但物理假;纯 JEPA 理解深但什么都看不到。把两者嫁接起来——用 JEPA 做「大脑」理解物理,用 DiT 做「眼睛」渲染画面——才是终局。

•出现第一个被 Unity/Unreal 官方集成的世界模型 API。这是这个赛道真正的里程碑——一旦进了游戏引擎的工具链,就意味着从「研究玩具」变成了「生产工具」。我赌 Unity 先动手,因为他们更缺差异化。

•第一批世界模型初创公司倒闭潮。融了钱但烧不出产品的、技术路线押错的、创始人只会写论文不会做产品的——2027 年会是筛选年。

•版权和训练数据合规问题爆发,多起诉讼出现。游戏公司是比出版社更凶的版权维护者——Rockstar 的律师团可不是吃素的。

2028 年(2-3 年)

•世界模型 + LLM + Agent 成为标准架构——LLM 当嘴,世界模型当眼和脑,Agent 当手和脚。LeCun 说的「LLM 是接口层,世界模型是底层」有望被验证。到那时候再回头看 2024 年的纯 LLM 应用,就像今天看翻盖手机——能用,但属于上个时代。

•AR 眼镜成为世界模型的杀手级硬件载体。Meta Orion、Apple Vision 后续产品——这些东西离了世界模型就是个贵得离谱的看片器。有了世界模型才能实现真正的空间计算:看到一个房间自动理解布局、虚拟物体和真实桌子产生正确的遮挡关系、走过一面墙记住墙后面有什么。这才是 AR 应该有的样子。

•「说一句话就能走进一个世界」从科幻变成消费级产品。但画质可能只相当于今天的 VR Chat——能用但粗糙。别信那些说 2028 年就能达到电影级画质的人,他们大概率在融资。

•一个大胆预测:到 2028 年底,「世界模型」这个词会像今天的「大模型」一样变成日常用语。普通人可能不知道 JEPA 是什么,但会随口说「那个 AI 生成的装修效果图真不错」。技术最终都会隐身到产品背后。

写在最后:方向对了,别急

从 LLM 到世界模型,AI 正在经历一次认知升级。文字 → 图片 → 视频 → 3D 世界 → 可交互的世界,每一步都是维度跃迁。如果 LLM 是教 AI 学会了「说话」,世界模型就是教 AI 学会了「看路」。一个只会说话的 AI 和一个又会说话又会看路的 AI,差距不是一星半点。

但别被融资数字冲昏头。LeCun 拿了 10 亿美金,自己说产品一年后才有;Marble 能用了但离工业级有距离;Genie 3 效果惊艳但没商业化;Matrix-Game 3.0 跑分好看但离真正好玩还差。这个行业的通病就是:demo 永远是最好的产品。

确定性在于方向——AI 迟早要从理解文字走向理解世界。不确定性在于时间和路线——谁先做出来、用什么方法做出来,现在还是一团迷雾。

比如我做 Mana,本质也是帮普通人用自然语言创造应用和交互体验。世界模型这条线跑通了,未来「说一句话就能生成一个可以走进去的世界」,想想就兴奋。

但在那之前,还有很多脏活累活要干。

做 AI 产品的人都知道,最难的不是让模型生成一个惊艳的 demo,而是让它在第一万个用户手里还能稳定工作。

这个行业不缺会讲故事的人,缺的是愿意把无数恶心的 edge case 一个个填完的人。

大模型卷参数的时代正在过去,卷「世界理解力」的时代刚刚开始。


本文同步自微信公众号,点击查看原文