AI 视频生成赛道深度分析

先说结论

模型层的第一仗打完了，产品层的战争才刚开始。

2026 年 Q1 的 AI 视频生成赛道，表面上热闹——Seedance 2.0 炸场、Sora 关停、可灵 3.0 上 4K、Veo 3.1 稳扎稳打——但底层逻辑已经变了。

变化是什么？单模型的“画质军备竞赛”正在让位于“谁能帮用户把片子做出来”的产品之争。去年大家还在比“谁的 Demo 更炸”，今年的问题变成了：你的工具能不能让一个人从一句话变成一条成 5 分钟的成片？能不能让一个电商卖家 5 分钟出一套主图？能不能让 Agent 自己跑完从剧本到交付的全流程？

这才是 2026 年这条赛道真正值得看的东西。我做 Mana 的经验也是这样——技术本身从来不是最难的部分，难的是怎么把技术变成用户真正会用的产品。

但在展开之前，先梳理一下现在这个赛道里到底有哪些玩家，各自是什么定位。不梳清楚这个，后面的分析就是空谈。

玩家全景图：四个象限

我把当前赛道里的玩家分成四类。这个分法不是我发明的，但我觉得它比什么“第一梯队第二梯队”有用得多：

第一类：模型厂商（有自研模型，并以模型能力为核心卖点）

字节跳动（Seedance / 即梦）、快手（可灵）、Google（Veo）、OpenAI（Sora，已死）、Runway、MiniMax（海螺）、生数科技（Vidu）、阿里（万相）、智谱（清影）、爱诗科技（PixVerse）、Pika、Luma AI

这一层的特点是：重研发、重算力、重参数。大厂的优势是 GPU 和数据，创业公司的优势是转向快。

第二类：全流程工作台（聚合多模型，提供从剧本到成片的完整链路）

LibTV（LiblibAI）、TapNow（Tamar AI）、OpenCreator

这一层的特点是：不自研模型（或不以模型为核心卖点），而是把多个模型能力编排成工作流。竞争维度是产品设计、场景理解和生态运营。

第三类：C 端流量型（靠特效、玩法、社交裂变拉用户）

PixVerse、Pika、海螺 AI

这一层的特点是：模型能力不一定最强，但用户增长最快。Pika 靠 AI 捏捏特效弯道超车，PixVerse 靠毒液特效爆了，海螺靠 meme 表情包拉爆海外。有人说这跟“抖音贴纸”差不多，说得没错，但“抖音贴纸”的变现效率可能比“电影级画质”高得多。

第四类：垂直场景型（针对特定行业或场景做深）

数字人赛道（HeyGen、D-ID）、短剧工厂（MovieFlow、白日梦）、电商素材（潮际好麦、对庆科技）

这一层不跟前三类直接竞争，但在各自的小池塘里可能活得最滑润。

关键数据一览

先放一组数据，让大家对这个赛道的体量有个直觉感知：

融资规模：2025 年全球 AI 视频相关公司融资总额 30.8 亿美元，同比增长 94.6%。Runway 累计融资 8.6 亿美元（估值 53 亿），Luma AI 融贄 9.68 亿（估值 40 亿），爱诗科技累计融资超 4 亿人民币，Pika 累计融贄 1.35 亿美元（估值 4.7 亿）。资本在用脚投票：视频生成赛道是 AI 领域融资最热的方向之一。

收入规模：Runway 2025 年 ARR 约 3 亿美元，30 万付费客户；MiniMax（海螺） 2025 年总收入约 7900 万美元，同比 94%，视频模型累计生成超 6 亿条视频；爱诗科技 ARR 超 4000 万美元，商业化不到一年收入增长超 10 倍；Pika 有超 50 万用户、每周生成数百万视频。这个赛道已经有人开始赚钱了，虽然多数还在亏损。

用户规模：爱诗科技（PixVerse）全球用户突破 1 亿，MAU 1600 万；Hailuo 累计生成 6 亿条视频；Runway 有 30 万客户；Grok Imagine 仅 1 月单月生成超 1 亿段视频；Luma Dream Machine 上线 4 天用户超 100 万。这个赛道的用户增速是极其快的。

市场规模：2024 年全球 AI 视频生成器市场规模约 6.15 亿美元，预计到 2032 年增长刳 25.6 亿美元，年均复合增长率 20%。听起来不小，但跟大语言模型的级 36%增速比起来，视频赛道还是小弟弟。

模型层：字节一骑绝尘，但这不是终局

Seedance 2.0（字节 / 即梦）—— 地表最强的代价

2 月 7 号内测，9 号上微博热搜，10 号传媒板块集体涨停，12 号马斯克发推感叹“It’s happening fast”，冯驜直接封它“地表最强”。一周之内，这个模型完成了从技术圈层到资本市场到大众舆论的全链路引爆。

划重点，Seedance 2.0 到底强在哪：

可用率。做过 AI 视频的人都知道“抽卡”这个行业暗语——以前生成 5 次能用 1 次就不错了，真实成本是账面的 5 倍。Seedance 2.0 的可用率据多位从业者反馈到了 90%以上。这不是画质提升，这是成本结构的质变。算一笔账：假设每段 15 秒视频 API 成本 5 块钱，做一个 90 分钟的片子，理论成本 1800 块，以前实际要花近万块，现在基本就是 2000 块。

自运镜。你不用再跟模型说“镜头从左往右平移”了。告诉它故事是什么，它自己决定怎么拍。导演们引以为傲的运镜能力，被集成到了模型里。贾樟柯都发文说要用它做短片。

多模态混合输入。最多同时丢进去 9 张图、3 段视频、3 段音频加文字指令。不是单一的文生视频了，是真正的多模态混合创作。

音画同步。生成视频的同时生成匹配的音效配乐，口型和情绪对得上。这是以前需要后期单独处理的工作，现在一次生成就搞定。

但 Seedance 2.0 也带来了 2026 年 AI 视频领域最大的争议——版权。

内测第一天就有大量用户生成了迪士尼角色、漫威 IP、日本动漫角色的视频。迪士尼直接发律师函，美国电影协会连发两次声明，派拉蒙也跟进了停止侵权通知，日本政府表示要展开调查。影视飓风的 Tim 发现，模型仅凭一张人脸照片就能生成与真实声音近乎一致的音频，而整个过程中没有使用任何声音样本。

说白了，模型太强了，强到用户可以随手“复制”任何 IP，而字节的内容审核还没追上模型能力。这个问题不解决，Seedance 2.0 在海外市场的商业化会非常难走。你连版权问题都管不住，品牌方凭什么敎把预算给你？

目前 Seedance 2.0 通过即梦和豆包两个产品触达 C 端用户，API 也已经开放。生成 15 秒视频约消耷 30 万 tokens，价格在行业里算中等偏低。排队高峰期曾经超 1000 人，等待时间超 3 小时。如果你要问我这个模型值不值这个热度——值，但字节要解决的问题远不止技术本身。

可灵 3.0（快手）—— 字节的最强对手

2 月 5 号上线，比 Seedance 2.0 早 3 天。这个时间点不是巧合。

可灵 3.0 最大的卖点是原生 4K/60fps 输出，行业第一个。多语种音频支持也是亮点。在短视频场景上，可灵的生成速度一直是优势，对于抖 4 射频率要求高的短视频创作者来说，这个速度差异是决定性的。

但说句公道话，可灵在精细度和复杂运动场景上，跟 Seedance 2.0 还是有差距。不过快手有一个字节没有的东西：短视频生态。可灵生成的视频可以直接进入快手的分发体系，这个闭环是技术参数比不了的。

Sora 的死亡—— 这个赛道最重要的信号

3 月 25 号，OpenAI 正式宣布关停 Sora 应用和 API。

没错，那个曾经震撼 AI 视频整个行业的产品，上线 6 个月就死了。原因很直接：IPO 在即，GPU 资源分配给视频生成不划算，变现效率远不如文本和代码产品。

我觉得这是 2026 年 AI 视频赛道最重要的事件，没有之一。它传递的信息非常清晰：模型能力≠产品成功，更≠商业成功。你可以做出世界上最牛的视频模型，然后因为找不到商业模式而死掉。这不是假设，这是刚刚发生的事实。

我的看法是，Sora 的死应该让很多人冷汗一下。你看看这个赛道里有多少公司的故事是“我们的模型很强”，而不是“我们怎么赚钱”？Runway 一年亏 1.55 亿美元，Sora 直接死了，Grok Imagine 三个月就从免费转付费。GPU 成本是悬在每家公司头上的达摩克利斯之剑。谁解决不了这个问题，谁就是下一个 Sora。

这给所有做 AI 视频的公司提了个醒：光有好模型不够，你得想清楚怎么赚钱。字节有即梦+豆包+剪映的流量入口和商业化体系，快手有短视频生态，Google 有云服务。纯做模型的创业公司如果没有清晰的商业场景，会非常危险。

海外三巨头现状：Veo 稳、Runway 专、Sora 死

Veo 3.1是 Google 的答案。4K 原生输出、按秒计费的 API、参考图像锁定角色一致性——商业化思路很清晰，瞄准的是企业级和专业创作者。在 MovieGenBench 基准测试中，Veo 3.1 的提示词遵循性排名最高。说白了，Veo 赢在“稳”，不是“炫”。

Runway Gen-4.5在 Elo 评分上排第一。这家公司的数据很说明问题：累计融贄 8.6 亿美元，估值 53 亿（2026 年 2 月 Series E），2025 年 ARR 约 3 亿美元，30 万付费客户，422 名员工。投资人包括 Nvidia、Google、Adobe、General Atlantic、SoftBank。Runway 已经在商业化上走通了，包括每家主要电影工作室都是客户。Amazon《大卫之家》第二季用了超过 350 个 AI 生成镜头。但亏损依然很大——2024 年收入约 4400 万美元但 EBITDA 亏损 1.55 亿。视频生成太吃 GPU 了。

Runway Gen-4.5：估值 53 亿美元，专业创作者的首选

中小模型厂商：分野已经开始

海螺 AI（MiniMax）靠 meme 表情包和人物表演在海外爆了。MiniMax 2025 年总收入约 7900 万美元，同比增长 94%，毛利率从 12%提升到 25%。视频模型累计帮创作者生成超 6 亿条视频。但说句公道话，海螺的模型能力和第一梯队还有差距。有测评者直言它“在画质上比当前领先模型还差一档”。它赢在了产品化、运营和商业化速度上。在“六小虎”里商业化走在前列。

PixVerse（爱诗科技）可能是最有希望先赚到钱的视频生成创业公司。全平台累计用户突破 1 亿，移动端 MAU 1600 万，ARR 超 4000 万美元，2024 年 11 月启动商业化后不到一年收入增长超 10 倍。融资历史：A 轮超 4 亿人民币，B 轮 6000 万美元（阿里领投），B+轮 1 亿人民币。创始人王长虎是前字节视觉技术负责人，参与过抖音和 TikTok 从 0 到 1 的建设。它的路径很有意思：模型卷不过的时候就转 C 端特效，毒液特效、万圣节特效这些东西技术门槛不高但用户爱玩。入选 a16z 全球 Top 50 生成式 AI 消费级移动应用第 25 位。

Pika两位斯坦福博士生郭文景和孟辰霖创立，累计融贄 1.35 亿美元（B 轮 8000 万美元，Spark Capital 领投），估值 4.7 亿。超 50 万用户，每周生成数百万视频。靠 AI 捏捏特效弯道超车，已集成进 Adobe Firefly。但模型能力在排名中垫底，Meta 曾在 2025 年 7 月洽谈收购。还在做“AI Selves”数字分身产品，在思考视频之外的事。团队只有 30 人左右，典型的“小而精”。

Pika：30 人团队，估值 4.7 亿美元，“小而精”的典型

Vidu（生数科技）由清华大学朱军教授团队创立，写实风格稳定，支持 32 秒视频，4D 生成是亮点。全球首个融合 Diffusion 与 Transformer 的 U-ViT 架构，生成 16 秒视频仅 10 秒。但还没有形成独特的竞争优势，在商业化上跟可灵、PixVerse 有明显差距。朱军认为 2026 年视频大模型商业化会加快，但目前行业还没到一家独大的状态。

万相（阿里）典型的“导演型”模型，参数控制非常细，但不适合“一键出片”。官方自己也承认：它是给有 shot list 的人用的。

Grok Imagine Video（xAI）—— 七个月从零到第一

2025 年 7 月，xAI 还没有视频产品。2026 年 1 月底，Grok Imagine 在 Artificial Analysis 的 Video Arena 上同时拿下了文生视频和图生视频两个第一。七个月，从零到第一。中间还收购了一家叫 Hotshot 的视频创业公司。仅 1 月就生成了超过 1 亿段视频。

但于 3 月 19 号，Grok 视频生成已经从免费层移到了付费订阅。原因跟 Sora 一样：GPU 成本太高。马斯克的打法是先免费拉爆用户，再收费。目前只支持 720p，没有专业工作流工具，更像是聊天产品里的功能而不是独立创作平台。如果能把分辨率推到 1080p，今年夏天之前就可能成为最强综合玩家。

开源阵营：被低估的野蛮力量

HunyuanVideo 1.5（腾讯） 只有 83 亿参数，RTX 4090 上 75 秒就能生成视频。完全开源，对数据不能出境的企业场景是目前最实用的选择。

LTX-2（Lightricks） 针对 NVIDIA 生态优化，年收入不超 1000 万美元的公司可免费商用。本地部署的桌面版编辑器是隐私敏感团队的禁区。

Wan 2.6（阿里开源） 艺术风格保持特别强，给它水彩画它就用水彩动起来，不会变写实。每秒生成成本 0.05 美元，是最便宜的选择之一。

开源模型的意义不只是免费。LibTV、TapNow 这些平台能聚合多模型，前提是有开源模型可以低成本调用。开源陪的是场地，闭源赚的是门票。

产品层：真正的战争在这里

模型层的格局在 2026 年 Q1 已经基本清晰了。但模型不等于产品，产品不等于生意。接下来的问题是：谁能把这些模型能力变成真正可用的工作流？

这里我重点分析三个产品，因为它们代表了三条完全不同的路线。

LibTV（LiblibAI）—— 赌“Agent 是下一个用户”

3 月 18 号上线，我觉得这是 2026 年 Q1 最值得关注的新产品之一。

LibTV 最有意思的设计是“双入口”——人类创作者用无限画布手搞视频，AI Agent 通过 Skill 接口自动跑全流程。行业里第一个从产品设计的第一天就把 Agent 当用户来服务的视频工具。

极客公园有篇文章写得很好：“给它一段参考视频，加一句话，然后你去忙别的了。十几分钟后，Agent 交回一支完整的 TVC——它自己写了剧本，自己拆了分镜，自己选了模型生成每一个镜头，自己剪辑，自己配乐。”

说白了，LibTV 赌的是一个判断：未来视频创作的“用户”不只是人类，还有大量的 Agent。Jensen Huang 在 GTC 2026 上说得很直接——每家公司都需要一个 Agent 系统战略。这个判断对不对另说，但产品设计上确实走在了前面。

功能层面，LibTV 集成 30 多个视频模型，20 多个专业工具，从剧本到分镜到成片可以在一个画布上完成。定价也很激进，免费给 300 条顶级模型视频额度。背后的逻辑是 LiblibAI 积累了三年的模型资源和 2000 万创作者社区，供给侧有成本优势。

但说句公道话，LibTV 上线才两周，产品稳定性和社区活跃度还需要时间验证。而 Agent 自动做视频的体验，目前还主要依赖 OpenClaw 生态，这个生态本身也还在早期。

我个人的感觉是，LibTV 的愿景很大，但时机可能早了半步。Agent 自动做视频这件事，当前更像是“概念验证”而不是“日常工具”。但话说回来，如果你等到时机成熟再做，就轮不到你了。做产品就是这样，早了可能死在沿途，晚了肯定死在起点。LibTV 选了早，这需要勇气。

TapNow（Tamar AI）—— 赌“电商才是最大的市场”

TapNow 走了一条跟 LibTV 完全不同的路：电商+广告垂直场景。

它的核心不是“做最好的视频”，而是“让品牌方和电商卖家能批量生产可投放的商业视频”。上传一张矿泉水白底图，2 分钟出一条日系广告片。输入产品官网 URL，5 分钟出一套符合亚马逊、TikTok Shop 规范的主图。

TapNow 聚合了 Veo 3.1、可灵、Hailuo 等多个模型，但核心竞争力不在模型，而在工作流模板和电商场景的深度适配。本土化模特生成（自动匹配欧美/东南亚审美）、JSON 级镜头参数控制、一键拉片复刻同款——这些功能都是电商场景下的硬需求。

有用户反馈电商素材点击率从 2.3%提升到 5.7%。汤臣倍健的南极 TVC 是它的标杆案例——全 AI 生成，达到百万级商业片质感。TapTV 社区开源 12 万个工作流。

我觉得 TapNow 的路线是对的。为什么？因为电商是目前 AI 视频变现效率最高的场景，没有之一。一套 7 张主图成本约 2.5 美元，比外包设计便宜一个数量级。而且电商场景的需求是明确的、可量化的、可重复的——这正是 AI 最擅长的。

但话说回来，依赖第三方模型是一个风险。如果字节哪天决定不让第三方平台调用 Seedance，或者 Google 改了 Veo 的定价策略，TapNow 的成本模型就会被动摇。这是所有“模型聚合型”产品的共同难题。

TapNow：电商+广告垂直场景的 AI 视觉创作引擎

OpenCreator —— 赌“效率工具”路线

OpenCreator 的定位是“统一的 AI 创作工作站”，把 Seedance、Veo、Sora（在它还活着的时候）、可灵等模型塞进一个界面。同一个 Image-to-Video 流程里可以一键切换模型、对比输出结果。

它的核心价值不是模型能力，而是模型聚合+工作流复用。对于需要频繁测试不同模型的创作者来说，省时间。但整体定位偏工具，缺少 LibTV 那种 Agent 双入口的前瞻性，也没有 TapNow 那种电商垂直场景的深度。工具类产品的问题是护城河很浅，任何模型厂商都可以自己做一个类似的聚合界面。

OpenCreator：统一的多模型创作工作站

更多值得关注的产品层玩家

除了上面三个重点分析的，还有一批产品在近两个 Q 集中上线或重大更新，值得单独拎出来说说：

Lovart AI —— AI 设计 Agent。定位不是视频生成器，而是“设计合作伙伴”。聚合了 Nano Banana Pro、Seedream、可灵等模型，核心特色是 ChatCanvas——你可以跟图像“对话”，选中某个区域说“把灯光调暖”，它只改那部分。这比重新写 prompt 强多了。定价也清晰，Pro 版每月 11000 积分，解锁可灵 2.6 和 Wan 2.6 等高级模型。对设计师和品牌方来说，这可能比纯视频工具更实用。

Lovart AI：ChatCanvas 让你跟图像“对话”

Google Flow —— 电影级 AI 制片。Google 的官方制片工具，内置 Veo 3.1。定位是场景级叙事控制，适合影视前期预演。跟即梦、LibTV 的“一站式”定位类似，但背后 Google 的算力和 4K 输出是其他玩家没有的。

ElevenCreative（ElevenLabs）—— 音视频一体化。ElevenLabs 本来是做语音合成的，现在把音频、视频、图像和本地化统一到一个平台。刚在 Product Hunt 上线，思路是“内容创作不应该拆成图像、视频、音频三个工具”。这个判断是对的。

LTX Studio（Lightricks）—— 叙事控制。专注场景级叙事规划，从剧本到分镜到视频的前期预演工具。定位很像“AI 版的故事板”。背后 Lightricks 也是 Facetune 的母公司，对移动端体验很有经验。同时 LTX-2 开源模型支持本地部署，形成了“开源模型+云端平台”的双轨布局。

Synthesia —— 数字人赛道的隐形冠军。超过 5 万个团队在用，240 多个 AI 头像，160 多种语言。不做 AI 视频生成，做 AI 视频“制作”——培训视频、产品说明、内部沟通。听起来不性感，但这可能是目前变现最稳定的 AI 视频场景。不需要比画质，企业客户要的是“能用、能复制、能规模化”。

Synthesia：不性感但最赚钱的 AI 视频场景

InVideo AI —— 脚本到视频自动化。输入脚本自动匹配画面、背景音乐和转场，周刷新免费额度，有水印。适合快速社交媒体内容。和 TapNow 的“专业化”路线相比，InVideo 走的是“极简化”，目标用户是不懂视频制作的中小企业。

Pictory 2.0 —— 2026 Q1 新上。Product Hunt 上新一代产品，加了 AI 头像、生成式视觉和交互式托管。定位是“不需要拍摄和剪辑软件的专业视频”，跟 Synthesia 有直接竞争。

Nano Banana 2（Google）—— 图像生成的新王。虽然主要是图像模型，但它是视频生成的上游——大量视频工作流是“先生图再动起来”。Nano Banana 2 嘨 2 月上线，速度接近 Flash，质量接近 Pro，在 Gemini 中免费用。它降低了“图生视频”整个链路的起点成本。

fal.ai —— API 聚合平台。把 Seedance、Kling、Hailuo、Veo、Wan 等模型统一封装成一个 API，一个账号、一个计费。不做前端产品，只做开发者服务。每秒价格从 0.05 美元（Wan）到 0.50 美元（Sora Pro）。对于需要把视频生成嵌入自己产品的开发者来说，这类“模型中间商”的价值是明确的。

OiiOii（闹闹 / Hogi AI）—— AI 动画创作 Agent。全球首个专业动画 Agent 工具。创始人闹闹是前腾讯产品经理，之后在字节和 B 站都待过。产品的思路很有意思：把编剧、分镜师、角色设计师、音效师等角色做成多个 Agent 协作，但工作流透明化，用户可以随时介入调整。计划招 100 个内测用户，结果来了 10 万人排队。162 种艺术风格，特别擅长中国传统文化元素。定位很明确：做 AI 动画，不做写实视频。

白日梦—— 短剧/漫剧工厂。专为小说推文、漫画推文和文生视频创作者设计。强调角色一致性和长时长生成，自动抽取角色、分镜和画面风格，批量生成分集视频。对网文改编、条漫动画化这类场景特别友好。是国内“AI 短剧”赛道的代表产品。

清影（智谱 AI）—— GLM 生态的视频入口。基于 CogVideoX 模型，支持 4K/60 帧、10 秒视频，自带 CogSound 音效生成。免费用。技术能力不差，但尚未形成独特的产品定位，更像是智谱大模型生态的一个功能模块。在测评中对复杂提示词的理解能力很强。

Luma Ray 3（Luma AI）—— 3D 感知的特殊位置。在图生视频排名中不算前列，但有一个独特优势：3D 空间感知。给它一张产品图或建筑渲染，它能推断深度，生成尊重三维结构的镜头运动。对电商产品视频和房地产可视化来说，这个专长很有价值。

MovieFlow —— AI 长片工厂。输入故事梗概，自动拆剧情结构、分镜，生成数分钟的连续影片。优势在于“长”和“自动化”，适合 YouTube 剧情向内容、长广告或教育短片。跟 OiiOii 的区别是 MovieFlow 把 Agent 封装在后台，用户不能在中间节点介入，而 OiiOii 让用户当“导演”。

腾讯智影—— 企业级工具箱。腾讯的 AI 智能创作工具，集成了视频剪辑、数字人、文字转视频、视频转绘等功能。不是最炫的，但背靠腾讯云，对企业客户来说“够用”可能比“最强”更重要。

Adobe Firefly Video —— 房间里的大象。Adobe 终于下场了。基于 Firefly 图像模型扩展到视频，主打“商业安全”（训练数据合规，不会有版权问题）。对于已经在用 Premiere/After Effects 的团队来说，这是最自然的选择。但定价不便宜，对于独立创作者可能不是首选。

我的四个判断

判断一：“抽卡时代”结束了

Seedance 2.0 的 90%可用率意味着 AI 视频生成的成本模型彻底变了。以前生成的视频多数要扔掉，现在多数能用。这会加速 AI 视频从“实验品”变成“生产工具”。当生成成本降到足够低，Agent 才能放开手脚做视频——这也 LibTV 赌 Agent 赛道的前提条件。

判断二：模型层会快速同质化，产品层会加速分化

大家都在用类似的 DiT 架构，模型能力的差距在缩小。但产品层的分化反而在加速：即梦做流量入口，LibTV 做 Agent 双入口，TapNow 做电商垂直，Runway 做专业创作者，PixVerse 做 C 端特效。每家选的赛道不同，竞争的维度也不同。没有“最好的 AI 视频产品”，只有“最适合你场景的”。

判断三：电商和短视频是最先赚到钱的场景

影视级长片很酷，但离规模化变现还很远。电商产品图、广告素材、短视频内容——这些场景的需求明确、可量化、可重复、对质量的容忍度相对高。这正是 AI 最擅长的。PixVerse 的收入已可覆盖绝大部分成本，TapNow 把电商主图成本压到 2.5 美元一套——这些都是实打实的变现信号。

我的判断很明确：这个赛道里最先赚到大钱的，不会是做“AI 电影”的公司，而是做“AI 广告素材”和“AI 短视频特效”的公司。原因很简单：广告主买单是按效果付费的，点击率从 2.3%涨到 5.7%，这个效果立竿见影，不需要你去说服他“AI 视频是未来”。而“AI 电影”现在还停留在“看，我用 AI 做了一个很酷的预告片”的阶段——酷是酷，但谁付钱？

判断四：Agent 是下一个“用户”，但还太早

LibTV 的双入口设计不是噐头，是一个正在发生的趋势。Figma、Canva、Spotify 都在接 OpenAI 的 Apps SDK，大量 SaaS 工具在接 Skill 接口。但说句实话，现在 Agent 自动做视频的体验还很粗糙，主要的用户还是人类创作者。这个赛道真正爆发可能还需要 6-12 个月。但提前布局总比后知后觉好。

最后说几句

回到开头的判断——模型层的第一仗打完了，字节暂时领先，但模型优势窗口期很短。Veo 3.1 在企业级场景已经很强了，可灵在短视频场景有生态优势，Runway 在专业创作者群体里根基很深。

真正决定这条赛道终局的，不是谁的模型参数更好看，而是谁能把“AI 生成视频”这件事变成一个可重复、可规模化、能赚钱的生意。

从 Sora 的死亡到 PixVerse 的近乎盈亏平衡，从字节的版权困境到 LibTV 的 Agent 赌注，从海螺的 meme 爆发到 TapNow 的电商深耕——这条赛道的故事，已经不是“谁的模型更强”的故事了。

我其实最佩服的是 PixVerse。王长虎在字节待过，最懂短视频用户要什么。模型卷不过就去做 C 端特效，不装“我们要做电影级”，老老实实做毒液变身、万圣节活动这种用户爱玩的东西。结果呢？一年不到就近乎盈亏平衡。这种务实，在一个天天喊“颠覆影视行业”的赛道里太稀缺了。

毕竟 Sora 都死了，模型能力从来不是唯一的答案。

本文同步自微信公众号，点击查看原文