LLM 基础设施正在发生一个根本性的变化:文件系统成了 Agent 最重要的基础设施。

文件系统 = Agent 的工作记忆

Context Window 就是 RAM,Filesystem 就是 Disk。所有重要的东西都应该写到磁盘上。

以 Manus 举例,Agent 在执行任务时会创建三个 markdown 文件:task_plan.md 记录目标和进度、notes.md 记录调研发现、再加一个结果。当上下文窗口填满时,Agent 不会丢失方向,因为它可以随时重新读 task_plan.md,把目标重新拉回注意力范围。这解决了长任务中的「Lost in the Middle」问题。

有意思的是,三个完全独立的项目——Manus、Claude Code(CLAUDE.md + Skills 系统 + .claude/MEMORY.md)、OpenClaw ——不约而同地收敛到了同一个方案:用 Markdown 文件做 Agent 记忆。

文件系统改变了 Agent 的三件事

记忆(Memory):Agent 不需要专门的「记忆模块」或向量数据库。CLAUDE.md 就是项目级长期记忆,task_plan.md 就是任务级工作记忆,.claude/MEMORY.md 就是自动捕获的经验积累。

当行业花了几百万美金建向量数据库和 RAG 时,真正跑通了的方案是几个 Markdown 文件。

技能(Skills):Claude Code 的 Skills 系统就是文件——SKILL.md 按需加载到上下文里。40+ 个 Agent 工具现在支持同一套 Skills 规范。技能不是代码,是文件。

上下文管理(Context Engineering):Manus 把完整的工具调用结果存到文件系统,上下文里只保留文件路径引用。需要时用 glob 和 grep 按需读取。这就是 Anthropic 说的「just-in-time context」——不把整个数据库塞进上下文,维护索引,需要时再读。

所以沙箱是什么?

说白了,沙箱就是一个带文件系统的隔离执行环境。没有文件系统,Agent 就没有状态、没有记忆、没有工作空间、没有技能加载机制。

上面说的所有东西——task_plan.md、CLAUDE.md、Skills、上下文外部存储——全部依赖一个持久化的、可读写的文件系统。

这就是为什么沙箱是 2026 年 Agent 基础设施里最确定的赛道。

一、沙箱为什么重要:三个产品证明的事情

1.1 Manus:“云电脑”让 Agent 质变

Manus 不是一个单一的 LLM Agent,而是一个多 Agent 协调系统。Planner 分解任务,Executor 执行,Verifier 检查。但让它从“聊天机器人”变成“能干活的 Agent”的关键,是每个任务都会分配一台完整的云虚拟机。

这台“电脑”有文件系统、浏览器、终端、网络访问。Agent 可以在里面写代码、建网站、做数据分析、甚至建移动应用。

Manus 的联合创始人说:“Manus 不只是跑几行代码。它用 27 种不同的工具,需要 E2B 提供一台完整的虚拟电脑。”

▲ Manus 使用 E2B 为每个任务分配完整虚拟电脑(来源:E2B Blog)

E2B 自己的估算:如果 Manus 自建这套基础设施,需要 3-5 个全职 infra 工程师花好几个月。但 Manus 选择自托管 E2B,把所有精力放在多 Agent 编排上。信号很明确:沙箱是基础设施,不是应该自建的东西

Manus 的 Wide Research 更进一步——把每个用户的可用算力放大 100 倍,让任何人都能通过聊天控制一个超算集群。

▲ Manus 多 Agent 架构:Planner 分解任务,Executor 在 E2B 沙箱中执行(来源:E2B Blog)

1.2 AutoGLM:比 Manus 更激进的“云手机 + 云电脑”

智谱的 AutoGLM 走了一条更激进的路。它不只是给 Agent 一个沙箱,而是直接给用户一台云手机和一台云电脑。

云手机装了 30 个 App(微博、小红书、淘宝、抖音…),云电脑是 Ubuntu + 浏览器 + LibreOffice。Agent 在这些环境里像人一样操作。

为什么要这么做?因为真实世界太不确定了。不同用户的微信版本不同、UI 布局不同、还有广告弹窗干扰。智谱的解法不是让模型更智能,而是创建一个标准化的世界

技术路线很清楚:Agent 的能力上限由沙箱的完整性决定。你给 Agent 一个浏览器,它只能浏览。你给它一台完整的电脑,它能做任何图灵完备的事。

1.3 Claude Code:Agent 住进你的文件系统

Manus 给 Agent 一台独立的虚拟机,AutoGLM 给一台云手机。

Claude Code 做的事情更直接——让 Agent 住进你已有的项目目录。

这是「文件系统作为 LLM 基础设施」最纯粹的体现。Claude Code 不创建新环境,它直接操作你的代码库:读你的源文件理解架构、改你的代码修 bug、跑你的测试验证结果、看你的日志排查问题。CLAUDE.md 文件变成了 Agent 的长期记忆,项目目录结构变成了 Agent 的认知地图,git history 变成了 Agent 的经验积累。

说白了,Claude Code 证明了一件事:文件系统不只是存储,它就是 Agent 的工作记忆和认知接口。Agent 不需要专门的「记忆模块」——文件就是记忆。Agent 不需要专门的「知识库」——代码库本身就是知识库。

这跟 Karpathy 说的「LLM 知识库」是同一个方向。

而且 Claude Code 的 session 本身也是文件——JSONL 格式,存在 ~/.claude/projects/ 下面。单个 session 可以增长到 3GB+。整个 Agent 的状态、历史、上下文,全部活在文件系统里。

这就是为什么 Anthropic 在 Managed Agents 里把 session 从容器里抽出来做成独立的外部存储——因为这些文件太重要了,不能跟着容器一起销毁。

三个案例放在一起看就很清楚了。Manus 给 Agent 一台新电脑(独立文件系统),AutoGLM 给 Agent 一台标准化设备(受控文件系统),Claude Code 让 Agent 操作你的电脑(共享文件系统)。

形态不同,但底层需求一样:Agent 需要一个能读写文件的持久化环境。这就是沙箱。

二、产品案例深度拆解

2.1 Perplexity:从用户到自建

Perplexity 是 E2B 最重要的案例之一。每月 3.4 亿次搜索,用 E2B 为 Pro 用户做代码执行和数据可视化。从开始集成到上线只用了一周。但现在 Perplexity 已经在建自己的 Sandbox API——基于 K8s pod 隔离,每个 session 独立 pod。

Perplexity 的 Sandbox API 有一个很有意思的安全设计:沙箱没有直接网络访问。需要出站时,走外部代理,代理按域名匹配并注入凭据。沙箱内的代码永远接触不到 API key。这和 Anthropic Managed Agents 的“凭据不进 sandbox”完全一样。两家独立得出的相同结论。

这也说明一个趋势:大客户会从 E2B “毕业”,自建沙箱基础设施。这对 E2B 的商业模式是一个潜在威胁。

2.2 Hugging Face:沙箱做 RL 训练

Hugging Face 用 E2B 做 Open R1 的强化学习训练,同时拉起数百个沙箱。LMArena(最流行的 AI 模型评测榜)用 E2B 跑 Web-Arena 评估。Meta 用 Modal 做神经调试器 Code World Model,同时拉起数千个并发沙箱做 RL。

这揭示了沙箱的第二个大用活:不只是运行时,还是训练时。Agent 需要在沙箱里学习操作环境,就像 AutoGLM 的 ComputerRL。所以沙箱的用量会比光“执行任务”场景大得多。

Devin(Cognition):估值 $10.2B 的沙箱原住民

Devin 是最早把「Agent 在沙箱里工作」这件事做到极致的产品。每个 Devin 实例都在独立的沙箱环境里运行,配备 shell、代码编辑器、浏览器和持久化文件系统。Devin 2.0 更进一步——可以同时开多个并行实例,每个跑在独立的云端 IDE 里。这就是 Anthropic 说的「多脑多手」在产品层的体现。

数据很硬:ARR 从 2024 年 9 月的 $1M 飙到 2025 年 6 月的 $73M。收购 Windsurf 后合并 ARR 约 $150M。估值 $10.2B(2025.09 Founders Fund 领投 $400M Series C)。Goldman Sachs 在用,12000 名工程师旁边跑着一群 Devin。

对沙箱赛道的意义:Devin 证明了一件事——当你给 Agent 一台完整的「电脑」(shell + 编辑器 + 浏览器),而不只是一个代码补全接口,产品形态会完全不同。Devin 能做的事情(自动调试、跑测试、部署代码)和 Cursor/Copilot 那种补全工具完全不在一个维度。差别就在于有没有沙箱。

Bolt.new(StackBlitz):浏览器就是沙箱

Bolt.new 是沙箱赛道最戏剧性的故事。StackBlitz 花了 7 年做 WebContainers(在浏览器里跑完整 Node.js 环境),但到 2023 年底 ARR 只有 $80K,投资人下了最后通牒。然后 2024 年 6 月 Claude 3.5 Sonnet 发布,StackBlitz 把 AI 和 WebContainers 结合,做出了 Bolt.new。

结果:30 天从 $0 到 $4M ARR。6 个月到 $40M ARR。500 万用户。$700M 估值,$135M 融资。

Bolt.new 的沙箱路线和其他所有玩家都不一样:它不用云端 VM,不用 Firecracker,不用 Docker。沙箱就是你的浏览器。WebContainers 在浏览器 tab 里虚拟了一个 Linux 环境,跑 Node.js、npm、dev server,全部在客户端。启动是毫秒级,零网络往返,而且几乎没有服务器成本——因为算力在用户设备上。

这对成本结构的影响是颠覆性的。Lovable 用 Fly.io 跑云端沙箱,每个用户都要付服务器钱。Bolt.new 把计算推到客户端,能开免费层(100 万 token/月)还保持高利润率。CTO Albert Pai 说得直白:「大家以为我们有一个巨大的服务器农场,其实服务器就是你的浏览器。」

OpenAI Codex:云端沙箱跑代码

OpenAI 的 Codex(2025 年发布的 coding agent,不是早期的代码补全模型)也是沙箱原住民。每个任务在独立的云端沙箱里执行,有完整的终端、文件系统和网络访问。和 Devin 的架构类似但定位不同——Codex 更侧重在现有 IDE 工作流里嵌入 Agent 能力,而不是做独立产品。

Replit Agent:容器即产品

Replit 是最早把「在线 IDE + 容器化执行」做成产品的公司之一。Replit Agent 在独立容器里跑用户的代码,从生成到部署一条龙。他们的优势是容器基础设施成熟(自研 Nix-based 环境),但代价是每个容器都有服务器成本。和 Bolt.new 的客户端沙箱形成鲜明对比。

Lovable:Vibe Coding 的代表,沙箱跑在 Fly.io 上

Lovable 是 vibe coding 赛道最火的产品之一——输入自然语言描述,直接生成带前端、后端、数据库、认证的完整应用。它的沙箱跑在 Fly.io 的云端容器上。这意味着每个用户的每次构建都要付服务器钱。和 Bolt.new 的客户端沙箱对比非常有意思:同样是 vibe coding,Bolt.new 把计算推到浏览器、服务器成本接近零;Lovable 用云端容器、成本和用户量正相关。两种沙箱路线,两种成本结构,两种商业模式。

v0(Vercel):用自家 Sandbox 吃自家狗粮

Vercel 的 v0 在 2026 年初从组件生成器进化成了全栈开发工具,加了 sandbox-based runtime——能导入 GitHub 仓库、拉 Vercel 环境变量、在沙箱里构建完整应用。用的就是 Vercel 自己的 Sandbox 产品(Firecracker microVM + Fluid 计算)。600 万开发者,$9.3B 估值。这是大厂用自己的沙箱基础设施做上层产品的典型案例。

OpenHands(原 OpenDevin):开源 Devin 替代品

68.6K GitHub Stars,$18.8M Series A。OpenHands 是最流行的开源自主 coding agent。每个任务跑在 Docker 沙箱里,有完整的文件编辑、终端、浏览器能力。SWE-bench Verified 上用 Claude 跑出 77.6% 的成绩。有意思的是他们的 V1 SDK 正在从「强制 Docker」转向「可选沙箱」,默认用 LocalWorkspace 降低使用门槛。这也是一种对 sandbox 需求的回应——不是每个任务都需要完整隔离。和 Anthropic 的「沙箱按需加载」异曲同工。

Phoenix.new:Sprites 的标杆案例

Chris McCord(Phoenix 框架作者)在 Fly.io Sprites 上做了 Phoenix.new——Agent 生成 Phoenix 应用后,可以直接看到应用的运行日志。这在临时化沙箱里做不到。因为 Agent 写完代码后沙箱就销毁了,你看不到运行时的行为。持久化沙箱让 Agent 能利用应用的整个生命周期——不只是写代码,还包括看日志、调试、监控。Kurt Mackey 说这就是为什么「临时沙箱的时代结束了」。

PPIO:中国的 Agent 沙箱基础设施

PPIO 是国内较早推出 Agent Sandbox 产品的云服务商,为 Agent 提供专门的云端运行环境。智谱 AutoGLM 的「云端执行」思路在国内正在被更多公司采纳。当 Agent 需要操作真实应用(外卖、打车、购物)时,标准化的云端环境比在用户手机上跑要可控得多。这可能是国内沙箱赛道的一个独特方向。

划重点:以上所有成功的 Agent 产品——Manus、AutoGLM、Devin、Bolt.new、Claude Code、Perplexity、Replit Agent——都有一个共同点:它们给 Agent 一个可以「动手」的环境。区别只在于这个环境是云端 microVM(E2B/Firecracker)、云端容器(Docker)、浏览器沙箱(WebContainers)、还是云手机/云电脑(AutoGLM)。但没有任何一个成功的 Agent 产品是「只动嘴不动手」的。沙箱不是可选项,是必要条件。

三、Anthropic Managed Agents:三个核心架构设计

3.1 推理层与执行层分离

Anthropic 最早和大多数人一样,把所有东西塞进一个容器。结果这个容器变成“宠物”——挂了 session 就没了,卡住了你得进去“救治”。

更要命的是客户想把 Claude 连到自己的 VPC,当 harness 和 sandbox 绑在一起时,网络边界成了大问题。

解法:把 Agent 拆成三个独立接口。Harness(编排循环,无状态)调用 Sandbox(执行环境)就像调用任何工具:

execute(name, input) → string

容器和 harness 都变成“运行环境”——挂了就换。效果:p50 TTFT 降 60%,p95 降 90%+。安全边界也重新划定——凭据永远不进 sandbox,Git token 在初始化时写入 remote,OAuth token 存在外部 vault。这是从架构上堵死。microsandbox 的“secret 不离开宿主机”异曲同工。

▲ 解耦后:Harness 从容器抽出,Session 独立存储,Sandbox 按需创建

3.2 沙箱按需加载

这是最容易被低估的设计。以前每个 session 都得等容器启动——clone 仓库、装依赖、拉事件——哪怕只是回答一个简单问题。解耦后,Claude 觉得需要执行代码时才通过 provision({resources}) 拉起容器。大多数 session 的 TTFT 不再受 sandbox 冷启动影响。

对沙箱服务商来说,你的冷启动速度可能没你想的那么重要。如果上层架构做得好,大多数请求根本不触发 sandbox。但反过来,当确实需要 sandbox 时,启动速度又很关键。这解释了为什么 Zeroboot 的 0.79ms 启动如此重要——如果沙箱能像函数调用一样快,Agent 可以在每个决策点 fork 一个新环境。

3.3 上下文动态召回:Session 不等于 Context Window

Anthropic 把 session log 从容器里抽出来,做成外部持久化的 append-only 事件流。关键接口:

getEvents() — 按位置选取事件流切片

emitEvent(id, event) — 写入新事件

这解决了三个问题。第一,容器挂了不丢数据。第二,context window 和历史记录解耦——全量保存、按需召回,拿回来还能在 harness 里做任意变换。第三,harness 升级不影响历史数据。

为什么“存储”和“管理”分开很关键?Anthropicn 明确说了:“我们无法预测未来模型需要什么样的 context engineering”。他们举了真实例子:Sonnet 4.5 有 context anxiety,必须用 context reset。同样的 harness 放在 Opus 4.5 上,行为消失了。Reset 变成死代码。

四、主要玩家深度分析

4.1 E2B:跑在最前面,但后面追得很紧

▲ E2B:为 AI Agent 提供云端沙箱执行环境(来源:E2B)

优势:2 亿+ sandbox,88% Fortune 100,客户包括 Manus、Perplexity、Hugging Face、Groq。开源核心。自托管可选。

商业模式:按秒计费 + $150/月 Pro。这个定价让小用户痛苦。服务 Manus 这样的大客户时又被 beta storage 和 24h 限制卡住。

战略动向:正往“开源沙箱协议”方向发展。计划加 Secrets Vault、监控、多沙箱管控台。这和 Anthropic 的 meta-harness 思路一致——标准化接口、开源生态。E2B sandbox 月创建量一年内从 4 万增长到 1500 万,375 倍。

▲ E2B 沙箱创建量增长趋势(来源:E2B)

风险:Pause/Resume 在 beta,有已知数据丢失 bug。无真正 SSH。ARR 只有 $1.5M(截至 2025.06),和融资量不成比例。

4.2 Daytona:增速最猛的挑战者

优势:2025 年从开发环境转型。<90ms 冷启动。支持 fork/snapshot/Computer Use。客户包括 LangChain、Turing、Writer。

商业模式:3 个月 $1M ARR,6 周翻倍。$24M Series A 由 FirstMark 领投(投过 Airbnb/Pinterest/Discord),Datadog 和 Figma Ventures 战投。

风险:默认 Docker 隔离,弱于 microVM。仅一个区域、20 人团队。Apache 2.0 开源是大优势。

4.3 Fly.io Sprites:持久化派的实践者

优势:持久化 Firecracker VM。100GB Tigris-backed 存储、30 秒 auto-sleep。预装 Claude Code。社区调研结论:比 Machines 方案减少 60-70% 自定义代码。cgroup 实测计费。4h Claude Code session 约 $0.44。

▲ Fly.io Sprites:持久化 Firecracker microVM,闲置自动休眠(来源:Fly.io Blog)

风险:2026.01 才发布。无 SLA。不能选区域。闭源。

4.4 Modal:AI 基础设施平台,沙箱只是其中一块

优势:ARR $50M,估值冲 $2.5B。Meta 用它跑 reinforcement learning,Scale AI 用它做 MCP server。serverless GPU 原生支持。Python SDK 体验极佳。$30/月免费额度。

风险:gVisor 隔离弱于 microVM。24h sandbox 生命周期。无 BYOC。不会为沙箱专门优化。

4.5 新兴玩家速览

Zeroboot:0.79ms 启动,比 E2B 快 190 倍。如果成熟,沙箱会像函数调用一样廉价。

microsandbox (YC X26):本地优先 microVM + 网络层 secret 注入。专为 claude –dangerously-skip-permissions 安全执行设计。

Vercel Sandbox:Firecracker + Fluid 计算,I/O 等待不计费,bursty 工作负载降 95% 成本。但 session 限 5h。

Google Agent Sandbox:开源,K8s 原生。适合已有 K8s 的团队。

Alibaba OpenSandbox:协议驱动、多语言 SDK。开源 K8s 规模化方案。

五、结语:从“沙箱”到“Agent OS”

回头看整个赛道,最有意思的不是哪家沙箱服务更快、更便宜,而是整个行业正在从“沙箱”向“Agent OS”演进。

E2B 说自己要做“沙箱界的 HTTP 协议”。Anthropic 用 session/harness/sandbox 三个抽象做了类似操作系统的事。Manus 给每个任务一台“完整的个人电脑”。AutoGLM 给每个用户一台“云手机”。Sprites 的口号是“可一秒召唤的持久式电脑”。Daytona 叫自己“可编程的可组合计算机”。

▲ Managed Agents 架构概览:Session / Harness / Sandbox 三层虚拟化

所有人都在说同一件事:Agent 需要一台电脑。区别只在于这台电脑是临时的还是持久的、是台式机还是手机、是开源还是闭源、是单用户还是多用户。

而 Anthropic 的 Managed Agents 架构给出了最清晰的答案:不要针对具体的电脑编程,要针对“能使用任何电脑”的接口编程。execute(name, input) → string。底下是什么,以后再说。

最后聊聊我们自己在做的事。

Mana 的定位是 Vibe iPhone——用自然语言创建原生 iPhone 应用、系统扩展,

我们的架构从一开始就是基于 computer 的。我们的 Agent 需要一台「电脑」来帮用户生成、测试、部署应用。

每个用户任务分配独立的执行环境,Agent 在里面跑代码、装依赖、构建应用。我们经历了这篇报告里描述的所有问题:容器变成宠物、session 和 sandbox 耦合、冷启动拖慢体验。

我的判断:沙箱赛道的终局不是某一家赢,而是像 Anthropic 说的那样——接口标准化,实现可替换。今天我们跑在 E2B 上,明天可能换成 Sprites 或者别的什么。只要 execute(name, input) → string 这个接口不变,上层的 Agent 逻辑就不用动。这就是为什么我们从一开始就把执行环境藏在接口后面。

如果你也在做 Agent 产品,或者对 Vibe iPhone 这个方向感兴趣,欢迎大家留言讨论,分享你的观点!

觉得内容不错的朋友能够帮忙右下角点个赞,分享一下。你的每次分享,都是在激励我不断产出更好的内容。


本文同步自微信公众号,点击查看原文