拆解OpenClaw架构设计:从Gateway到四层记忆系统的技术全景

最近一直在读OpenClaw的源码和架构文档,把我的分析整理一下发出来。作为一个对底层实现比较执着的人,我尝试从架构视角把这个项目拆解清楚。

项目起源:一个原型如何演化成系统

创始人Peter Steinberger的技术背景值得关注。14岁做逆向工程,后来创办PDF SDK公司,覆盖10亿台设备后以过亿欧元退出。这个人的工程直觉是经过验证的。

退休三年后,他在2025年底观察到大模型的function calling能力跨过了可用阈值,于是花不到一小时做了个原型——本质上就是一个WhatsApp消息到系统命令的bridge。但关键在于,他选择的抽象层级恰好对了:不是封装某个模型的能力,而是构建一个消息通道到执行环境的通用管道

这就像Unix哲学里的pipe一样,正确的抽象一旦建立,组合能力就会指数级爆发。

GitHub星标几周内达到28万,超过了Linux三十年的积累。数据本身不说明技术优劣,但说明这个抽象层级击中了一个真实的结构性需求。

架构拆解:四个核心子系统

从系统设计的角度看,OpenClaw可以拆成四个关键子系统:

1. Gateway网关层

这一层本质上是个protocol adapter + message router。它把异构的IM协议(微信、飞书、Telegram、WhatsApp、Slack等50+平台)统一抽象成标准化的消息格式,然后根据上下文分发到对应的处理管道。

如果你做过微服务网关,这个模式很熟悉——类似于API Gateway做的协议转换和路由分发,只不过这里的上游不是HTTP请求,而是聊天消息。

2. 四层记忆架构

这是我觉得最有意思的设计。它用四个层级模拟了人类记忆系统的分层结构:

  • 灵魂层(SOUL.md):定义Agent的基本人格和行为准则。可以理解为系统的constitution,类似于Anthropic的Constitutional AI思路,但用声明式配置实现。其中有几条设计原则相当精妙——“你不是聊天机器人,你正在成为一个人”、“拥有立场,被允许有不同意见”、“提问前先穷尽手段”——这些约束从根本上改变了Agent的行为模式。
  • 工具层:注册可用的工具和技能,维护工具的元数据和调用接口。
  • 用户层:持久化存储用户偏好、历史交互模式、个性化配置。
  • 会话层:当前对话的短期记忆和上下文窗口。

从信息论的角度看,这四层分别对应了不同的信息衰减率——灵魂层几乎不变,工具层偶尔更新,用户层逐步积累,会话层快速轮换。这种设计让系统能在有限的context window内做出最优的信息选择。

3. 执行引擎

拥有终端控制、浏览器自动化、文件系统操作的系统级权限。关键的设计决策是本地优先——所有数据和执行都发生在用户设备上,不经过云端中转。这在安全模型上是一个重要的trade-off:减少了数据传输泄露的风险,但增加了本地攻击面。

执行引擎的另一个特性是自进化能力:遇到没有预置技能的任务,它能自己写脚本、调试、封装成新的skill模块。从软件工程的角度看,这等于是一个能够在运行时修改自身代码的元编程系统。

4. Skills技能包生态

模块化的插件系统,类似于package manager的模式。社区已经有数千个技能包。这里的设计选择是开放注册而非严格审核,好处是生态扩展速度极快,代价是引入了供应链安全风险——后面会分析。

为什么这个架构能引发链式反应?

从技术演进的角度分析,有三个时间窗口同时打开了:

第一,大模型的function calling和tool use能力在2025年底跨过了实用阈值,准确率和响应速度终于达到了可以串联多步操作的水平。

第二,从"生成式AI"到"智能体AI"的范式转移正好需要一个参考实现。按黄仁勋在CES上的分类,AI发展分感知、生成、智能体、物理AI四个阶段。OpenClaw恰好出现在第二到第三阶段的转折点上。

第三,IM作为交互界面的选择降低了用户学习成本到几乎为零——不需要学习新的UI,直接在已有的聊天工具里发消息。这个决策看似简单,实际上是一个非常精准的interface boundary选择。

Y Combinator的Paul Graham称之为AI的"iPhone时刻"。围绕它的生态已经开始分化:阿里云、腾讯云、火山引擎抢做一键部署,国产替代方案(MaxClaw、Kimi Claw、有道龙虾)密集上线,飞书因为开放的API成为国内最主流的交互前端。

安全模型的结构性缺陷

这部分必须客观分析。安全研究者Simon Willison提出过一个"致命三角"模型:当AI同时具备访问私人数据、暴露于不可信内容、能与外界通讯三个特征时,系统处于高风险状态。OpenClaw三条全中。

已知的安全事件包括:社区应用数据库配置错误导致公开暴露;近300个技能包存在凭证泄漏风险;提示词注入攻击可以让Agent在用户不知情的情况下执行恶意操作——本质上这是一个信任边界模糊的问题。

从防御角度看,当前的安全模型缺少几个关键组件:细粒度的权限隔离、技能包的沙箱执行环境、以及可审计的操作日志。这些在传统操作系统里都是标配,但在AI Agent框架里还处于早期阶段。

技术判断

OpenClaw的核心贡献不在于某个具体的技术突破,而在于它找到了一个正确的系统抽象:把IM消息、大模型推理、本地执行环境三者通过一个gateway-memory-executor的管道架构连接起来。

这个抽象一旦成立,后续的能力扩展就变成了在每个子系统内做深度优化的工程问题。这也是为什么它能引发如此大规模的生态响应——正确的抽象层级会吸引整个产业链围绕它组织资源。

但需要保持清醒:工具的架构设计再精妙,最终的价值还是取决于它被用来解决什么问题。正如Alan Kay所说——"观点抵得上80点智商。"对这个工具形成自己的判断,比急于跟风部署更重要。

看着舒服

比较理性

这个分析很到位

帮大忙了

有没有更基础的版本 这个对我来说太深了

这种plugin架构最大的问题是版本兼容 等生态大了就知道痛了

跟Linux比star数是认真的吗 完全不是一个量级的东西

技术架构不错 但产品定位还是模糊 到底解决谁的什么问题

从运维角度最关心的是可观测性 目前日志和指标都太弱了

大三才知道还有这种设计模式 学校教的都是上世纪的东西

@noobkid 基础版本建议先看官方的Getting Started文档 这篇是给有架构经验的人看的 先学会用再研究怎么造

@gradlife 大三能看懂这篇说明基础不错 学校教的设计模式是基础 现代架构是在基础上演化出来的 两者不矛盾

四层记忆系统设计得不错,但实际效果差强人意

Gateway的路由逻辑写得很优雅

四层记忆系统设计挺巧妙的

分布式锁用Redlock还是ZooKeeper看场景

自己写MCP server其实不难