135. 播客：探秘 Claude Code，搞懂 Agent Harness

2026.05.21

·agent general-agent-lab

20260521_1.webp|776

1. 核心观点

Agent 不是一串提示词工作流，而是一个围绕模型搭出来的工作系统。
- 模型负责智力。
- Harness 负责把智力变成可持续行动。
- 真正要学的不是“怎么多调几次模型”，而是怎么给模型环境、上下文、工具、权限、记忆和编排。
好的 Agent 产品，核心不是更强地控制模型。
- 而是给它更好的 context space。
- 给它更好的 action space。
- 再用权限和验收兜住风险。
对我来说，这期把 general-agent-lab 的学习方向说清楚了。
- 读 codex-cli / opencode，不能只读命令入口。
- 要看它怎么组织上下文、工具、沙盒、权限、交接、记忆和规则。

2. Agent Harness 是什么

模型以外都是 Harness。
- 模型像聪明的大脑。
- Harness 像身体、手脚、工具和机甲。
- 没有 Harness，模型只能思考，很难稳定行动。
它和模型能力不是互相替代。
- Agent 的智力上限还是模型。
- 行动边界、任务长度、稳定性、组织能力，很大程度来自 Harness。
- 所以“Agent 的上限来自 Harness”只对一半：
  - 智力看模型，做事看系统。
Learn Claude Code 的意义也在这里。
- 它是借 Claude Code 这个样本，观察一个成熟 code agent 的 Harness 设计模式。
- 背后的范式争论是 Prompt Flow 还是 Agent Native。
- Prompt Flow 是人提前写很多节点，控制模型每一步。
- Agent Native 是承认 Agent 本质是模型，然后给模型更好的上下文和行动空间。
现在仍然值得学这一层。
- 未来 Harness 可能会像 NestJS 一样开箱即用。
- 但现在还在技术周期里。
- 不理解 Harness，很容易只做出“套模型的壳”。

3. 三层结构

三层框架：会跑、跑久、跑稳。
- 执行能力层：让模型会跑。
  - 文件系统操作。
  - 浏览器访问。
  - 语言解释器。
  - CLI。
  - 代码注册工具。
  - MCP 工具。
  - 关键不是工具越多越好，而是工具必须和 Agent 角色绑定。
    - explorer 只给无副作用工具。
    - 测试 Agent 不应该同时有修改代码的权限。
    - 有些 Agent 需要限制域名、文件写入和高风险命令。
- 上下文环境层：让模型跑久。
  - 当前路径、文件结构、依赖环境、Git 状态。
  - 系统提示词、skills、memory。
  - 上一轮做到哪里、下一轮该接什么。
  - 这里的关键是：
    - 上下文不是聊天记录，而是模型工作的整个环境。
- 治理编排管理层：让一群 Agent 跑稳。
  - 任务拆分。
  - 串行 / 并行。
  - 权限治理。
  - 访问控制。
  - Agent 协作关系管理。
  - 两周内用多 Agent 构建 C 编译器的例子，本质上就是这三层一起工作。

4. Claude Code 的启发

Claude Code 源码泄露最值得看的是上下文管理。
- 工具 output 什么时候删。
- 上下文窗口到什么阈值开始交接。
- 下一个 Agent 初始化时加载什么。
- 什么信息应该压缩，什么信息应该保留。
- 任务做到什么程度，要写交接文档。
上下文窗口满了以后，不应该粗暴裁剪。
- 一种做法是清理垃圾信息，腾出空间。
- 另一种做法是设置阈值，比如 0.8，保留 20% 余量做交接。
- 交接文档要说清：
  - 当前任务是什么。
  - 已经做到哪。
  - 还要做什么。
  - 用户真正想要什么。
  - 下一个 Agent 应该先读什么。
Claude Code 的记忆机制可以单独记。
- 每轮结束后触发 hook，fork 一个 Agent，把有用信息更新到结构化 Markdown。
- autodream 大约隔一天跑一次，重放最近会话，纠错、合并、更新记忆。
- 记忆文件和 skill 一样，先读 description，不一上来把全文塞进上下文。
这里真正的判断标准是：
- 好的 Harness 要和模型的 inference 逻辑自洽，也要和 Agent 模型进步方向正交。
- 随意裁剪上下文、随意改系统提示词、用 Prompt Graph 硬控每一步，都会让模型越强越被束缚。

5. CLI、Unix 和 Agent Native

CLI 的价值不是命令行更酷，而是模型更熟。
- Unix 从 1971 年就存在。
- Linux 命令在预训练语料里出现过很多次。
- MCP 是最近两年的新协议，语料占比少很多。
- 所以很多任务里，CLI 比 MCP 更稳。
GitHub 和飞书都是这个逻辑。
- GitHub：一开始用 MCP，后来发现 gh CLI 成功率更高。
- 飞书：lark-cli 比插件更灵活，组合性和完成率都更好。
Bash is all you need 不是真的只要 bash。
- 它说的是：
  - 给模型一个训练充分、可组合、可二次编程的 action space。
- 这比给模型一个全新的协议抽象更自然。

6. K 系列工具链

辛璐团队做的是 Harness infra。
- Kcomputer：
  - 在数据结构上实现一台 Unix computer。
- Kruntime：
  - Agent runtime，给人类开发 Agent 的接口，也给 Agent 派生 Agent 的接口。
- Kwatch：
  - 观测层，看 Agent 在什么任务、什么环节卡住。
- Krl：
  - 把轨迹数据拿去强化学习，或做上下文层面的自迭代。
这里最有意思的是 Kcomputer。
- 它不是给每个 Agent 塞一台真的 Linux 虚机。
- 它是在语言层用数据结构模拟一个极轻的 Unix 环境。
- 浏览器、插件、App、Electron、小程序、纯静态网页、全栈 SaaS，只要能跑 JS，就能把这个环境带进去。
它和云厂商路线不一样。
- 不是把 Linux、浏览器、重型沙箱都塞进去。
- 编译器、浏览器这类重工具可以集约化服务，不必放进每个 Agent 的环境。
我先记住一句话：
- 给 Agent 一个专用计算机可能是对的，但这台计算机不一定要是真的虚机。

7. 未来方向

这期提到三个创业方向：
- Agent Harness 工具链。
- Agent 组网。
- 个性化模型训练和推理基础设施。
Agent 组网不是给 Agent 发 IM 或 Mail。
- 真正的问题是云端、端侧、Mac、Mac mini、路由器、NAS、闲置手机之间的混合组网。
- 很多设备没有公网 IP。
- Tailscale 这类东西方向对，但还不够 Agent Native。
- Agent 需要高通量上下文交换，也需要更多控制能力。
个性化模型训练这块，类似 Tinker 的方向。
- 集约化训练。
- 低成本 PEFT。
- LoRA 热插拔推理。
- 每个人或每个企业拥有更适合自己任务场景的模型。
Agent 的阶段预测：
- 单体 Agent 阶段：
  - 当前主流形态。
  - 单 Agent 独立完成任务。
  - 依赖手动管理与配置。
- 蜂群集群化阶段：
  - 未来 1-2 年。
  - Agent 自主管理和协调多 Agent。
  - 训练中加入协作编排能力。
- 零人公司阶段：
  - 长期趋势。
  - Agent 组成自治组织。
  - 完全驱动公司运行与创新。
1 人公司不是本质，真正 make sense 的是 0 人公司。
- 公司本来就是输入、输出和中间黑盒。
- 如果中间运行可以由 Agent 完成，人类公司就可能变成 Agent 公司。
- 未来投资标的也可能从人类公司转向一个个 Agent。

8. 启示

以后判断一个 Agent 产品，先看三件事：
- 模型是不是足够强。
- 上下文和 action space 是否合理。
- 权限、验收、记忆和交接有没有闭环。
我的个人系统也可以按 Harness 来看。
- os 提供长期内容源。
- skills 提供可复用动作。
- auto/ 提供本机自动化。
- config/ 提供私有凭证和状态。
- whoami 提供长期判断和协作协议。
- AGENTS.md 提供 workspace 边界。
Agent 产品的壁垒，可能越来越不在“包一层模型”，而在 Harness：环境、上下文、工具、权限、记忆、编排和反馈闭环。

9. 金句

模型以外都是 Harness。可以把模型比作一个聪明的大脑，但没有身体和手脚就只能思考，无法行动。
更多的 context，更少的 control。给模型配置合适工具，提供更多上下文和行动能力，减少控制。
现在更多的是单体 Agent，下一步是 Agent 蜂群集群化作业，未来 Agent 能自迭代提出新科研方案，驱动公司运行，出现零人公司。
Agent 其实是一个模型，模型才是 Agent。
如果你不了解 Harness，你做出来的产品缺乏灵魂和缺乏进一步迭代的空间。
好的 Harness 首先要符合模型本身在运行上的逻辑，也要符合模型未来能力进步的逻辑。
最好的管理，有时候就是不要乱管理上下文。
Unix 这个东西 1971 年就出现了，也许我们今天不应该再造更多轮子。
- 体感也是 MCP 没有 Cli 好用
我从来不觉得 1 人公司是本质的事情，我认为真正 make sense 的是 0 人公司。

10. 相关来源

播客地址： https://www.xiaoyuzhoufm.com/episode/69f2e83fbb3ffa11e59dec82
播客标题：探秘 Claude Code，搞懂 Agent Harness｜对谈来新璐

1. 核心观点 ​

2. Agent Harness 是什么 ​

3. 三层结构 ​

4. Claude Code 的启发 ​

5. CLI、Unix 和 Agent Native ​

6. K 系列工具链 ​

7. 未来方向 ​

8. 启示 ​

9. 金句 ​

10. 相关来源 ​

1. 核心观点

2. Agent Harness 是什么

3. 三层结构

4. Claude Code 的启发

5. CLI、Unix 和 Agent Native

6. K 系列工具链

7. 未来方向

8. 启示

9. 金句

10. 相关来源