135. 播客:探秘 Claude Code,搞懂 Agent Harness

20260521_1.webp|776

1. 核心观点

  • Agent 不是一串提示词工作流,而是一个围绕模型搭出来的工作系统。
    • 模型负责智力。
    • Harness 负责把智力变成可持续行动。
    • 真正要学的不是“怎么多调几次模型”,而是怎么给模型环境、上下文、工具、权限、记忆和编排。
  • 好的 Agent 产品,核心不是更强地控制模型。
    • 而是给它更好的 context space
    • 给它更好的 action space
    • 再用权限和验收兜住风险。
  • 对我来说,这期把 general-agent-lab 的学习方向说清楚了。
    • codex-cli / opencode,不能只读命令入口。
    • 要看它怎么组织上下文、工具、沙盒、权限、交接、记忆和规则。

2. Agent Harness 是什么

  • 模型以外都是 Harness。
    • 模型像聪明的大脑。
    • Harness 像身体、手脚、工具和机甲。
    • 没有 Harness,模型只能思考,很难稳定行动。
  • 它和模型能力不是互相替代。
    • Agent 的智力上限还是模型。
    • 行动边界、任务长度、稳定性、组织能力,很大程度来自 Harness。
    • 所以“Agent 的上限来自 Harness”只对一半:
      • 智力看模型,做事看系统。
  • Learn Claude Code 的意义也在这里。
    • 它是借 Claude Code 这个样本,观察一个成熟 code agent 的 Harness 设计模式。
    • 背后的范式争论是 Prompt Flow 还是 Agent Native
    • Prompt Flow 是人提前写很多节点,控制模型每一步。
    • Agent Native承认 Agent 本质是模型,然后给模型更好的上下文和行动空间。
  • 现在仍然值得学这一层。
    • 未来 Harness 可能会像 NestJS 一样开箱即用。
    • 但现在还在技术周期里。
    • 不理解 Harness,很容易只做出“套模型的壳”。

3. 三层结构

  • 三层框架:会跑、跑久、跑稳。
    • 执行能力层:让模型会跑。
      • 文件系统操作。
      • 浏览器访问。
      • 语言解释器。
      • CLI
      • 代码注册工具。
      • MCP 工具。
      • 关键不是工具越多越好,而是工具必须和 Agent 角色绑定。
        • explorer 只给无副作用工具。
        • 测试 Agent 不应该同时有修改代码的权限。
        • 有些 Agent 需要限制域名、文件写入和高风险命令。
    • 上下文环境层:让模型跑久。
      • 当前路径、文件结构、依赖环境、Git 状态。
      • 系统提示词、skillsmemory
      • 上一轮做到哪里、下一轮该接什么。
      • 这里的关键是:
        • 上下文不是聊天记录,而是模型工作的整个环境。
    • 治理编排管理层:让一群 Agent 跑稳。
      • 任务拆分。
      • 串行 / 并行。
      • 权限治理。
      • 访问控制。
      • Agent 协作关系管理。
      • 两周内用多 Agent 构建 C 编译器的例子,本质上就是这三层一起工作。

4. Claude Code 的启发

  • Claude Code 源码泄露最值得看的是上下文管理。
    • 工具 output 什么时候删。
    • 上下文窗口到什么阈值开始交接。
    • 下一个 Agent 初始化时加载什么。
    • 什么信息应该压缩,什么信息应该保留。
    • 任务做到什么程度,要写交接文档。
  • 上下文窗口满了以后,不应该粗暴裁剪。
    • 一种做法是清理垃圾信息,腾出空间。
    • 另一种做法是设置阈值,比如 0.8,保留 20% 余量做交接。
    • 交接文档要说清:
      • 当前任务是什么。
      • 已经做到哪。
      • 还要做什么。
      • 用户真正想要什么。
      • 下一个 Agent 应该先读什么。
  • Claude Code 的记忆机制可以单独记。
    • 每轮结束后触发 hook,fork 一个 Agent,把有用信息更新到结构化 Markdown。
    • autodream 大约隔一天跑一次,重放最近会话,纠错、合并、更新记忆。
    • 记忆文件和 skill 一样,先读 description,不一上来把全文塞进上下文。
  • 这里真正的判断标准是:
    • 好的 Harness 要和模型的 inference 逻辑自洽,也要和 Agent 模型进步方向正交。
    • 随意裁剪上下文、随意改系统提示词、用 Prompt Graph 硬控每一步,都会让模型越强越被束缚。

5. CLI、Unix 和 Agent Native

  • CLI 的价值不是命令行更酷,而是模型更熟。
    • Unix 从 1971 年就存在。
    • Linux 命令在预训练语料里出现过很多次。
    • MCP 是最近两年的新协议,语料占比少很多。
    • 所以很多任务里,CLIMCP 更稳。
  • GitHub 和飞书都是这个逻辑。
    • GitHub:一开始用 MCP,后来发现 gh CLI 成功率更高。
    • 飞书:lark-cli 比插件更灵活,组合性和完成率都更好。
  • Bash is all you need 不是真的只要 bash。
    • 它说的是:
      • 给模型一个训练充分、可组合、可二次编程的 action space。
    • 这比给模型一个全新的协议抽象更自然。

6. K 系列工具链

  • 辛璐团队做的是 Harness infra。
    • Kcomputer
      • 在数据结构上实现一台 Unix computer。
    • Kruntime
      • Agent runtime,给人类开发 Agent 的接口,也给 Agent 派生 Agent 的接口。
    • Kwatch
      • 观测层,看 Agent 在什么任务、什么环节卡住。
    • Krl
      • 把轨迹数据拿去强化学习,或做上下文层面的自迭代。
  • 这里最有意思的是 Kcomputer
    • 它不是给每个 Agent 塞一台真的 Linux 虚机。
    • 它是在语言层用数据结构模拟一个极轻的 Unix 环境。
    • 浏览器、插件、App、Electron、小程序、纯静态网页、全栈 SaaS,只要能跑 JS,就能把这个环境带进去。
  • 它和云厂商路线不一样。
    • 不是把 Linux、浏览器、重型沙箱都塞进去。
    • 编译器、浏览器这类重工具可以集约化服务,不必放进每个 Agent 的环境。
  • 我先记住一句话:
    • 给 Agent 一个专用计算机可能是对的,但这台计算机不一定要是真的虚机。

7. 未来方向

  • 这期提到三个创业方向:
    • Agent Harness 工具链。
    • Agent 组网。
    • 个性化模型训练和推理基础设施。
  • Agent 组网不是给 Agent 发 IM 或 Mail。
    • 真正的问题是云端、端侧、Mac、Mac mini、路由器、NAS、闲置手机之间的混合组网。
    • 很多设备没有公网 IP。
    • Tailscale 这类东西方向对,但还不够 Agent Native
    • Agent 需要高通量上下文交换,也需要更多控制能力。
  • 个性化模型训练这块,类似 Tinker 的方向。
    • 集约化训练。
    • 低成本 PEFT
    • LoRA 热插拔推理。
    • 每个人或每个企业拥有更适合自己任务场景的模型。
  • Agent 的阶段预测:
    • 单体 Agent 阶段:
      • 当前主流形态。
      • 单 Agent 独立完成任务。
      • 依赖手动管理与配置。
    • 蜂群集群化阶段:
      • 未来 1-2 年。
      • Agent 自主管理和协调多 Agent。
      • 训练中加入协作编排能力。
    • 零人公司阶段:
      • 长期趋势。
      • Agent 组成自治组织。
      • 完全驱动公司运行与创新。
  • 1 人公司不是本质,真正 make sense 的是 0 人公司。
    • 公司本来就是输入、输出和中间黑盒。
    • 如果中间运行可以由 Agent 完成,人类公司就可能变成 Agent 公司。
    • 未来投资标的也可能从人类公司转向一个个 Agent。

8. 启示

  • 以后判断一个 Agent 产品,先看三件事:
    • 模型是不是足够强。
    • 上下文和 action space 是否合理。
    • 权限、验收、记忆和交接有没有闭环。
  • 我的个人系统也可以按 Harness 来看。
    • os 提供长期内容源。
    • skills 提供可复用动作。
    • auto/ 提供本机自动化。
    • config/ 提供私有凭证和状态。
    • whoami 提供长期判断和协作协议。
    • AGENTS.md 提供 workspace 边界。
  • Agent 产品的壁垒,可能越来越不在“包一层模型”,而在 Harness:环境、上下文、工具、权限、记忆、编排和反馈闭环。

9. 金句

  • 模型以外都是 Harness。可以把模型比作一个聪明的大脑,但没有身体和手脚就只能思考,无法行动。
  • 更多的 context,更少的 control。给模型配置合适工具,提供更多上下文和行动能力,减少控制。
  • 现在更多的是单体 Agent,下一步是 Agent 蜂群集群化作业,未来 Agent 能自迭代提出新科研方案,驱动公司运行,出现零人公司。
  • Agent 其实是一个模型,模型才是 Agent。
  • 如果你不了解 Harness,你做出来的产品缺乏灵魂和缺乏进一步迭代的空间。
  • 好的 Harness 首先要符合模型本身在运行上的逻辑,也要符合模型未来能力进步的逻辑。
  • 最好的管理,有时候就是不要乱管理上下文。
  • Unix 这个东西 1971 年就出现了,也许我们今天不应该再造更多轮子。
    • 体感也是 MCP 没有 Cli 好用
  • 我从来不觉得 1 人公司是本质的事情,我认为真正 make sense 的是 0 人公司。

10. 相关来源

播客地址: https://www.xiaoyuzhoufm.com/episode/69f2e83fbb3ffa11e59dec82
播客标题: 探秘 Claude Code,搞懂 Agent Harness|对谈来新璐