125. 播客:AI 时代,聪明不如靠谱

2026.05.17

·AI播客

1. 核心观点

  • AI 时代,聪明不如靠谱
    • 不是不需要聪明,而是大模型训练进入系统工程后,聪明已经不够稀缺。
    • 更稀缺的是:
      • 靠谱做事细对自己负责对全局负责
  • 个人英雄主义 在大语言模型这条线上已经退场。
    • 在 Transformer、GPT 这类范式被找到之前,英雄可能真的能改变路径。
    • 但进入 scale up 之后,更多是组织、数据、算力、工程、评估、反馈信号一起往前推。
  • 现在大家不太担心模型“能不能做到”,更难的是:
    • 这个问题有没有被良好定义?
    • 这个行为要怎么定义?
    • 数据、环境、评价信号怎么构建?
  • 预训练没到头 这个判断也很重要。
    • 很多所谓“到头”,可能只是 bug、实验假设或系统排查没做好。
  • Coding 不是因为写代码最神秘才先爆发。
    • 恰恰相反,是因为它足够可验证
    • reward signal 清楚,GitHub 数据好,优秀代码有共同标准。
  • AI 让程序员的问题变得更残酷。
    • 过去“按需求写代码”的位置会越来越窄。
    • 人更需要负责设计、拆解、给 context、验收、把 AI 放进真实系统。
  • Long HorizonMLCoding 是下一步很关键的方向。
    • 前者想解决“有限 context 下做长任务”。
    • 后者想让 AI 从写代码、跑实验、分析结果、提出新假设到再实验,形成完整研究链条。
  • 对我来说:
    • 不能只是“会用 AI”。
    • 要训练自己和 AI 形成协作,而不是把事全权扔给 AI。

2. 金句

  • AI 进入了一个阶段,大家不担心 AI 是不是能够做得到,而是担心这件事是不是被良好定义。
    • 这句比“AI 能力越来越强”更重要。
    • 能力强之后,人的价值反而变成定义问题、定义行为、定义验收。
  • AI 这个事本来也不太需要脑子。
    • 这句话刺耳,但它不是说 AI 不需要智力。
    • 它是在说:
      • 很多想法并不神秘,真正难的是把系统做细,把实验做完,把责任承担下来。
  • 这个行业最重要的特质就是靠谱,就是做事细,对自己做的事负责任。
    • 这几乎可以当成 AI 时代技术人的最低标准。
    • 不是“会不会写代码”,也不是“会不会讲概念”,而是能不能把一个不稳定系统推进到可验证。
  • 个人英雄主义时代已经过去了。
    • 不是没有强人。
    • 是强人也必须嵌在系统里,接受数据、算力、组织、产品、评估的约束。
  • 这个世界在推着我们前进,而不是我们在推着这个世界前进。
    • 这句有点残酷。
    • 到这个阶段,单个组织想停下来已经没用了,你停别人会继续。
  • 你有没有真的和 AI 形成了协作?还是说你就全权扔给它了?
    • 用 AI 不等于会协作。
    • 全权扔给 AI,最后讨论细节时会露馅。
      • 一个面试的细节,挺好

3. 为什么 Coding 先爆发

Coding 先爆发,不是因为它最像魔法,而是因为它最像一个可训练、可验证、可规模化的环境

第一,它的 reward signal 清楚。

  • 一个功能有没有实现,可以用输入输出、测试、编译、运行结果来判断。
  • 代码对不对,虽然不总是简单,但比产品、审美、组织判断更容易构造反馈信号。
  • 这也是为什么后训练、强化学习、agentic coding 能在这里先跑起来。

第二,它的数据基础太好。

  • GitHub 本身就是高质量代码数据源。
  • 过去几十年程序员留下了大量结构化、可复用、能构建环境的数据。
  • 这不是每个行业都有的条件。

第三,它的需求标准相对单一。

  • 好代码通常有共识:
    • 简洁。
    • 干净。
    • 结构清楚。
    • 适合未来维护。
    • 抽象合理。
  • 它不像社交、游戏、消费产品那样,每个人品味差异巨大。

所以 Coding 先爆发,不是因为程序员最难替代,而是因为程序员这份工作里有一大块刚好最适合被 AI 学。

这对程序员很不客气。

姚顺宇说他自己的代码里,保守估计 90% 是模型写的。真正重要的地方变成:

  • 怎么设计代码逻辑。
  • 需要关联哪些文件。
  • 给模型什么 context
  • 怎么看模型写得是不是合适。
  • 怎么确认它真的实现了我要的东西。

也就是说,代码行本身在变便宜,设计、上下文、验收、系统适配在变贵。

反过来看,产品经理 暂时难训练,不是因为更神秘,而是因为好产品没有明确刻度,只有做出来给人用之后才知道。

4. 为什么不是英雄叙事

这期最反复出现的一个观点,就是大模型已经不是个人英雄主义的故事。

在范式出现之前,英雄是可能存在的。

  • 如果没有某个团队找到 Transformer,路径可能会慢很多。
  • 如果没有 GPT 这类范式,scale up 也不会这么顺。
  • 那个阶段,一个人或一个小团体确实可能改变历史。

但范式确定之后,故事变了。

后面的很多工作不是“天才想到了一个所有人想不到的东西”,而是:

  • 有没有足够系统地排查 bug。
  • 有没有把数据和算力配好。
  • 有没有把实验设计清楚。
  • 有没有把指标看完整。
  • 有没有在大尺度上保持稳定。
  • 有没有对公司和全局负责。

逐字稿里有一个很具体的例子:做强化学习时,一个算法在 training 上比别人好,不代表它真的好。还要看 sampling、data、flop、真正生产环境里的限制因素。

这就是系统视角。

只拿对自己有利的指标出来,很容易让自己像英雄,但对系统是坏的。

所以“靠谱”不是性格赞美,而是一种系统能力:

  • 不只为自己的项目负责。
  • 不只为一个漂亮数字负责。
  • 不只为某个局部效果负责。
  • 要能问:这个东西在全局上真的好吗?

这也是他为什么说,个人英雄主义可能破坏整体性。

5. Long Horizon 和 MLCoding

Long Horizon 这部分很值得记。

姚顺宇反复说的口号是:

Train with finite context, use as infinite context.

不是无限加长训练时的上下文,而是让模型在有限 context 下做更长的工作。

这个想法其实很像人。

人自己的 context 也很短。很多无关信息会被忘掉,重要信息再按场景取回来。真正关键的不是“什么都记住”,而是:

  • 什么可以忘。
  • 什么要保留。
  • 什么要写到外部工具里。
  • 什么时候再取回来。
  • 怎么让短 context 支撑长任务。

这和我现在使用 Codex、Cursor 的体感也对得上。

真正难的不是一次回答很长,而是一个任务跑几个小时、跨多个文件、跨多个工具、跨多轮上下文时,它还能保持目标、约束和判断不散。

MLCoding 则是另一条线。

它想做的不是“AI 帮研究员写几段代码”,而是让 AI 自己走完一条研究链:

  • 写代码。
  • 跑实验。
  • 看结果。
  • 分析哪里不对。
  • 提出新假设。
  • 设计新实验。
  • 再写代码。

这条链目前还没有完整,但他判断未来 6 到 12 个月会慢慢变完整。

这个判断如果成立,影响会很大。

因为 agentic coding 只是节点。

  • 往横向长,它会进入更多使用工具和环境交互的场景;
  • 往纵向长,它会进入更长周期的研究和工程任务。

所以真正的变化不是“AI 会写代码”,而是:AI 能不能持续处理一个长任务,并在过程中修正自己。

6. 启示

这篇对我最直接的提醒是:不要把自己骗成“我已经会用 AI 了”。

会用 Codex、Cursor、Claude Code,会写 prompt,会整理 rules、skills、commands,这些当然有用。但如果只是把任务丢给 AI,最后自己不理解它做了什么,那只是把外包对象从人换成模型。

真正该训练的是协作能力:

  • 我能不能定义一个好问题?
  • 我能不能给足 context
  • 我能不能拆出合理步骤?
  • 我能不能验收 AI 的结果?
  • 我能不能发现它哪里看起来对、其实不对?
  • 我能不能把一次成功沉淀成下一次可复用的系统?

所以 832 / os / skills / auto 不是整理癖。

如果只是为了把资料摆整齐,那确实没啥用。

它真正的意义应该是:

  • os 保存长期判断和材料。
  • skills 把可复用能力沉淀下来。
  • auto 把本机自动化变成可执行层。
  • 根 workspace 维护跨 agent 的边界和命令。

这些东西加起来,不是为了“看起来专业”,而是为了减少每次和 AI 协作时的上下文损耗。

这期访谈让我更确认一件事:AI 时代更值钱的不是聪明表演,而是能把系统跑起来的人。

未来我不能只问“这个 AI 工具厉不厉害”,也不能只问“它能不能替我写代码”。

更应该问:

  • 我有没有把问题定义好?
  • 我有没有把工作流做成一个可验证系统?
  • 我有没有和 AI 形成协作?
  • 还是只是把活全权扔给它,然后假装自己也进步了?

7. 相关来源

播客地址: https://www.xiaoyuzhoufm.com/episode/6a00aa051b7bd50295dfe41d
对姚顺宇的4小时访谈:请允许我小疯一下!在Anthropic和Gemini训模型、技术预测、英雄主义已过去