1. 核心观点
- AI 时代,聪明不如靠谱。
- 不是不需要聪明,而是大模型训练进入系统工程后,聪明已经不够稀缺。
- 更稀缺的是:
靠谱、做事细、对自己负责、对全局负责。
个人英雄主义在大语言模型这条线上已经退场。- 在 Transformer、GPT 这类范式被找到之前,英雄可能真的能改变路径。
- 但进入 scale up 之后,更多是组织、数据、算力、工程、评估、反馈信号一起往前推。
- 现在大家不太担心模型“能不能做到”,更难的是:
- 这个问题有没有被良好定义?
- 这个行为要怎么定义?
- 数据、环境、评价信号怎么构建?
预训练没到头这个判断也很重要。- 很多所谓“到头”,可能只是 bug、实验假设或系统排查没做好。
Coding不是因为写代码最神秘才先爆发。- 恰恰相反,是因为它足够可验证。
reward signal清楚,GitHub 数据好,优秀代码有共同标准。
- AI 让程序员的问题变得更残酷。
- 过去“按需求写代码”的位置会越来越窄。
- 人更需要负责设计、拆解、给 context、验收、把 AI 放进真实系统。
Long Horizon和MLCoding是下一步很关键的方向。- 前者想解决“有限 context 下做长任务”。
- 后者想让 AI 从写代码、跑实验、分析结果、提出新假设到再实验,形成完整研究链条。
- 对我来说:
- 不能只是“会用 AI”。
- 要训练自己和 AI 形成协作,而不是把事全权扔给 AI。
2. 金句
- AI 进入了一个阶段,大家不担心 AI 是不是能够做得到,而是担心这件事是不是被良好定义。
- 这句比“AI 能力越来越强”更重要。
- 能力强之后,人的价值反而变成定义问题、定义行为、定义验收。
- AI 这个事本来也不太需要脑子。
- 这句话刺耳,但它不是说 AI 不需要智力。
- 它是在说:
- 很多想法并不神秘,真正难的是把系统做细,把实验做完,把责任承担下来。
- 这个行业最重要的特质就是靠谱,就是做事细,对自己做的事负责任。
- 这几乎可以当成 AI 时代技术人的最低标准。
- 不是“会不会写代码”,也不是“会不会讲概念”,而是能不能把一个不稳定系统推进到可验证。
- 个人英雄主义时代已经过去了。
- 不是没有强人。
- 是强人也必须嵌在系统里,接受数据、算力、组织、产品、评估的约束。
- 这个世界在推着我们前进,而不是我们在推着这个世界前进。
- 这句有点残酷。
- 到这个阶段,单个组织想停下来已经没用了,你停别人会继续。
- 你有没有真的和 AI 形成了协作?还是说你就全权扔给它了?
- 用 AI 不等于会协作。
- 全权扔给 AI,最后讨论细节时会露馅。
- 一个面试的细节,挺好
3. 为什么 Coding 先爆发
Coding 先爆发,不是因为它最像魔法,而是因为它最像一个可训练、可验证、可规模化的环境。
第一,它的 reward signal 清楚。
- 一个功能有没有实现,可以用输入输出、测试、编译、运行结果来判断。
- 代码对不对,虽然不总是简单,但比产品、审美、组织判断更容易构造反馈信号。
- 这也是为什么后训练、强化学习、agentic coding 能在这里先跑起来。
第二,它的数据基础太好。
- GitHub 本身就是高质量代码数据源。
- 过去几十年程序员留下了大量结构化、可复用、能构建环境的数据。
- 这不是每个行业都有的条件。
第三,它的需求标准相对单一。
- 好代码通常有共识:
- 简洁。
- 干净。
- 结构清楚。
- 适合未来维护。
- 抽象合理。
- 它不像社交、游戏、消费产品那样,每个人品味差异巨大。
所以 Coding 先爆发,不是因为程序员最难替代,而是因为程序员这份工作里有一大块刚好最适合被 AI 学。
这对程序员很不客气。
姚顺宇说他自己的代码里,保守估计 90% 是模型写的。真正重要的地方变成:
- 怎么设计代码逻辑。
- 需要关联哪些文件。
- 给模型什么
context。 - 怎么看模型写得是不是合适。
- 怎么确认它真的实现了我要的东西。
也就是说,代码行本身在变便宜,设计、上下文、验收、系统适配在变贵。
反过来看,产品经理 暂时难训练,不是因为更神秘,而是因为好产品没有明确刻度,只有做出来给人用之后才知道。
4. 为什么不是英雄叙事
这期最反复出现的一个观点,就是大模型已经不是个人英雄主义的故事。
在范式出现之前,英雄是可能存在的。
- 如果没有某个团队找到 Transformer,路径可能会慢很多。
- 如果没有 GPT 这类范式,scale up 也不会这么顺。
- 那个阶段,一个人或一个小团体确实可能改变历史。
但范式确定之后,故事变了。
后面的很多工作不是“天才想到了一个所有人想不到的东西”,而是:
- 有没有足够系统地排查 bug。
- 有没有把数据和算力配好。
- 有没有把实验设计清楚。
- 有没有把指标看完整。
- 有没有在大尺度上保持稳定。
- 有没有对公司和全局负责。
逐字稿里有一个很具体的例子:做强化学习时,一个算法在 training 上比别人好,不代表它真的好。还要看 sampling、data、flop、真正生产环境里的限制因素。
这就是系统视角。
只拿对自己有利的指标出来,很容易让自己像英雄,但对系统是坏的。
所以“靠谱”不是性格赞美,而是一种系统能力:
- 不只为自己的项目负责。
- 不只为一个漂亮数字负责。
- 不只为某个局部效果负责。
- 要能问:这个东西在全局上真的好吗?
这也是他为什么说,个人英雄主义可能破坏整体性。
5. Long Horizon 和 MLCoding
Long Horizon 这部分很值得记。
姚顺宇反复说的口号是:
Train with finite context, use as infinite context.
不是无限加长训练时的上下文,而是让模型在有限 context 下做更长的工作。
这个想法其实很像人。
人自己的 context 也很短。很多无关信息会被忘掉,重要信息再按场景取回来。真正关键的不是“什么都记住”,而是:
- 什么可以忘。
- 什么要保留。
- 什么要写到外部工具里。
- 什么时候再取回来。
- 怎么让短 context 支撑长任务。
这和我现在使用 Codex、Cursor 的体感也对得上。
真正难的不是一次回答很长,而是一个任务跑几个小时、跨多个文件、跨多个工具、跨多轮上下文时,它还能保持目标、约束和判断不散。
MLCoding 则是另一条线。
它想做的不是“AI 帮研究员写几段代码”,而是让 AI 自己走完一条研究链:
- 写代码。
- 跑实验。
- 看结果。
- 分析哪里不对。
- 提出新假设。
- 设计新实验。
- 再写代码。
这条链目前还没有完整,但他判断未来 6 到 12 个月会慢慢变完整。
这个判断如果成立,影响会很大。
因为 agentic coding 只是节点。
- 往横向长,它会进入更多使用工具和环境交互的场景;
- 往纵向长,它会进入更长周期的研究和工程任务。
所以真正的变化不是“AI 会写代码”,而是:AI 能不能持续处理一个长任务,并在过程中修正自己。
6. 启示
这篇对我最直接的提醒是:不要把自己骗成“我已经会用 AI 了”。
会用 Codex、Cursor、Claude Code,会写 prompt,会整理 rules、skills、commands,这些当然有用。但如果只是把任务丢给 AI,最后自己不理解它做了什么,那只是把外包对象从人换成模型。
真正该训练的是协作能力:
- 我能不能定义一个好问题?
- 我能不能给足
context? - 我能不能拆出合理步骤?
- 我能不能验收 AI 的结果?
- 我能不能发现它哪里看起来对、其实不对?
- 我能不能把一次成功沉淀成下一次可复用的系统?
所以 832 / os / skills / auto 不是整理癖。
如果只是为了把资料摆整齐,那确实没啥用。
它真正的意义应该是:
os保存长期判断和材料。skills把可复用能力沉淀下来。auto把本机自动化变成可执行层。- 根 workspace 维护跨 agent 的边界和命令。
这些东西加起来,不是为了“看起来专业”,而是为了减少每次和 AI 协作时的上下文损耗。
这期访谈让我更确认一件事:AI 时代更值钱的不是聪明表演,而是能把系统跑起来的人。
未来我不能只问“这个 AI 工具厉不厉害”,也不能只问“它能不能替我写代码”。
更应该问:
- 我有没有把问题定义好?
- 我有没有把工作流做成一个可验证系统?
- 我有没有和 AI 形成协作?
- 还是只是把活全权扔给它,然后假装自己也进步了?
7. 相关来源
播客地址: https://www.xiaoyuzhoufm.com/episode/6a00aa051b7bd50295dfe41d
对姚顺宇的4小时访谈:请允许我小疯一下!在Anthropic和Gemini训模型、技术预测、英雄主义已过去