
1. 如果你还在手写代码,方法已经错了
- 如果已经知道代码该怎么写,就不该再把时间花在手敲上。
- Agent 负责生成,
工程师的价值负责判断、审查、架构取舍和系统边界。 - 代码生成越快,架构和 review 越重要,因为 Agent 一次改动可能顺手碰到依赖、部署和数据迁移。
- 以后稀缺的不是会写局部代码的人,而是能看懂整条系统链路的人。
2. 部署平台要能复制整个工作现场
- Railway 真正想做的不是“更容易部署”,而是把一个完整运行环境复制、验证、再合回去。
- 如果还是之前的Docker、Kubernetes、Ansible 一层层
叠上去,熵也一层层增加,最后每次发布都像在拆一团打结的线。
- 如果还是之前的Docker、Kubernetes、Ansible 一层层
- Agent 时代只会写代码不够,必须能复制服务、配置、数据和依赖,否则验证会卡在人手工搭环境上。
- 好的部署平台应该让试错发生在近似生产的完整现场里,而不是只停在本地编译通过。
- 这点很关键:
- Agent 改动越多,环境复制能力越像基础设施的核心能力
3. 三十五人团队不靠堆人接增长
- Railway 服务几百万用户,但团队仍然很小,核心不是靠加人,而是靠系统吃掉复杂度。
增长带来的问题不会只有流量,还有支持、计费、滥用治理、稳定性和成本。- 免费层曾经把他们拖进亏损和滥用压力里,后来收缩免费层才重新跑通商业账。
- 早期可以靠创始人手工回复用户,但规模起来以后必须把问题沉到产品和系统里。
4. Agent 会把云成本问题提前引爆
- 未来十年,软件开发会从汇编、C、C++、JavaScript,继续走到“用语言表达逻辑”。
- 当一个团队同时跑几百、几千个 Agent,云平台要回答的问题会变得朴素又残酷:
- 推理成本多少
- 计算成本多少
- 内存能不能复用
- Agent 之间怎么协调
- 什么时候需要人介入
- 所以,成百上千个 Agent 并发时,账单、队列、日志、权限和调度都会一起冒出来。
- 当一个团队同时跑几百、几千个 Agent,云平台要回答的问题会变得朴素又残酷:
真正的问题- 不是“AI 能不能写代码”,而是大量 Agent 同时改系统时,谁来协调、谁来兜底、什么时候喊人
5. 他们绕开 Kubernetes,是为了拿回控制权
几句话总结:
- 当软件生成速度提升一千倍,基础设施里的每个小浪费都会被放大。
- 所以不用 Kubernetes,不是为了标新立异
- 而是因为 Agent 工作负载需要更细的网络、计算、存储和调度控制。
- 当软件生成速度提高以后,基础设施里的冷启动、缓存、网络跳转和调度浪费都会被放大成成本。
- 一个人写代码时,几十秒冷启动还能忍;
- 上千个 Agent 同时跑任务时,调度、缓存、网络跳转都会变成利润表里的数字
- 他们做自有裸金属,本质是在拿回成本曲线和性能控制权。
- AI 公司长期跑高并发计算,只靠公有云很容易把毛利交出去。
6. 版本控制要从代码扩展到环境
- Git 只管代码,但 Agent 改动会把环境、配置、数据和运行状态一起卷进去。
- GitHub 说成“一串断掉的指针”。一个项目被 clone 之后,上游关系就变弱了;一次改动要么合并,要么停在分叉里。
- Agent 大量修改软件以后,这套离散模型会变得笨重。
- 未来更重要的是把改动按
风险逐步滚出去,而不是只看一个 pull request 能不能合并。 - Feature flag、灰度、影子流量、blast radius 这些老能力会重新变成小团队也需要的基础能力。
- Agent 会压缩开发周期,但也会逼团队
补上更完整的发布和风险控制系统。- 软件开发生命周期会被压缩一千倍,然后又长出更多环节。谁能把这些环节产品化,谁就能吃到下一代工程团队的预算。
- 大公司过去为了规模被迫建设的发布系统,会被更小的 AI 团队重新需要,因为他们也要在更高速度下控制影响范围。
7. Dockerfile 的仪式感会被快照削弱
- 如果运行现场可以随时快照、复制和回滚,Dockerfile 和 流水线脚本的仪式感会变弱。
- 如果你能在每一帧给系统做快照,就不用把生产环境当成一只
脆弱的宠物 - "如果你能把每一帧都快照下来,整个文件系统都可以懒加载,很多仪式就不再需要。"
- Dockerfile、Ansible 脚本、密封的 DevOps 流水线,很多时候是在
限制变化;
- 如果你能在每一帧给系统做快照,就不用把生产环境当成一只
- 而 Agent 时代需要的是更轻的复制、更快的回滚、更细的状态管理。
- 尤其当 Agent 直接在运行环境里尝试修复问题时,文件系统、服务状态和网络连接都需要被一起保存。
- Agent 直接在运行环境里尝试修复问题时,保存的就不只是代码 diff,而是文件系统、服务状态和依赖变化。
- 所以,未来部署一个 Agent 改动,可能更像合并一个验证过的运行现场。
- 这条路会把问题一路推到内核、网络和存储层,
不只是 DevOps 脚本层。
即
- 以前代码 diff 只能告诉你文本变了哪里
- 环境快照能告诉你服务、文件系统、状态和依赖一起变成了什么样。
你可以理解,把所有的上下游依赖等等,大打包成一个“镜像”,一个运行的
小世界
8. AI 公司最后都会碰到算力边界
- Railway 现在不做 GPU,但 Jake 判断未来大概率会做,因为垂直整合到最后一定会碰到
flops。 - Agent 成为默认工作方式后,计算、存储、部署和产品体验会越来越绑在一起。
- 应用公司会被迫关心成本曲线、状态复制和权限隔离;
- 基础设施公司也会更关心 Agent 怎么理解产品语义。
- 35 人服务数百万用户,靠的是把复杂度提前沉进系统,不是靠人肉硬扛。
- AI 应用公司和基础设施公司的边界正在互相靠近,而不是越来越远
- 每个 AI 产品团队都要问自己:
- 哪些问题靠 prompt 能解决,哪些问题必须靠运行时、数据层和部署层一起解决。
- 每个 AI 产品团队都要问自己:
- 所以, 在 Agent 成为默认工作方式之后,谁掌握计算、存储、部署和体验闭环,谁的战略空间就会变大。
9. 最后
- 别只看 Agent 生成速度,先看环境能不能复制、改动能不能灰度、成本能不能承受。
- Agent 会把人从敲代码里放出来,但也会把过去省掉的工程系统重新逼回来。
- 更快生成不是终点,更重要的是出错时谁接管、风险怎么收敛、系统怎么继续跑。
- 未来小团队也要按大系统的风险方式来设计基础设施。
