140. 精读：好文 - Railway 创始人分享 35 人团队如何服务300万用户

2026.05.25

140-infographic-v2.webp|808

1. 如果你还在手写代码，方法已经错了

如果已经知道代码该怎么写，就不该再把时间花在手敲上。
Agent 负责生成，工程师的价值负责判断、审查、架构取舍和系统边界。
代码生成越快，架构和 review 越重要，因为 Agent 一次改动可能顺手碰到依赖、部署和数据迁移。
以后稀缺的不是会写局部代码的人，而是能看懂整条系统链路的人。

2. 部署平台要能复制整个工作现场

Railway 真正想做的不是“更容易部署”，而是把一个完整运行环境复制、验证、再合回去。
- 如果还是之前的Docker、Kubernetes、Ansible 一层层叠上去，熵也一层层增加，最后每次发布都像在拆一团打结的线。
Agent 时代只会写代码不够，必须能复制服务、配置、数据和依赖，否则验证会卡在人手工搭环境上。
好的部署平台应该让试错发生在近似生产的完整现场里，而不是只停在本地编译通过。
这点很关键：
- Agent 改动越多，环境复制能力越像基础设施的核心能力

3. 三十五人团队不靠堆人接增长

Railway 服务几百万用户，但团队仍然很小，核心不是靠加人，而是靠系统吃掉复杂度。
增长带来的问题不会只有流量，还有支持、计费、滥用治理、稳定性和成本。
免费层曾经把他们拖进亏损和滥用压力里，后来收缩免费层才重新跑通商业账。
早期可以靠创始人手工回复用户，但规模起来以后必须把问题沉到产品和系统里。

4. Agent 会把云成本问题提前引爆

未来十年，软件开发会从汇编、C、C++、JavaScript，继续走到“用语言表达逻辑”。
- 当一个团队同时跑几百、几千个 Agent，云平台要回答的问题会变得朴素又残酷：
  - 推理成本多少
  - 计算成本多少
  - 内存能不能复用
  - Agent 之间怎么协调
  - 什么时候需要人介入
- 所以，成百上千个 Agent 并发时，账单、队列、日志、权限和调度都会一起冒出来。
真正的问题
- 不是“AI 能不能写代码”，而是大量 Agent 同时改系统时，谁来协调、谁来兜底、什么时候喊人

5. 他们绕开 Kubernetes，是为了拿回控制权

几句话总结：

当软件生成速度提升一千倍，基础设施里的每个小浪费都会被放大。
- 所以不用 Kubernetes，不是为了标新立异
- 而是因为 Agent 工作负载需要更细的网络、计算、存储和调度控制。
- 当软件生成速度提高以后，基础设施里的冷启动、缓存、网络跳转和调度浪费都会被放大成成本。
一个人写代码时，几十秒冷启动还能忍；
上千个 Agent 同时跑任务时，调度、缓存、网络跳转都会变成利润表里的数字
他们做自有裸金属，本质是在拿回成本曲线和性能控制权。
AI 公司长期跑高并发计算，只靠公有云很容易把毛利交出去。

6. 版本控制要从代码扩展到环境

Git 只管代码，但 Agent 改动会把环境、配置、数据和运行状态一起卷进去。
- GitHub 说成“一串断掉的指针”。一个项目被 clone 之后，上游关系就变弱了；一次改动要么合并，要么停在分叉里。
- Agent 大量修改软件以后，这套离散模型会变得笨重。
未来更重要的是把改动按风险逐步滚出去，而不是只看一个 pull request 能不能合并。
Feature flag、灰度、影子流量、blast radius 这些老能力会重新变成小团队也需要的基础能力。
Agent 会压缩开发周期，但也会逼团队补上更完整的发布和风险控制系统。
- 软件开发生命周期会被压缩一千倍，然后又长出更多环节。谁能把这些环节产品化，谁就能吃到下一代工程团队的预算。
- 大公司过去为了规模被迫建设的发布系统，会被更小的 AI 团队重新需要，因为他们也要在更高速度下控制影响范围。

7. Dockerfile 的仪式感会被快照削弱

如果运行现场可以随时快照、复制和回滚，Dockerfile 和流水线脚本的仪式感会变弱。
- 如果你能在每一帧给系统做快照，就不用把生产环境当成一只脆弱的宠物
- "如果你能把每一帧都快照下来，整个文件系统都可以懒加载，很多仪式就不再需要。"
- Dockerfile、Ansible 脚本、密封的 DevOps 流水线，很多时候是在限制变化；
而 Agent 时代需要的是更轻的复制、更快的回滚、更细的状态管理。
- 尤其当 Agent 直接在运行环境里尝试修复问题时，文件系统、服务状态和网络连接都需要被一起保存。
- Agent 直接在运行环境里尝试修复问题时，保存的就不只是代码 diff，而是文件系统、服务状态和依赖变化。
所以，未来部署一个 Agent 改动，可能更像合并一个验证过的运行现场。
这条路会把问题一路推到内核、网络和存储层，不只是 DevOps 脚本层。

即

以前代码 diff 只能告诉你文本变了哪里
环境快照能告诉你服务、文件系统、状态和依赖一起变成了什么样。

你可以理解，把所有的上下游依赖等等，大打包成一个“镜像”，一个运行的小世界

8. AI 公司最后都会碰到算力边界

Railway 现在不做 GPU，但 Jake 判断未来大概率会做，因为垂直整合到最后一定会碰到 flops。
Agent 成为默认工作方式后，计算、存储、部署和产品体验会越来越绑在一起。
应用公司会被迫关心成本曲线、状态复制和权限隔离；
基础设施公司也会更关心 Agent 怎么理解产品语义。
35 人服务数百万用户，靠的是把复杂度提前沉进系统，不是靠人肉硬扛。
AI 应用公司和基础设施公司的边界正在互相靠近，而不是越来越远
- 每个 AI 产品团队都要问自己：
  - 哪些问题靠 prompt 能解决，哪些问题必须靠运行时、数据层和部署层一起解决。
所以， 在 Agent 成为默认工作方式之后，谁掌握计算、存储、部署和体验闭环，谁的战略空间就会变大。

9. 最后

别只看 Agent 生成速度，先看环境能不能复制、改动能不能灰度、成本能不能承受。
Agent 会把人从敲代码里放出来，但也会把过去省掉的工程系统重新逼回来。
更快生成不是终点，更重要的是出错时谁接管、风险怎么收敛、系统怎么继续跑。
未来小团队也要按大系统的风险方式来设计基础设施。

20260525_5.webp|840

10. 参考

原视频：https://www.youtube.com/watch?v=LzCUYNP5UTI