140. 好文:Railway 创始人分享 35 人团队如何服务300万用户

2026.05.25

·好文

140-infographic-v2.webp|808

1. 如果你还在手写代码,方法已经错了

  • 如果已经知道代码该怎么写,就不该再把时间花在手敲上。
  • Agent 负责生成,工程师的价值负责判断、审查、架构取舍和系统边界。
  • 代码生成越快,架构和 review 越重要,因为 Agent 一次改动可能顺手碰到依赖、部署和数据迁移。
  • 以后稀缺的不是会写局部代码的人,而是能看懂整条系统链路的人。

2. 部署平台要能复制整个工作现场

  • Railway 真正想做的不是“更容易部署”,而是把一个完整运行环境复制、验证、再合回去
    • 如果还是之前的Docker、Kubernetes、Ansible 一层层上去,也一层层增加,最后每次发布都像在拆一团打结的线
  • Agent 时代只会写代码不够,必须能复制服务、配置、数据和依赖,否则验证会卡在人手工搭环境上。
  • 好的部署平台应该让试错发生在近似生产的完整现场里,而不是只停在本地编译通过。
  • 这点很关键:
    • Agent 改动越多,环境复制能力越像基础设施的核心能力

3. 三十五人团队不靠堆人接增长

  • Railway 服务几百万用户,但团队仍然很小,核心不是靠加人,而是靠系统吃掉复杂度
  • 增长带来的问题不会只有流量,还有支持、计费、滥用治理、稳定性和成本。
  • 免费层曾经把他们拖进亏损和滥用压力里,后来收缩免费层才重新跑通商业账。
  • 早期可以靠创始人手工回复用户,但规模起来以后必须把问题沉到产品和系统里

4. Agent 会把云成本问题提前引爆

  • 未来十年,软件开发会从汇编、C、C++、JavaScript,继续走到“用语言表达逻辑”。
    • 当一个团队同时跑几百、几千个 Agent,云平台要回答的问题会变得朴素又残酷:
      • 推理成本多少
      • 计算成本多少
      • 内存能不能复用
      • Agent 之间怎么协调
      • 什么时候需要人介入
    • 所以,成百上千个 Agent 并发时,账单、队列、日志、权限和调度都会一起冒出来。
  • 真正的问题
    • 不是“AI 能不能写代码”,而是大量 Agent 同时改系统时,谁来协调、谁来兜底、什么时候喊人

5. 他们绕开 Kubernetes,是为了拿回控制权

几句话总结:

  • 当软件生成速度提升一千倍,基础设施里的每个小浪费都会被放大
    • 所以不用 Kubernetes,不是为了标新立异
    • 而是因为 Agent 工作负载需要更细的网络、计算、存储和调度控制。
    • 当软件生成速度提高以后,基础设施里的冷启动、缓存、网络跳转和调度浪费都会被放大成成本。
  • 一个人写代码时,几十秒冷启动还能忍;
  • 上千个 Agent 同时跑任务时,调度、缓存、网络跳转都会变成利润表里的数字
  • 他们做自有裸金属,本质是在拿回成本曲线和性能控制权。
  • AI 公司长期跑高并发计算,只靠公有云很容易把毛利交出去

6. 版本控制要从代码扩展到环境

  • Git 只管代码,但 Agent 改动会把环境、配置、数据和运行状态一起卷进去。
    • GitHub 说成“一串断掉的指针”。一个项目被 clone 之后,上游关系就变弱了;一次改动要么合并,要么停在分叉里。
    • Agent 大量修改软件以后,这套离散模型会变得笨重。
  • 未来更重要的是把改动按风险逐步滚出去,而不是只看一个 pull request 能不能合并。
  • Feature flag、灰度、影子流量、blast radius 这些老能力会重新变成小团队也需要的基础能力。
  • Agent 会压缩开发周期,但也会逼团队补上更完整的发布和风险控制系统
    • 软件开发生命周期会被压缩一千倍,然后又长出更多环节。谁能把这些环节产品化,谁就能吃到下一代工程团队的预算。
    • 大公司过去为了规模被迫建设的发布系统,会被更小的 AI 团队重新需要,因为他们也要在更高速度下控制影响范围。

7. Dockerfile 的仪式感会被快照削弱

  • 如果运行现场可以随时快照、复制和回滚,Dockerfile 和 流水线脚本的仪式感会变弱。
    • 如果你能在每一帧给系统做快照,就不用把生产环境当成一只脆弱的宠物
    • "如果你能把每一帧都快照下来,整个文件系统都可以懒加载,很多仪式就不再需要。"
    • Dockerfile、Ansible 脚本、密封的 DevOps 流水线,很多时候是在限制变化
  • 而 Agent 时代需要的是更轻的复制、更快的回滚、更细的状态管理。
    • 尤其当 Agent 直接在运行环境里尝试修复问题时,文件系统、服务状态和网络连接都需要被一起保存。
    • Agent 直接在运行环境里尝试修复问题时,保存的就不只是代码 diff,而是文件系统、服务状态和依赖变化。
  • 所以,未来部署一个 Agent 改动,可能更像合并一个验证过的运行现场
  • 这条路会把问题一路推到内核、网络和存储层,不只是 DevOps 脚本层

  • 以前代码 diff 只能告诉你文本变了哪里
  • 环境快照能告诉你服务、文件系统、状态和依赖一起变成了什么样。

你可以理解,把所有的上下游依赖等等,大打包成一个“镜像”,一个运行的小世界

8. AI 公司最后都会碰到算力边界

  • Railway 现在不做 GPU,但 Jake 判断未来大概率会做,因为垂直整合到最后一定会碰到 flops
  • Agent 成为默认工作方式后,计算、存储、部署和产品体验会越来越绑在一起。
  • 应用公司会被迫关心成本曲线、状态复制和权限隔离;
  • 基础设施公司也会更关心 Agent 怎么理解产品语义。
  • 35 人服务数百万用户,靠的是把复杂度提前沉进系统,不是靠人肉硬扛。
  • AI 应用公司和基础设施公司的边界正在互相靠近,而不是越来越远
    • 每个 AI 产品团队都要问自己:
      • 哪些问题靠 prompt 能解决,哪些问题必须靠运行时、数据层和部署层一起解决。
  • 所以, 在 Agent 成为默认工作方式之后,谁掌握计算、存储、部署和体验闭环,谁的战略空间就会变大。

9. 最后

  • 别只看 Agent 生成速度,先看环境能不能复制、改动能不能灰度、成本能不能承受
  • Agent 会把人从敲代码里放出来,但也会把过去省掉的工程系统重新逼回来
  • 更快生成不是终点,更重要的是出错时谁接管、风险怎么收敛、系统怎么继续跑。
  • 未来小团队也要按大系统的风险方式来设计基础设施

20260525_5.webp|840

10. 参考

原视频:https://www.youtube.com/watch?v=LzCUYNP5UTI