2026年5月19日:谷歌云误停账户致Railway全平台服务中断8小时

发布时间:2026/5/21 2:46:41

2026年5月19日:谷歌云误停账户致Railway全平台服务中断8小时 事件报告2026年5月19日 - GCP账户暂停Chandrika Khanduri 与 Cody De Arkland于2026年5月20日发布此报告。据悉本报告反映了发布时所掌握的信息可能会根据谷歌云Google Cloud的内部审查结果进行更新。影响2026年5月19日22:20 UTC至5月20日约06:14 UTC约8小时期间谷歌云暂停了Railway生产账户的服务导致全平台中断。这使得API、控制平面和数据库离线谷歌云托管的计算基础设施也停止运行。用户在仪表盘和API上立即遇到503错误无法登录所有托管在谷歌云计算平台上的工作负载都停止运行。虽然Railway自己的Railway Metal和AWS突发云环境中的工作负载仍在运行但由于边缘代理依赖于谷歌云托管的控制平面API来填充其路由表随着路由缓存过期其他工作负载变得无法访问返回404错误。在影响最严重时所有地区的Railway工作负载都无法访问。在恢复谷歌云环境的过程中全平台的构建和部署被阻塞大量排队的部署任务被逐步处理。与此同时GitHub开始对Railway的OAuth和Webhook集成进行速率限制暂时阻止了用户登录和构建操作服务条款接受记录也被重置。事件时间线5月19日22:10 UTC自动监控系统检测到API健康检查失败值班人员开始调查问题5月19日22:11 UTC仪表盘返回503错误用户无法登录5月19日22:19 UTC确定根本原因是谷歌云平台暂停了Railway的生产账户5月19日22:22 UTC向谷歌云提交P0工单联系了GCP账户经理5月19日22:29 UTC宣布发生事件GCP账户访问恢复但计算实例仍停止持久磁盘无法访问5月19日22:35 UTC缓存的网络路由开始过期工作负载开始返回404错误5月19日23:09 UTC第一个持久磁盘恢复在线5月19日23:54 UTC所有持久磁盘恢复到就绪状态但网络仍然中断5月20日00:39 UTC确认磁盘就绪但恢复工作因谷歌云网络恢复问题而受阻5月20日01:30 UTC计算实例开始恢复5月20日01:38 UTC边缘流量恢复网络恢复正常5月20日01:57 UTC编排和构建基础设施恢复暂停部署5月20日02:04 UTC计算主机逐步恢复在线5月20日02:47 UTCGitHub开始对Railway的OAuth和Webhook集成进行速率限制部分用户无法登录构建操作受阻5月20日02:55 UTC仪表盘再次可访问5月20日03:59 UTC所有层级的部署开始再次处理5月20日04:00 UTC确认API、仪表盘和OAuth端点正常运行其余工作负载继续恢复5月20日06:14 UTC事件进入监控阶段5月20日07:58 UTC事件解决。事件经过5月19日22:20 UTC谷歌云错误地将Railway的生产账户置于暂停状态影响了多个账户且未主动通知客户。这使与GCP相关的基础设施无法使用支撑着Railway仪表盘、API和部分网络基础设施等。Railway的控制平面受影响所有工作负载立即受影响。边缘代理维护的路由表缓存过期后工作负载开始返回404错误导致网络中断影响超出谷歌云。尽管Railway基础设施设计为高可用性但恢复账户访问不意味着单个服务能恢复中断持续了几个小时。到23:54 UTC磁盘恢复到就绪状态但核心网络和边缘路由直到5月20日约01:30 UTC才完全恢复。随着网络恢复Railway核心服务和最终用户工作负载逐层恢复为防止过载暂停部署并逐步恢复。在此期间GitHub对Railway的OAuth和Webhook集成进行速率限制。到5月20日约04:00 UTCAPI、仪表盘和OAuth端点确认正常运行其余工作负载继续恢复。预防措施Railway的网络控制平面设计具有弹性此前在弹性方面的投入有助于应对此次事件影响例如能顺利恢复用户的GitHub安装。然而Railway网络中工作负载的可发现性仍严重依赖于谷歌云机器上的网络控制平面API。因此Railway将消除这一依赖使网络成为真正的网状结构还将把高可用性数据库分片扩展到AWS和Metal确保数据库仲裁在云中实例消失时正常运行并进行故障转移。最后计划将谷歌云服务从数据平面的关键路径中移除仅用于二级/故障转移同时实施新架构确保核心服务不依赖单一供应商或平台。值得一提的是Railway对供应商选择负责会继续履行保证服务正常运行的承诺。继续阅读...技术文章使用新构建器每月处理5000万次以上构建。用运行BuildKit的微型虚拟机构建单元集群取代了基于Docker - buildx的GCP自动伸缩器并分享推出过程中的经验总结。技术文章优化新用户引导每天向10000多名新用户销售。介绍如何将每天10000个产品驱动增长PLG注册用户转化为潜在企业客户以及暴力破解维度比复杂的机器学习更有效一个加权分数使电子邮件参与度提高10倍。提醒加入数百万开发者的行列可在Railway上轻松部署数百万个应用程序。

相关新闻