谷歌云停了Railway生产账号,导致全平台挂了八小时

就挺突然的,Railway那边说他们的谷歌云生产账号被暂停了。然后整个平台就崩了,从凌晨2点一直搞到早上10点才恢复,差不多八个小时吧。所有托管在上面的服务都受影响。

现在虽然恢复了,但具体为啥被停,他们还没完全说清楚。说是正在和谷歌云沟通,确保以后不再发生。

反正用他家服务的,这次都跟着一起坐了个大过山车。有备份的还好,没备份的就真的裂开。大家自己多留个心眼吧。

没用过别碰,这家早就不行了。

小白问一下,Railway是啥?跟Heroku那种差不多吗?不太懂哎。

又来了又来了,把生产环境托给第三方,一出事就抓瞎,老桥段了。

赶紧把数据库自动备份到另一个云存储桶,别只放同一个平台里,步骤很简单,去设置里点几下就行。

所以谷歌云暂停账号的具体理由是什么?是Railway有违规操作,还是谷歌那边误杀?这个细节他们后来有透露吗?

我们团队之前用另一个PaaS也遇到过类似情况,半夜报警群炸了,从此以后核心服务死活都要自己搞个备份,哪怕多花点钱,不然心脏受不了。这种依赖第三方平台的风险真的很大,不能把所有鸡蛋放一个篮子里。

八小时也太长了,这恢复时间目标(RTO)完全不合格啊。他们难道没有备用的云提供商或者灾难恢复预案吗?感觉架构设计有问题。

话说最近那个新出的游戏《黑神话》你们玩了没,我电脑带不动好烦。哦对了,楼主节哀。

我之前一个个人项目就放上面,还好不是生产级别的,不然真要裂开。这次事件给我敲了警钟,以后不管项目多小,至少代码要定时往GitHub和另一个地方各推一份,服务部署也得考虑多平台或者至少有个简单的备用方案,不能图省事。

单点依赖一家云 早晚要还的 多备份吧

托管图省事,结果上游一抖整条链都断,还是得自己留份备份方案