昨天 DeepSeek 宕机了 8 个小时,偏偏是 V4 发布前一天。官方说是硬件故障,但时间点也太巧了吧。有没有人觉得这可能是压力测试翻车,或者干脆就是竞对搞的?
GPU 集群规模大了之后硬件故障太正常了,不用阴谋论。我们公司几百张卡的集群也经常掉节点
发布前做大规模压力测试跑崩了的可能性最大。V4 参数量比 V3 大了不少,推理集群扩容阶段出问题很合理,不需要外部因素解释。
8 小时太久了,正常硬件故障不至于。怀疑是存储层出了问题,数据恢复比较慢
@wuji_devops 压测翻车这个解释合理,发布前肯定要全量压测的
大版本发布前的宕机,大概率是压力测试翻车了,不是预谋
宕机8小时太夸张了,排查能力堪忧
V4前夜这个时间点确实敏感
发布前宕机确实太巧了,不太正常
也可能是流量暴增导致的吧别想太多
发布前宕机8小时大概率是在做最后的压力测试
发布前宕机更像是压力测试翻车了,不太像人为的
发布前宕机太巧了,难免让人猜测原因
发布前宕机时机太巧了,不好说是不是巧合
8小时还是太久了,说明容灾方案不到位
可能就是在做发布前的压力测试导致的