事故报告(2017/09/26) 发表于 2019-07-30 | 分类于 工作笔记 | 评论数: | 阅读次数: 时间2017/09/26 持续:5分钟 事故描述钉钉预警网关服务消息堆积1000+; 移动网关服务负载较高,导致用户连接失败 事故原因单台网关使用完成端口,套接字数量2.6w,阿里云cpu 100% 处理方式slb新挂载n台服务进行分流 总结服务状态监控预警很有必要,发现问题+处理问题 5分钟。 打赏 微信支付 支付宝