事故报告(2017/09/26)

时间

2017/09/26

持续:5分钟

事故描述

钉钉预警网关服务消息堆积1000+;

移动网关服务负载较高,导致用户连接失败

事故原因

单台网关使用完成端口,套接字数量2.6w,阿里云cpu 100%

处理方式

slb新挂载n台服务进行分流

总结

服务状态监控预警很有必要,发现问题+处理问题 5分钟。