事故报告(2018/05/12)

时间

2018/05/12
持续: 30分钟

事故描述

少量玩家玩家登陆不上

事故原因

某台网关服务业务线程出现异常,出现僵死。但是tcp端口仍正常,slb健康检查正常,
所以部分玩家请求会转发到该异常网关。

总结

定位花费比较长时间。
网关健康检查不完整;对于tcp正常,但业务线程异常,会上报消息堆积(但是某个服务缺失该功能)
保存dump,找到原因修复bug

感受

线上问题的修复其实并不难,难的其实是找到异常的服务;比如线上运行了几百个服务,如果能快速定位到根源服务;某个服务异常,导致其他服务雪崩,如何在雪崩的消息中找到有用的线索…….

服务如何部署、如何规划、哪些信息需要中心汇总、哪些信息需要及时预警……都要和业务结合起来进行调整,不能抛离业务。