时间
2018/05/12
持续: 30分钟
事故描述
少量玩家玩家登陆不上
事故原因
某台网关服务业务线程出现异常,出现僵死。但是tcp端口仍正常,slb健康检查正常,
所以部分玩家请求会转发到该异常网关。
总结
定位花费比较长时间。
网关健康检查不完整;对于tcp正常,但业务线程异常,会上报消息堆积(但是某个服务缺失该功能)
保存dump,找到原因修复bug
感受
线上问题的修复其实并不难,难的其实是找到异常的服务;比如线上运行了几百个服务,如果能快速定位到根源服务;某个服务异常,导致其他服务雪崩,如何在雪崩的消息中找到有用的线索…….
服务如何部署、如何规划、哪些信息需要中心汇总、哪些信息需要及时预警……都要和业务结合起来进行调整,不能抛离业务。