事故时间

2019/7/12 11：37 ~ 12：15 ，持续38分钟

事故描述

移动用户无法登陆

根本原因：数据库硬盘物理损坏，RAID修复过程中IO超时。

短时间的IO超时，目前的服务器是能够承受的，但是长时间的IO超时带来的雪崩问题是需要总结的。

事实上我们的服务至少要把故障时间缩短为IO故障时间，比如IO故障5分钟，那么用户的故障时间也应该为5分钟，但目前的效果却是花费了35分钟的时间才恢复。

服务器的通讯库模型采用多线程竞争消费方式：

这样设计的好处是每个线程的能力都得到最大的发挥，或者当一个线程出现问题时，其他线程仍然可以正常工作。

实际上如果IO发生长时间超时，用户发现登陆失败，就会不断的重试登陆，最后导致的结果是：
消息池的消息堆积越来越多。即使当IO恢复后，消费线程仍然在处理之前堆积着的请求消息，从而故障的恢复时间变的延后。