17:55–18:40 (GMT+3)
17:55 - видим признаки замедления работы базы данных, начинаем диагностику
18:00 - деградация достигла критической точки, снижаем нагрузку на базу за счет отключения вторичных компонент
18:05 - отключаем контроллер "больших" досок, уведомляем затронутых пользователей о недоступности сервиса
18:15 - переключаем нагрузку на базу реплику
18:18 - не видим улучшений, уведомляем пользователей о недоступности сервиса
18:20 - отключаем поочередно критический модули для определения источника паразитной нагрузки
18:20 - подключаем нашего провайдера базы данных к процессу диагностики
18:33 - исключили проблему в модулях сервиса, вернули всю функциональность обратно
18:36 - производительность базы стабилизируется, видим улучшение в метриках доступности сервиса
18:43 - уведомляем пользователей об стабилизации сервиса, начинаем пост-инцидентую диагностику
Cделали:
Дальнейший анализ метрик и логов показал, что контроллер "больших" досок при определенных сценариях вызывает деградацию у базы данных
Полностью изолировали контроллер переведя его на отдельную базу данных, минимизировали шанс повторения сценария
Дополнили инструкции дежурного для разрешения подобных ситуаций
Планируем сделать:
Запланировали в ближайшую неделю переработать нестабильные компоненты контроллера
В среднесрочных планах откажемся от разделения больших и малых досок в пользу более оптимального архитектурного решения
доработать систему мониторинга базы данных для более оперативного выявления источника проблемы