Отчёты об инцидентах

Отчёты об инцидентах

Отчёты об инцидентах

На этой странице публикуется история инцидентов, связанных с недоступностью сервиса, и отчёты о проделанной работе по их устранению

На этой странице публикуется история инцидентов, связанных с недоступностью сервиса, и отчёты о проделанной работе по их устранению

17:55–18:40 (GMT+3)

17:55 - видим признаки замедления работы базы данных, начинаем диагностику

18:00 - деградация достигла критической точки, снижаем нагрузку на базу за счет отключения вторичных компонент

18:05 - отключаем контроллер "больших" досок, уведомляем затронутых пользователей о недоступности сервиса

18:15 - переключаем нагрузку на базу реплику

18:18 - не видим улучшений, уведомляем пользователей о недоступности сервиса

18:20 - отключаем поочередно критический модули для определения источника паразитной нагрузки

18:20 - подключаем нашего провайдера базы данных к процессу диагностики

18:33 - исключили проблему в модулях сервиса, вернули всю функциональность обратно

18:36 - производительность базы стабилизируется, видим улучшение в метриках доступности сервиса

18:43 - уведомляем пользователей об стабилизации сервиса, начинаем пост-инцидентую диагностику

Cделали:
  1. Дальнейший анализ метрик и логов показал, что контроллер "больших" досок при определенных сценариях вызывает деградацию у базы данных

  2. Полностью изолировали контроллер переведя его на отдельную базу данных, минимизировали шанс повторения сценария

  3. Дополнили инструкции дежурного для разрешения подобных ситуаций

Планируем сделать:
  1. Запланировали в ближайшую неделю переработать нестабильные компоненты контроллера

  2. В среднесрочных планах откажемся от разделения больших и малых досок в пользу более оптимального архитектурного решения

  3. доработать систему мониторинга базы данных для более оперативного выявления источника проблемы