Отчёты об инцидентах

На этой странице публикуется история инцидентов, связанных с недоступностью сервиса, и отчёты о проделанной работе по их устранению

29 октября 2024. Недоступность сервиса

17:55–18:40 (GMT+3)

17:55 - видим признаки замедления работы базы данных, начинаем диагностику

18:00 - деградация достигла критической точки, снижаем нагрузку на базу за счет отключения вторичных компонент

18:05 - отключаем контроллер "больших" досок, уведомляем затронутых пользователей о недоступности сервиса

18:15 - переключаем нагрузку на базу реплику

18:18 - не видим улучшений, уведомляем пользователей о недоступности сервиса

18:20 - отключаем поочередно критический модули для определения источника паразитной нагрузки

18:20 - подключаем нашего провайдера базы данных к процессу диагностики

18:33 - исключили проблему в модулях сервиса, вернули всю функциональность обратно

18:36 - производительность базы стабилизируется, видим улучшение в метриках доступности сервиса

18:43 - уведомляем пользователей об стабилизации сервиса, начинаем пост-инцидентую диагностику

Дальнейший анализ метрик и логов показал, что контроллер "больших" досок при определенных сценариях вызывает деградацию у базы данных
Полностью изолировали контроллер переведя его на отдельную базу данных, минимизировали шанс повторения сценария
Дополнили инструкции дежурного для разрешения подобных ситуаций

Запланировали в ближайшую неделю переработать нестабильные компоненты контроллера
В среднесрочных планах откажемся от разделения больших и малых досок в пользу более оптимального архитектурного решения
доработать систему мониторинга базы данных для более оперативного выявления источника проблемы