Современная инфраструктура всё чаще представляет собой сложные распределенные системы, где сбой одного компонента может повлиять на работу всего бизнеса. Поэтому наблюдаемость сервисов становится частью базовой инженерной культуры — компаниям важно не только фиксировать инциденты, но и быстро понимать их причины.
В этом контексте Yandex B2B Tech запустила Monium — платформу для мониторинга и управления состоянием ИТ-систем. Решение уже доступно всем пользователям и создавалось омандой Yandex Infrastructure для контроля высоконагруженных внутренних сервисов.
Monium объединяет метрики, логи и трейсы в одном интерфейсе, что упрощает анализ телеметрии и поиск первопричин инцидентов в распределенных архитектурах. Платформа позволяет анализировать приложения, инфраструктуру и цифровые продукты находящиеся как в облаке, так и on-prem-средах.
Система рассчитана на highload: до 3 млрд семплов метрик в секунду, около 44 млн спанов трассировки и до 60 ГБ логов ежесекундно. Поддерживаются открытые стандарты Prometheus и OpenTelemetry, что облегчает интеграцию в существующие DevOps-процессы.