🕵️ Как один день в Австралии чуть не сжег нам процессор
Наш сервис продаж для юридических лиц работал шесть лет без нареканий и ошибок. Обычный бэкенд, который держит 30 RPS, обрабатывает миллион джобов в день и ест 125ms CPU. В начале года нам нужно было перевести его с NoSQL на PostgreSQL, и спустя час после деплоя прилетел алерт: CPU вырос в 10 раз. Поды начали перезапускаться, а у нас начался долгий траблшутинг.
😎 В карточках наш разработчик Антон Пронькин поделился, как мы заметили проблемы с CPU, на что выделялись гигабайты памяти, почему откат не помог, как ловили баг с помощью дампов и профайлера и при чем тут Австралия. А еще больше подробностей и графиков — на Хабре.
#debugging #performance #timezone