Incidente:
O nosso serviço de monitoria identificou uma constante lentidão em nosso serviço responsável por agendar os fluxos de pedido da plataforma.
Impacto:
Os pedidos da plataforma ficaram sem ter o status atualizado de forma automática durante o incidente.
Causa:
Foi identificado uma anomalia no banco de dados que é utilizado pelo nosso agendador de tarefas da plataforma. Basicamente, ele não estava realizado a limpeza (purge) corretamente dos logs de execução internos dos nossos serviços, sobrecarregando o serviço.
Solução:
O time de produto realizou uma limpeza no banco de dados para que o serviço fosse reestabelecido. Depois que o serviço voltou ao normal, foi realizada a correção definitiva do problema, ajustando o processo de limpeza dos bancos de dados utilizados pelo nosso serviço. Com isso, não tivemos novos incidentes.