Incidente:
No dia 26 de junho de 2024, partir das 17:50, a nossa monitoria identificou uma queda em alguns serviços da Microsoft Azure, que impactaram o funcionamento das lojas, causando lentidão e indisponibilidade dos nossos sites.
Causa:
Após análise realizada pelo nosso time de Engenharia e Infraestrutura, identificamos que, dentre os problemas relatados pela Microsoft, dois deles impactaram diretamente a nossa operação. O Load Balancer, responsável por direcionar as requisições da nossa aplicação para alguns recursos vitais que suportam o pleno funcionamento de nossa plataforma; e o Cache for Redis, responsável pela gestão de nossos caches aplicacionais.
Solução:
Durante o incidente o time de engenharia entrou em contato com a Microsoft para acompanhar a resolução do problema. Como o tempo de resolução do incidente foi maior do que o esperado em um primeiro momento, o nosso time de Infraestrutura iniciou um trabalho para configurar uma estrutura de contingência para que os sites funcionassem sem o Redis Cache gerenciado pela Microsoft.
Após essas ações imediatas, seguimos proativamente monitorando o serviço para assegurar sua total estabilidade. As contramedidas estabelecidas permanecerão por, no mínimo, 24 horas, até termos total certeza de que o serviço prestado pelo parceiro está com o uptime esperado.