Enable javascript in your browser for better experience. Need to know to enable it? Go here.
imagem-de-fundo-azul-escura-sem-detalhes-ou-ilustracoes

Gestão de equipes oncall:

um guia DevOps

Em uma era definida pela necessidade de soluções digitais rápidas, construir uma equipe oncall robusta é essencial, um verdadeiro pilar estratégico.

 

Como Consultora de Infraestrutura para uma grande corporação, tenho enfrentado um desafio complexo de equilibrar ciência e arte na implementação desse processo, adaptando as práticas recomendadas à infraestrutura única e à cultura da empresa.

 

Pensando nisso, compartilho neste artigo meus aprendizados para te ajudar na sua jornada de implementação dessas práticas. 

 

 

O coração da operação: a equipe oncall

 

Pense em uma equipe oncall como o coração pulsante de uma organização tecnológica, vital para manter a operacionalidade dos serviços. Este time é fundamental para impulsionar a resolução de problemas através do ciclo de vida do serviço.

 

 

Estruturação da equipe oncall

 

A formação da nossa equipe de plantão (oncall) foi um processo gradual e bem planejado. Inicialmente, não contávamos com um grupo dedicado a essa função. Durante a fase de desenvolvimento e pré-produção, começamos a habilitar infraestrutura e produtos essenciais para o processo de execução. À medida que avançamos para a produção, a necessidade de uma equipe oncall tornou-se evidente.

 

Para atender a essa demanda, desenvolvemos um sistema robusto que distribui eficientemente a carga de trabalho entre os membros da equipe. Este sistema não apenas minimiza a fadiga causada por alertas constantes, mas também mantém nossa equipe profundamente engajada e prontamente responsiva. O resultado é uma operação mais fluida, onde cada desafio é rapidamente endereçado, garantindo a continuidade e a eficiência dos nossos serviços.

 

O desenvolvimento da nossa equipe oncall foi um processo cuidadosamente planejado e implementado gradualmente. Inicialmente, não tínhamos um grupo dedicado a essa função. Durante o desenvolvimento e a fase pré-produção, começamos a estruturar a infraestrutura e os produtos essenciais. À medida que avançamos para a produção, a necessidade de uma equipe oncall especializada tornou-se evidente.

 

Implementamos um sistema robusto que distribui eficientemente a carga de trabalho entre os membros, minimizando a fadiga causada por alertas constantes e mantendo o engajamento do time. O resultado é uma operação mais fluida, onde cada desafio é rapidamente endereçado.

 

  • Rotatividade equilibrada: Implementamos uma rotação justa e sustentável, equilibrando períodos de alta atividade com momentos de menor intensidade para recuperação e aprendizado.

   

  • Estratégia de escalada claramente definida: Criamos um protocolo claro para a escalada de problemas, garantindo que as questões sejam rapidamente repassadas à pessoa adequada, sem entraves burocráticos.



Comunicação e ferramentas

 

Para garantir uma operação eficiente, equipamos nossa equipe com as ferramentas de monitoramento e comunicação mais avançadas, que estão integradas ao nosso Jira Service Management e Grafana IRM. Esta integração garante que todos os alertas sejam precisos, compreensíveis e imediatamente acionáveis.

O uso de ferramentas inadequadas, por outro lado, pode levar a diversos problemas. Isso inclui comunicação falha entre os membros da equipe, atrasos significativos na resolução de incidentes, e uma maior ocorrência de inatividade do sistema. Tais falhas podem prejudicar severamente nossa eficiência operacional.

Com o objetivo de evitar esses impactos negativos, nos comprometemos a utilizar apenas tecnologias que promovam uma gestão de incidentes clara, eficiente e transparente.



Cultura oncall: Valores e práticas

 

Fomentar uma cultura de plantão saudável e produtiva foi um esforço intencional. Estabelecemos valores oncall, tais como:

  • Responsividade: estar sempre pronto para entrar em ação quando acionado.

  • Colaboração: trabalhar juntos para resolver problemas, sabendo que ninguém está sozinho nesse processo.

  • Aprendizado contínuo: cada incidente é uma chance de crescer e melhorar nossos sistemas e habilidades.

 

 

Conclusões e lições aprendidas

 

A formação de uma equipe oncall eficiente vai além de simplesmente definir quem está de plantão. Envolve construir um ecossistema onde o monitoramento proativo, a resposta rápida, a comunicação eficaz e a melhoria contínua são fundamentais para a cultura da empresa.

 

Monitoramento proativo significa antecipar problemas antes que eles causem danos. Por exemplo, podemos usar um sistema que verifica continuamente a capacidade de nossos servidores de e-commerce. Se o sistema detectar que a utilização da CPU está consistentemente alta, ele automaticamente notifica a equipe oncall. Isso permite que a equipe investigue e resolva o problema antes que o site fique lento ou saia do ar durante um período de alta demanda.

 

Com essa abordagem, conseguimos não só manter nossos serviços funcionando sem interrupções, mas também melhorar o ambiente de trabalho para nossa equipe, diminuir a rotatividade de pessoal e aumentar a confiança de nossos clientes na nossa capacidade de manter um serviço confiável e eficiente.

 

A implementação de uma política clara e acessível garante que todos na organização, não apenas a equipe oncall, entendam seus papéis e responsabilidades em caso de incidentes. Isso não só agiliza a resposta durante uma emergência, mas também contribui para uma cultura de transparência e colaboração.

 

Aviso: As afirmações e opiniões expressas neste artigo são de responsabilidade de quem o assina, e não necessariamente refletem as posições da Thoughtworks.