Colaborar na construção e manutenção de sistemas de monitoramento para acompanhar o desempenho dos sistemas em tempo real;
Auxiliar na análise de dados para identificar tendências e necessidades futuras de capacidade dos sistemas;
Participar da identificação e resolução de problemas de confiabilidade, buscando aprimorar os sistemas e minimizar o tempo de inatividade;
Responder a incidentes e auxiliar na resolução de problemas, buscando cumprir os SLIs e SLOs estabelecidos;
Colaborar na implementação de soluções para tornar os sistemas mais resilientes a falhas;
Trabalhar em colaboração com as equipes de desenvolvimento, infraestrutura e operações;
Participar da execução de testes de resiliência, como testes de falha e recuperação de desastres;
Contribuir para o design e arquitetura de sistemas, buscando garantir alta disponibilidade, escalabilidade e confiabilidade.
Experiência com ferramentas de IaC, como Terraform ou Ansible.
Conhecimento em plataformas de nuvem, como Google Cloud Platform (GCP);
Experiência com ferramentas de monitoramento e observabilidade, como DataDog ou Prometheus ou Grafana ou ELK Stack;
Conhecimento em ferramentas de log e tracing;
Conhecimento em práticas de segurança da informação;
Conhecimento em redes, protocolos de comunicação e arquiteturas de sistemas distribuídos;
Capacidade de identificar e resolver problemas de forma eficiente.
Experiência em automatização de processos e scripting (Python, Bash, Go);
Conhecimento em práticas de gestão de mudanças e incidentes.
Experiência com ambientes Linux;
Capacidade de analisar dados relacionados à confiabilidade de sistemas.