Buscamos un Site Reliability Engineer (SRE) con experiencia en soporte y mantenimiento de infraestructura en AWS y Tanzu. Este perfil será responsable de garantizar la estabilidad, resiliencia y eficiencia de los sistemas levantados por el equipo DevOps, así como de optimizar costos en la nube, resolver problemas complejos relacionados con infraestructura y automatizar procesos clave.
Responsabilidades principales :
- Proveer soporte a la infraestructura existente en AWS (EKS, Cognito, Lambda) y Tanzu.
- Diagnosticar y resolver problemas en sistemas de infraestructura cloud y on-premise.
- Garantizar la disponibilidad, resiliencia y desempeño de la infraestructura y aplicaciones apoyado en herramientas como AWS Resilience Hub.
- Identificar oportunidades de optimización de costos en la nube y aplicar estrategias para reducirlos.
- Implementar y mantener prácticas de observabilidad (logging, métricas y tracing).
- Trabajar en conjunto con los equipos DevOps para gestionar la eficiencia operativa y técnica de los sistemas.
- Asegurar la seguridad de la infraestructura mediante buenas prácticas en encriptación, autenticación y autorización (OAuth, JWT, OIDC, HTTPS).
- Colaborar en estrategias de recuperación ante desastres y manejo de fallos (reintentos, timeouts, transaccionalidad distribuida).
- Configurar y mantener pipelines de despliegue productivo con herramientas de CI / CD y GitOps (ArgoCD).
- Automatizar procesos para mejorar la eficiencia y reducir errores humanos.
- Configurar y gestionar pipelines de CI / CD en GitLab, asegurando despliegues eficientes y confiables.
Requisitos :
Requisitos técnicos :
Amplios conocimientos en AWS, con experiencia en servicios como EKS, Cognito y Lambda.Experiencia en plataformas on-premise, preferentemente Tanzu.Conocimientos sólidos en Kubernetes y su ecosistema.Experiencia con herramientas de infraestructura como código (Terraform, Terragrunt).Familiaridad con estrategias de GitOps y herramientas como ArgoCD.Experiencia general en GitLab y configuración avanzada de pipelines.Manejo avanzado de flujos de despliegue productivo y configuración de pipelines.Conocimientos en web servers y API gateways (nginx, Apache, AWS API Gateway, Apigee).Experiencia en resiliencia y recuperación ante fallos (caídas, reintentos, timeouts, etc.).Conocimientos en lenguajes de scripting como Bash y Python.Familiaridad con microservicios, arquitecturas distribuidas, bases de datos (Aurora, Dynamo), caché, message brokers y herramientas de observabilidad.Experiencia en herramientas y prácticas de automatización.Familiarizado con el uso de SLO, SLI y SLA.Experiencia con RCAHabilidades adicionales :
Capacidad de analizar y optimizar componentes para reducir costos en AWS.Mentalidad orientada a la mejora continua y a la solución de problemas.Excelentes habilidades de comunicación y colaboración con equipos cross-funcionales.Plus :
Certificaciones en AWS o Kubernetes.Experiencia previa en ambientes híbridos (nube y on-premise).