Esta oferta de trabajo no está disponible en tu país.

Site Reliability Engineer Senior

ItpsBuenos Aires, AR

Hace más de 30 días

Descripción del trabajo

Buscamos un Site Reliability Engineer (SRE) con experiencia en soporte y mantenimiento de infraestructura en AWS y Tanzu. Este perfil será responsable de garantizar la estabilidad, resiliencia y eficiencia de los sistemas levantados por el equipo DevOps, así como de optimizar costos en la nube, resolver problemas complejos relacionados con infraestructura y automatizar procesos clave.

Responsabilidades principales :

Proveer soporte a la infraestructura existente en AWS (EKS, Cognito, Lambda) y Tanzu.
Diagnosticar y resolver problemas en sistemas de infraestructura cloud y on-premise.
Garantizar la disponibilidad, resiliencia y desempeño de la infraestructura y aplicaciones apoyado en herramientas como AWS Resilience Hub.
Identificar oportunidades de optimización de costos en la nube y aplicar estrategias para reducirlos.
Implementar y mantener prácticas de observabilidad (logging, métricas y tracing).
Trabajar en conjunto con los equipos DevOps para gestionar la eficiencia operativa y técnica de los sistemas.
Asegurar la seguridad de la infraestructura mediante buenas prácticas en encriptación, autenticación y autorización (OAuth, JWT, OIDC, HTTPS).
Colaborar en estrategias de recuperación ante desastres y manejo de fallos (reintentos, timeouts, transaccionalidad distribuida).
Configurar y mantener pipelines de despliegue productivo con herramientas de CI / CD y GitOps (ArgoCD).
Automatizar procesos para mejorar la eficiencia y reducir errores humanos.
Configurar y gestionar pipelines de CI / CD en GitLab, asegurando despliegues eficientes y confiables.

Requisitos :

Requisitos técnicos :

Amplios conocimientos en AWS, con experiencia en servicios como EKS, Cognito y Lambda.

Experiencia en plataformas on-premise, preferentemente Tanzu.

Conocimientos sólidos en Kubernetes y su ecosistema.

Experiencia con herramientas de infraestructura como código (Terraform, Terragrunt).

Familiaridad con estrategias de GitOps y herramientas como ArgoCD.

Experiencia general en GitLab y configuración avanzada de pipelines.

Manejo avanzado de flujos de despliegue productivo y configuración de pipelines.

Conocimientos en web servers y API gateways (nginx, Apache, AWS API Gateway, Apigee).

Experiencia en resiliencia y recuperación ante fallos (caídas, reintentos, timeouts, etc.).

Conocimientos en lenguajes de scripting como Bash y Python.

Familiaridad con microservicios, arquitecturas distribuidas, bases de datos (Aurora, Dynamo), caché, message brokers y herramientas de observabilidad.

Experiencia en herramientas y prácticas de automatización.

Familiarizado con el uso de SLO, SLI y SLA.

Experiencia con RCA

Habilidades adicionales :

Capacidad de analizar y optimizar componentes para reducir costos en AWS.

Mentalidad orientada a la mejora continua y a la solución de problemas.

Excelentes habilidades de comunicación y colaboración con equipos cross-funcionales.

Plus :

Certificaciones en AWS o Kubernetes.

Experiencia previa en ambientes híbridos (nube y on-premise).

Crear una alerta de empleo para esta búsqueda

Site Reliability Engineer • Buenos Aires, AR