Apache Data Engineer
Data Engineer con Spark, Kafka y Airflow: diseña pipelines escalables (batch y streaming) en el Data Lake de banca
Normalmente respondemos en un plazo de una semana
No solo buscamos talento, buscamos mentes curiosas que disfruten aprender y transformar el futuro.
Somos tech, somos exigentes y sí, vamos rápido. Pero nadie compite solo. Trabajamos en equipo y si buscas retos que te saquen de la zona cómoda (porque ahí no crece nadie), estás en el lugar correcto. Aquí aprenderás con expertos, participarás en proyectos de alto impacto y estarás siempre un paso adelante en tecnología.
Objetivo
Responsable del diseño, desarrollo y optimización de pipelines de datos distribuidos y arquitecturas de Big Data dentro del Data Lake del banco. su objetivo principal será habilitar el procesamiento de datos a gran escala —tanto en lotes (Batch) como en tiempo real (Streaming)— garantizando la disponibilidad de la información para los equipos de Ciencia de Datos, Analítica Avanzada y modelos de prevención de fraudes o riesgo crediticio.
Responsabilidades Clave
Desarrollo de Pipelines Distribuidos: Diseñar e implementar procesos de transformación de datos eficientes utilizando Apache Spark (Core, SQL, DataFrames) empleando Scala, Python (PySpark) o Java.
Procesamiento en Tiempo Real: Desarrollar, mantener y monitorear arquitecturas de streaming basadas en eventos utilizando Apache Kafka para la ingesta y consumo inmediato de datos transaccionales o notificaciones de la app bancaria.
Orquestación de Flujos: Construir, calendarizar y monitorear flujos de trabajo (DAGs) complejos mediante Apache Airflow, asegurando que las dependencias entre procesos de datos se ejecuten sin errores.
Estructuración en el Data Lake: Diseñar y consultar estructuras de datos optimizadas en el Data Lake utilizando Apache Hive, Apache Impala o formatos modernos como Apache Iceberg, definiendo estrategias correctas de particionamiento para reducir costos y tiempos de consulta.
Optimización de Rendimiento (Tuning): Monitorear la ejecución de jobs en entornos distribuidos, ajustar la asignación de memoria/recursos en Apache Hadoop YARN (o Kubernetes) y reescribir código para eliminar cuellos de botella (como la fragmentación de archivos pequeños).
Calidad y Seguridad: Aplicar reglas de calidad de datos y políticas de enmascaramiento/seguridad perimetral (ej. con Apache Ranger/Atlas) para proteger la información confidencial de los clientes del banco.
Requisitos y Perfil Técnico
Educación: Licenciatura o Ingeniería en Sistemas, Ciencias de la Computación, Informática o carrera afín.
Experiencia: Mínimo 3 años de experiencia comprobable desarrollando soluciones sobre el ecosistema Hadoop/Big Data de Apache en sectores de alta transaccionalidad (Banca, Telecomunicaciones o E-commerce).
Hard Skills Esenciales:
Experiencia fuerte con Apache Spark (idealmente con PySpark o Scala).
Manejo sólido de Apache Kafka (conceptos de tópicos, particiones, productores y consumidores).
Experiencia en la creación de pipelines y orquestación con Apache Airflow.
Dominio de SQL avanzado enfocado a motores distribuidos (Hive / Impala / Spark SQL).
Experiencia intermedia en sistemas operativos Linux/Unix y desarrollo de scripts en Python o Shell.
Hard Skills Deseables (Plus):
Experiencia integrando tecnologías Apache con nubes públicas (AWS EMR, Azure HDInsight / Databricks o GCP Dataproc)
Conocimiento en arquitectura data analytics, datalake, lakehouse.
¿Qué tenemos para ti?
Apoyamos tu crecimiento personal y profesional con planes de desarrollo individual, donde tu eres dueñ@ de tu carrera y hasta dónde quieres llegar.
Días de descanso superiores a los de la ley: No es necesario esperar un año para disfrutar de tus días de vacaiones, además de días adicionales por tipos de eventos especiales y festividades.
Beneficios económicos adicionales a tu salario: Vales de despensa, fondo de ahorro, bolsa de capacitación, bono de bienestar, convenios y descuentos.
Apoyo emocional, queremos tu estabilidad en salud fisica y mental, por ello tenemos diversos beneficios que cubren aspectos de equilibrio personal para ti y salud para tu familia. ¡Queremos cuidar de ti y los tuyos!
Aquí hay espacio para gente buena… como tú, ¡Queremos conocerte!
- Departamento
- Talent Discovery México
- Puesto
- Data Engineer
- Ubicaciones
- Ciudad de México
- Estado remoto
- Híbrido
Acerca de Bluetab, an IBM Company
Bluetab forma parte de IBM Consulting, empoderando a las empresas líderes de EMEA y LATAM para desbloquear todo su potencial de datos. Con un equipo de más de 1,600 especialistas en Data, Analytics e Inteligencia Artificial, creamos y ejecutamos soluciones transformadoras que potencian decisiones estratégicas, optimizan operaciones y generan resultados de alto impacto.