No solo buscamos talento, buscamos mentes curiosas que disfruten aprender y transformar el futuro.

Somos tech, somos exigentes y sí, vamos rápido. Pero nadie compite solo. Trabajamos en equipo y si buscas retos que te saquen de la zona cómoda (porque ahí no crece nadie), estás en el lugar correcto. Aquí aprenderás con expertos, participarás en proyectos de alto impacto y estarás siempre un paso adelante en tecnología.

Objetivo

Responsable del diseño, desarrollo y optimización de pipelines de datos distribuidos y arquitecturas de Big Data dentro del Data Lake del banco. su objetivo principal será habilitar el procesamiento de datos a gran escala —tanto en lotes (Batch) como en tiempo real (Streaming)— garantizando la disponibilidad de la información para los equipos de Ciencia de Datos, Analítica Avanzada y modelos de prevención de fraudes o riesgo crediticio.

Responsabilidades Clave

Desarrollo de Pipelines Distribuidos: Diseñar e implementar procesos de transformación de datos eficientes utilizando Apache Spark (Core, SQL, DataFrames) empleando Scala, Python (PySpark) o Java.
Procesamiento en Tiempo Real: Desarrollar, mantener y monitorear arquitecturas de streaming basadas en eventos utilizando Apache Kafka para la ingesta y consumo inmediato de datos transaccionales o notificaciones de la app bancaria.
Orquestación de Flujos: Construir, calendarizar y monitorear flujos de trabajo (DAGs) complejos mediante Apache Airflow, asegurando que las dependencias entre procesos de datos se ejecuten sin errores.
Estructuración en el Data Lake: Diseñar y consultar estructuras de datos optimizadas en el Data Lake utilizando Apache Hive, Apache Impala o formatos modernos como Apache Iceberg, definiendo estrategias correctas de particionamiento para reducir costos y tiempos de consulta.
Optimización de Rendimiento (Tuning): Monitorear la ejecución de jobs en entornos distribuidos, ajustar la asignación de memoria/recursos en Apache Hadoop YARN (o Kubernetes) y reescribir código para eliminar cuellos de botella (como la fragmentación de archivos pequeños).
Calidad y Seguridad: Aplicar reglas de calidad de datos y políticas de enmascaramiento/seguridad perimetral (ej. con Apache Ranger/Atlas) para proteger la información confidencial de los clientes del banco.

Requisitos y Perfil Técnico

Educación: Licenciatura o Ingeniería en Sistemas, Ciencias de la Computación, Informática o carrera afín.
Experiencia: Mínimo 3 años de experiencia comprobable desarrollando soluciones sobre el ecosistema Hadoop/Big Data de Apache en sectores de alta transaccionalidad (Banca, Telecomunicaciones o E-commerce).
Hard Skills Esenciales:
- Experiencia fuerte con Apache Spark (idealmente con PySpark o Scala).
- Manejo sólido de Apache Kafka (conceptos de tópicos, particiones, productores y consumidores).
- Experiencia en la creación de pipelines y orquestación con Apache Airflow.
- Dominio de SQL avanzado enfocado a motores distribuidos (Hive / Impala / Spark SQL).
- Experiencia intermedia en sistemas operativos Linux/Unix y desarrollo de scripts en Python o Shell.
Hard Skills Deseables (Plus):
- Experiencia integrando tecnologías Apache con nubes públicas (AWS EMR, Azure HDInsight / Databricks o GCP Dataproc)
- Conocimiento en arquitectura data analytics, datalake, lakehouse.

¿Qué tenemos para ti?

Apoyamos tu crecimiento personal y profesional con planes de desarrollo individual, donde tu eres dueñ@ de tu carrera y hasta dónde quieres llegar.
Días de descanso superiores a los de la ley: No es necesario esperar un año para disfrutar de tus días de vacaiones, además de días adicionales por tipos de eventos especiales y festividades.
Beneficios económicos adicionales a tu salario: Vales de despensa, fondo de ahorro, bolsa de capacitación, bono de bienestar, convenios y descuentos.
Apoyo emocional, queremos tu estabilidad en salud fisica y mental, por ello tenemos diversos beneficios que cubren aspectos de equilibrio personal para ti y salud para tu familia. ¡Queremos cuidar de ti y los tuyos!

Aquí hay espacio para gente buena… como tú, ¡Queremos conocerte!

Apache Data Engineer

Data Engineer con Spark, Kafka y Airflow: diseña pipelines escalables (batch y streaming) en el Data Lake de banca

Acerca de Bluetab, an IBM Company

Apache Data Engineer

Data Engineer con Spark, Kafka y Airflow: diseña pipelines escalables (batch y streaming) en el Data Lake de banca

¿Ya trabajas en Bluetab, an IBM Company?