Spark es un motor analítico para el procesamiento de datos a gran escala. Este motor analítico está compuesto por un framework con múltiples librerías que nos permiten tratar y transformar los datos desde múltiples perspectivas como el procesamiento batch, el procesamiento en streaming e incluso el ML.
En este Curso de Procesamiento de datos a gran escala: Spark conoceremos desde un punto de vista práctico cada uno de las librerías de este framework, lo que nos permitirá conocer las interrelaciones de este framework con otros entornos Big Data.
Este curso forma parte del Master en Data Science y Big Data. Si quieres ampliar tu formación, consulta el programa completo.
Este curso forma parte del Máster en Data Science y Big Data.
Si quieres ampliar tu formación, consulta el programa completo.
Másters
Big data & IA
Máster en Data Science y Big Data
a quién va dirigido
El Curso de Procesamiento de datos a gran escala: Spark proporciona formación específicamente orientada a los siguientes perfiles:
- Ingenieros que tengan por objetivo una actualización de sus conocimientos y el desarrollo de nuevas competencias dentro de la Inteligencia Artificial
- Programadores que tengan por objetivo ampliar sus conocimientos y capacidades en el mundo de la ciencia de datos para su desarrollo profesional
- Analistas de datos con experiencia que quieran dar el salto a los aspectos más profundos de la tecnología
QUÉ APRENDERÁS
Al finalizar el Curso de Procesamiento de datos a gran escala: Spark serás perfectamente capaz de:
- Saber realizar distintos procesamientos tanto en batch como en streaming para la resolución de problemas sobre datos a gran escala.
- Saber utilizar modelos analíticos de Machine Learning disponibles en Spark.

PLAN DE ESTUDIOS
Resumen
En esta primera clase, nos sumergiremos en el fascinante mundo de Apache Spark, un motor analítico diseñado para el procesamiento de datos a gran escala. Comenzaremos explorando las diferentes librerías que componen Spark y aprenderemos los conceptos básicos de las RDD (Resilient Distributed Datasets). A lo largo de la sesión, abordaremos cómo realizar transformaciones, acciones, shuffle y el uso de variables compartidas con RDD. Además, nos adentraremos en la persistencia de las RDD y el despliegue en un clúster. Para poner en práctica lo aprendido, daremos los primeros pasos con Databricks y realizaremos un caso de uso utilizando esta herramienta.
Objetivos
-
Comprender qué es Apache Spark y sus diferentes librerías.
-
Utilizar las RDD (Resilient Distributed Datasets) para procesar datos a gran escala.
-
Aplicar transformaciones y acciones en Spark, incluyendo shuffle y variables compartidas.
-
Conocer y aplicar la persistencia de las RDD y su despliegue en un clúster.
-
Utilizar Databricks para realizar tareas de procesamiento de datos a gran escala.
-
Aplicar los conocimientos adquiridos en un caso de uso práctico utilizando Databricks.
Temario
- Introducción a Spark y programación en Batch sobre RDD
- Introducción a Apache Spark y sus diferentes librerías
- Primeros pasos con Spark
- Introducción a las RDD (Resilient Distributed Datasets)
- Transformaciones, acciones, shuffle y variables compartidas con RDD
- Persistencia de las RDD y despliegue en cluster
- Introducción a Databricks
- Primeros pasos con Databricks
- Caso de uso con Databricks
Resumen
En esta clase, exploraremos las capacidades de Spark en el manejo de datos estructurados a través de Spark SQL y DataFrames. Comenzaremos entendiendo cómo funcionan las APIs estructuradas y aprenderemos a trabajar con DataFrames, tipos de datos y esquemas. Además, nos adentraremos en el motor SQL distribuido y en la creación de User Functions. Continuaremos explorando GraphX, la biblioteca de Spark para el análisis de grafos, donde aprenderemos a realizar operaciones con grafos y a trabajar en ejercicios prácticos.
Objetivos
-
Utilizar Spark SQL para el manejo de datos estructurados.
-
Trabajar con DataFrames, tipos de datos y esquemas en Spark.
-
Entender el funcionamiento del motor SQL distribuido en Spark.
-
Crear y aplicar User Functions en Spark.
-
Realizar análisis de grafos utilizando GraphX.
-
Aplicar operaciones con grafos y completar ejercicios prácticos.
Temario
- Spark SQL, Dataframes y GraphX vista
- Spark y las APIs Estructuradas
- Dataframes, tipos de datos y esquemas
- Motor SQL distribuido y User Functions
- Ejercicio Práctico con DataFrames
- Analítica de Grafos
- Operaciones con Grafos
- Ejercicios Prácticos con Grafos
Resumen
En esta clase, exploraremos las capacidades de Spark en el ámbito del Machine Learning y el procesamiento de datos en streaming. Comenzaremos con una introducción a MLlib, la biblioteca de Spark para el aprendizaje automático, donde abordaremos algoritmos de aprendizaje supervisado y realizaremos un caso práctico. Continuaremos explorando Spark Streaming, donde aprenderemos a procesar datos en tiempo real. Además, realizaremos un caso práctico para aplicar los conocimientos adquiridos.
Objetivos
-
Utilizar MLlib para implementar algoritmos de aprendizaje supervisado en Spark.
-
Aplicar un caso práctico de algoritmos de aprendizaje supervisado utilizando MLlib.
-
Comprender el funcionamiento de Spark Streaming.
-
Procesar datos en tiempo real utilizando Spark Streaming.
-
Aplicar un caso práctico de procesamiento de datos en streaming con Spark.
Temario
- Spark Streaming y MLlib
- Introducción a MLlib
- Caso Práctico de Algoritmos de Aprendizaje Supervisado y MLlib
- Spark Streaming
- Caso Práctico con Spark Streaming
profesorado
aprende con los mejores expertos
OPINIONES del Curso de Procesamiento de datos a gran escala: Spark

Orlando Hernández Jiménez
Consultant, Data Scientist and Trainer in BI, ECM, BigData, ML & Blockchain
Todos los objetivos claros en combinación con dedicación y esfuerzo, darán un extraordinario y satisfactorio resultado. Así que a seguir con los siguientes objetivos #iebs.

Arantxa Martínez Capitán
Técnico BPO en Integra HCM
En el Postgrado en Business Intelligence & BD he trabajado con herramientas como Alteryx, RapidMiner, MySQL y Microsoft Power BI. Con ellas he ido encajando piezas hasta crear el puzle completo mediante el desarrollo de casos prácticos reales.

Juan Manuel Hernández Espinosa
Senior Petroleum Economist & Data Scientist
¡He disfrutado mucho este viaje! Un logro más, ahora es el momento de aplicar todos los aprendizajes y aprovecharlos en todos los aspectos profesionales!, Gracias IEBS Business School.

Roberto Esteves
Gerente General en Masapp
Solamente pasaba para compartirles un pequeño éxito, haber terminado el postgrado en el IEBS Business School en "Data Science y Machine Learning", esto me sirve para poder seguir dando mejores capacitaciones.
resumen
del Curso de Procesamiento de datos a gran escala: Spark
DURACIÓN
1 mes (40 horas)
INICIO
15 Enero
Modalidad
Online - Accesible 24/7
precio
510 U$S
incluye
Diploma IEBS y bolsa de empleo
valoración
4.9/5 de valoración por los alumnos
No enseñamos el futuro. Te ayudamos a crearlo.
FORMACIÓN RELACIONADA
Curso
Big data & IA
Curso en Transformación digital: Inteligencia Artificial Generativa (genAI) y cloud computing

Curso
Big data & IA
Curso en Estrategia Digital: Cómo lograr ventajas diferenciales con tecnología digital

Curso
Big data & IA
Curso en IA Aplicada a Social Media

Curso
Big data & IA
Curso en Aprende a desarrollar narrativas con ChatGPT

Curso
Big data & IA
Curso en IA aplicada al Customer experience

Curso
Big data & IA
Curso en Revolución Visual: crea productos Audiovisuales con IA Generativa y Runway
