Cursos ONLINE

Curso de Procesamiento de datos a gran escala: Spark

Impartido por Alejandro Pérez Pérez, Datos - Business Intelligence - Inteligencia Artificial
Inicio: 30 Mayo 2024
1 mes
4.5

Presentación del curso

Spark es un motor analítico para el procesamiento de datos a gran escala. Este motor analítico está compuesto por un framework con múltiples librerías que nos permiten tratar y transformar los datos desde múltiples perspectivas como el procesamiento batch, el procesamiento en streaming e incluso el ML.

En este Curso de Procesamiento de datos a gran escala: Spark conoceremos desde un punto de vista práctico cada uno de las librerías de este framework, lo que nos permitirá conocer las interrelaciones de este framework con otros entornos Big Data.

Este curso forma parte del Master en Data Science y Big Data. Si quieres ampliar tu formación, consulta el programa completo.

Spark es un motor analítico para el procesamiento de datos a gran escala. Este motor analítico está compuesto por un framework con múltiples librerías que nos permiten tratar y transformar los datos desde múltiples perspectivas como el procesamiento batch, el procesamiento en streaming e incluso el ML.

En este Curso de Procesamiento de datos a gran escala: Spark conoceremos desde un punto de vista práctico cada uno de las librerías de este framework, lo que nos permitirá conocer las interrelaciones de este framework con otros entornos Big Data.

Este curso forma parte del Master en Data Science y Big Data. Si quieres ampliar tu formación, consulta el programa completo.

¿Qué aprenderás en este curso?

Al finalizar el Curso de Procesamiento de datos a gran escala: Spark serás perfectamente capaz de:

  • Saber realizar distintos procesamientos tanto en batch como en streaming para la resolución de problemas sobre datos a gran escala.
  • Saber utilizar modelos analíticos de Machine Learning disponibles en Spark.

¿Para quién es este curso?

El Curso de Procesamiento de datos a gran escala: Spark proporciona formación específicamente orientada a los siguientes perfiles:

  • Ingenieros que tengan por objetivo una actualización de sus conocimientos y el desarrollo de nuevas competencias dentro de la Inteligencia Artificial
  • Programadores que tengan por objetivo ampliar sus conocimientos y capacidades en el mundo de la ciencia de datos para su desarrollo profesional
  • Analistas de datos con experiencia que quieran dar el salto a los aspectos más profundos de la tecnología

El curso incluye:

  • 3 clases (1 mes)

  • 3 sprint semanales

  • Masterclass y/o tutorias

  • 1 proyecto

  • Diploma IEBS

  • Bolsa de empleo

Plan de estudios

Contenidos del curso:

  • Bienvenida y presentación
Tema 1: Introducción a Spark y programación en Batch sobre RDDs

Resumen

En esta primera clase, nos sumergiremos en el fascinante mundo de Apache Spark, un motor analítico diseñado para el procesamiento de datos a gran escala. Comenzaremos explorando las diferentes librerías que componen Spark y aprenderemos los conceptos básicos de las RDD (Resilient Distributed Datasets). A lo largo de la sesión, abordaremos cómo realizar transformaciones, acciones, shuffle y el uso de variables compartidas con RDD. Además, nos adentraremos en la persistencia de las RDD y el despliegue en un clúster. Para poner en práctica lo aprendido, daremos los primeros pasos con Databricks y realizaremos un caso de uso utilizando esta herramienta.

Objetivos

  • Comprender qué es Apache Spark y sus diferentes librerías.

  • Utilizar las RDD (Resilient Distributed Datasets) para procesar datos a gran escala.

  • Aplicar transformaciones y acciones en Spark, incluyendo shuffle y variables compartidas.

  • Conocer y aplicar la persistencia de las RDD y su despliegue en un clúster.

  • Utilizar Databricks para realizar tareas de procesamiento de datos a gran escala.

  • Aplicar los conocimientos adquiridos en un caso de uso práctico utilizando Databricks.

Temario

  • Introducción a Spark y programación en Batch sobre RDD
    • Introducción a Apache Spark y sus diferentes librerías
    • Primeros pasos con Spark
    • Introducción a las RDD (Resilient Distributed Datasets)
    • Transformaciones, acciones, shuffle y variables compartidas con RDD
    • Persistencia de las RDD y despliegue en cluster
    • Introducción a Databricks
    • Primeros pasos con Databricks
    • Caso de uso con Databricks
Tema 2: Spark SQL, Dataframes y GraphX

Resumen

En esta clase, exploraremos las capacidades de Spark en el manejo de datos estructurados a través de Spark SQL y DataFrames. Comenzaremos entendiendo cómo funcionan las APIs estructuradas y aprenderemos a trabajar con DataFrames, tipos de datos y esquemas. Además, nos adentraremos en el motor SQL distribuido y en la creación de User Functions. Continuaremos explorando GraphX, la biblioteca de Spark para el análisis de grafos, donde aprenderemos a realizar operaciones con grafos y a trabajar en ejercicios prácticos.

Objetivos

  • Utilizar Spark SQL para el manejo de datos estructurados.

  • Trabajar con DataFrames, tipos de datos y esquemas en Spark.

  • Entender el funcionamiento del motor SQL distribuido en Spark.

  • Crear y aplicar User Functions en Spark.

  • Realizar análisis de grafos utilizando GraphX.

  • Aplicar operaciones con grafos y completar ejercicios prácticos.

Temario

  • Spark SQL, Dataframes y GraphX vista
    • Spark y las APIs Estructuradas
    • Dataframes, tipos de datos y esquemas
    • Motor SQL distribuido y User Functions
    • Ejercicio Práctico con DataFrames
    • Analítica de Grafos
    • Operaciones con Grafos
    • Ejercicios Prácticos con Grafos
Tema 3: Spark Streaming y MLlib

Resumen

En esta clase, exploraremos las capacidades de Spark en el ámbito del Machine Learning y el procesamiento de datos en streaming. Comenzaremos con una introducción a MLlib, la biblioteca de Spark para el aprendizaje automático, donde abordaremos algoritmos de aprendizaje supervisado y realizaremos un caso práctico. Continuaremos explorando Spark Streaming, donde aprenderemos a procesar datos en tiempo real. Además, realizaremos un caso práctico para aplicar los conocimientos adquiridos.

Objetivos

  • Utilizar MLlib para implementar algoritmos de aprendizaje supervisado en Spark.

  • Aplicar un caso práctico de algoritmos de aprendizaje supervisado utilizando MLlib.

  • Comprender el funcionamiento de Spark Streaming.

  • Procesar datos en tiempo real utilizando Spark Streaming.

  • Aplicar un caso práctico de procesamiento de datos en streaming con Spark.

Temario

  • Spark Streaming y MLlib
    • Introducción a MLlib
    • Caso Práctico de Algoritmos de Aprendizaje Supervisado y MLlib
    • Spark Streaming
    • Caso Práctico con Spark Streaming

Experto

Alejandro Pérez Pérez

Datos - Business Intelligence - Inteligencia Artificial

Nuestros alumnos opinan

¿Por qué elegirnos?

Descubre lo que nos diferencia

95%Empleo

El 95% de nuestros alumnos está trabajando o emprende cuando finaliza sus estudios

Empleo
175kAlumnos

Somos la mayor comunidad de profesionales digitales del mundo

Comunidad
13Años

Expertos en formación online: más de 10 años liderando la innovación del elearning

Experiencia
95%Satisfacción

El 95% de nuestros alumnos consiguen mejorar su situación al finalizar sus estudios

Seguridad

Curso de Procesamiento de datos a gran escala: Spark

U$S 510

  • Big data & IA
Inicio: 30 Mayo 2024
1 mes
Online
Ininterrumpido 24/7
Diploma de IEBS

Curso de Procesamiento de datos a gran escala: Spark

U$S 510