Curso ONLINE

Curso de Procesamiento de datos a gran escala: Spark

Impartido por Alejandro Napoleon Thoux, Data Engineer en ALTEN
Inicio: 30 Mayo 2024
1 mes
4.7

Presentación del curso

Spark es un motor analítico para el procesamiento de datos a gran escala. Este motor analítico está compuesto por un framework con múltiples librerías que nos permiten tratar y transformar los datos desde múltiples perspectivas como el procesamiento batch, el procesamiento en streaming e incluso el ML.

En este Curso de Procesamiento de datos a gran escala: Spark conoceremos desde un punto de vista práctico cada uno de las librerías de este framework, lo que nos permitirá conocer las interrelaciones de este framework con otros entornos Big Data.

Este curso forma parte del Master en Data Science y Big Data. Si quieres ampliar tu formación, consulta el programa completo.

Spark es un motor analítico para el procesamiento de datos a gran escala. Este motor analítico está compuesto por un framework con múltiples librerías que nos permiten tratar y transformar los datos desde múltiples perspectivas como el procesamiento batch, el procesamiento en streaming e incluso el ML.

En este Curso de Procesamiento de datos a gran escala: Spark conoceremos desde un punto de vista práctico cada uno de las librerías de este framework, lo que nos permitirá conocer las interrelaciones de este framework con otros entornos Big Data.

Este curso forma parte del Master en Data Science y Big Data. Si quieres ampliar tu formación, consulta el programa completo.

¿Qué aprenderás en este curso?

Al finalizar el Curso de Procesamiento de datos a gran escala: Spark serás perfectamente capaz de:

  • Saber realizar distintos procesamientos tanto en batch como en streaming para la resolución de problemas sobre datos a gran escala.
  • Saber utilizar modelos analíticos de Machine Learning disponibles en Spark.

¿Para quién es este curso?

El Curso de Procesamiento de datos a gran escala: Spark proporciona formación específicamente orientada a los siguientes perfiles:

  • Ingenieros que tengan por objetivo una actualización de sus conocimientos y el desarrollo de nuevas competencias dentro de la Inteligencia Artificial
  • Programadores que tengan por objetivo ampliar sus conocimientos y capacidades en el mundo de la ciencia de datos para su desarrollo profesional
  • Analistas de datos con experiencia que quieran dar el salto a los aspectos más profundos de la tecnología

El curso incluye:

  • 3 clases (1 mes)

  • 3 sprint semanales

  • Masterclass y/o tutorias

  • 1 proyecto

  • Diploma IEBS

  • Bolsa de empleo

Plan de estudios

Contenidos del curso:

  • Bienvenida y presentación
Tema 1: Introducción a Spark y programación en batch sobre RDDs

Resumen

En este módulo se tratará de manera introductoria Apache Spark 3.0, comenzando por una introducción a la herramienta, su historia y principales diferencias con Apache Hadoop.  Presentaremos Databricks Community Edition como herramienta para la ejecución de Spark en la nube. Se realizará una introducción a las librerías presentes en Spark 3.0, indicando los casos de usos para cada una de ellas. Así también, veremos de manera introductoria la programación sobre RDDs y las diferentes operaciones de procesamiento que nos ofrece Spark. Finalmente, procederemos a realizar el despliegue en un clúster de Databricks.

 

Objetivos

  • Librerías de procesamiento de datos disponibles en Apache Spark 3.0.
  • Databricks como entorno de implementación en la nube para Spark.
  • Los RDDs de Spark y cómo operar sobre ellos.
 

Temario

  • Introducción a Spark y a sus diferentes librerías
    • Introducción a la Historia de Apache Spark
    • Introducción a Apache Spark
    • Empezando con Spark: ¿Cómo funciona?
  • Introducción a Databricks
    • Databriks
    • Primeros pasos en Databricks
    • Cómo acceder a Databricks File System
    • Importación de notebooks
  • Programación en batch
    • Introducción a RDD y fundamentos básicos
    • RDD: Transformaciones, acciones, shuffle y variables compartidas
    • RDD: Persistencia y desplegando en clúster
  • Ejemplo práctico
    • Parte I
    • Parte II
    • Parte III
Tema 2: Spark SQL, Dataframes y GraphX

Temario

  • Introducción a SPARK SQL, Dataframes y Dataset
    • Spark y las APIs estructuradas
    • Spark Dataframes, Tipos de datos y Esquema
    • Motor SQL Distribuido & User Defined Functions
  • GraphX
    • ¿Qué vamos a aprender?
    • Introducción a la Analítica de Grafos
    • Introducción a las Operaciones sobre Grafos
  • Ejercicio práctico
    • Parte I
    • Parte II
    • Parte III
Tema 3: Spark Streaming y MLlib

Resumen

Durante el transcurso de la clase veremos los conceptos básicos de MLlib y su evolución desde la API basada en RDDs hasta la nueva librería basada en DataFrames. Revisaremos el concepto de pipeline y los objetos transformadores y estimadores que los componen.  Así también revisaremos los principales métodos utilizados para la implementación de aprendizaje automático con Regresión Lineal y Regresión Logística. Analizaremos los conceptos básicos de Spark Streaming, las transformaciones y su uso con Dataframes y MLlib.

 

Objetivos

  • Conceptos básicos de Spark MLlib
  • Pipelines
  • Transformadors y Estimadores
  • Regresión Lineal y Regresión Logística con Spark
 

Temario

  • Spark MLlib
    • Presentación de la clase
    • Introducción a MLlib
    • Proyecto práctico 1: Utilizamos Spark MLlib y el algoritmo de Regresión clásica
    • Proyecto práctico 2: Utilizamos Spark MLlib y el algoritmo de Regresión logística para Clasificación
    • Proyecto práctico 2: Evaluamos los resultados
  • Spark Streaming
    • Conceptos básicos I
    • Conceptos básicos II
    • Proyecto práctico 3: Utilizamos Spark Streaming con MLlib

Experto

Alejandro Napoleon Thoux

Data Engineer en ALTEN

Nuestros alumnos opinan

¿Por qué elegirnos?

Descubre lo que nos diferencia

95%Empleo

El 95% de nuestros alumnos está trabajando o emprende cuando finaliza sus estudios

Empleo
175kAlumnos

Somos la mayor comunidad de profesionales digitales del mundo

Comunidad
13Años

Expertos en formación online: más de 10 años liderando la innovación del elearning

Experiencia
95%Satisfacción

El 95% de nuestros alumnos consiguen mejorar su situación al finalizar sus estudios

Seguridad

Curso de Procesamiento de datos a gran escala: Spark

U$S 510

  • Big data & IA
Inicio: 30 Mayo 2024
1 mes
Online
Ininterrumpido 24/7
Diploma de IEBS

Curso de Procesamiento de datos a gran escala: Spark

U$S 510