Spark es un motor analítico para el procesamiento de datos a gran escala. Este motor analítico está compuesto por un framework con múltiples librerías que nos permiten tratar y transformar los datos desde múltiples perspectivas como el procesamiento batch, el procesamiento en streaming e incluso el ML.
En este Curso de Procesamiento de datos a gran escala: Spark conoceremos desde un punto de vista práctico cada uno de las librerías de este framework, lo que nos permitirá conocer las interrelaciones de este framework con otros entornos Big Data.
Este curso forma parte del Master en Data Science y Big Data. Si quieres ampliar tu formación, consulta el programa completo.
Spark es un motor analítico para el procesamiento de datos a gran escala. Este motor analítico está compuesto por un framework con múltiples librerías que nos permiten tratar y transformar los datos desde múltiples perspectivas como el procesamiento batch, el procesamiento en streaming e incluso el ML.
En este Curso de Procesamiento de datos a gran escala: Spark conoceremos desde un punto de vista práctico cada uno de las librerías de este framework, lo que nos permitirá conocer las interrelaciones de este framework con otros entornos Big Data.
Este curso forma parte del Master en Data Science y Big Data. Si quieres ampliar tu formación, consulta el programa completo.
Contenidos del curso:
En este módulo se tratará de manera introductoria Apache Spark 3.0, comenzando por una introducción a la herramienta, su historia y principales diferencias con Apache Hadoop. Presentaremos Databricks Community Edition como herramienta para la ejecución de Spark en la nube. Se realizará una introducción a las librerías presentes en Spark 3.0, indicando los casos de usos para cada una de ellas. Así también, veremos de manera introductoria la programación sobre RDDs y las diferentes operaciones de procesamiento que nos ofrece Spark. Finalmente, procederemos a realizar el despliegue en un clúster de Databricks.
Durante el transcurso de la clase veremos los conceptos básicos de MLlib y su evolución desde la API basada en RDDs hasta la nueva librería basada en DataFrames. Revisaremos el concepto de pipeline y los objetos transformadores y estimadores que los componen. Así también revisaremos los principales métodos utilizados para la implementación de aprendizaje automático con Regresión Lineal y Regresión Logística. Analizaremos los conceptos básicos de Spark Streaming, las transformaciones y su uso con Dataframes y MLlib.
El 95% de nuestros alumnos está trabajando o emprende cuando finaliza sus estudios
Somos la mayor comunidad de profesionales digitales del mundo
Expertos en formación online: más de 10 años liderando la innovación del elearning
El 95% de nuestros alumnos consiguen mejorar su situación al finalizar sus estudios
Curso de Procesamiento de datos a gran escala: Spark
Curso de Procesamiento de datos a gran escala: Spark