Cursos ONLINE

Curso en Entorno Distribuido de Big Data

Impartido por Miguel Ángel Fernández Díaz, Ingeniero Big Data en Stratio BD
Inicio: 4 Abril 2024
1 mes
4.5

Presentación del curso

En este Curso en Entorno Distribuido de Big Data se trabajarán los conceptos básicos sobre el framework de Hadoop, como opensource, para almacenar datos del entorno Big Data y ejecutar aplicaciones en clusters de servidores básicos.

Veremos también cómo este sistema proporciona con HDFS un almacenamiento masivo para cualquier tipo de datos.

Este curso forma parte del Master en Data Science y Big Data. Si quieres ampliar tu formación, consulta el programa completo.

En este Curso en Entorno Distribuido de Big Data se trabajarán los conceptos básicos sobre el framework de Hadoop, como opensource, para almacenar datos del entorno Big Data y ejecutar aplicaciones en clusters de servidores básicos.

Veremos también cómo este sistema proporciona con HDFS un almacenamiento masivo para cualquier tipo de datos.

Este curso forma parte del Master en Data Science y Big Data. Si quieres ampliar tu formación, consulta el programa completo.

 

¿Qué aprenderás en este curso?

Al finalizar el Curso en Entorno Distribuido de Big Data serás perfectamente capaz de:

  • Entender y saber aplicar el modelo MapReduce para el procesamiento distribuido de Big Data.
  • Saber manejar sistemas de ficheros distribuidos en Hadoop con HDFS.

¿Para quién es este curso?

El Curso en Entorno Distribuido de Big Data proporciona formación específicamente orientada a los siguientes perfiles:

  • Ingenieros que tengan por objetivo una actualización de sus conocimientos y el desarrollo de nuevas competencias dentro de la Inteligencia Artificial
  • Programadores que tengan por objetivo ampliar sus conocimientos y capacidades en el mundo de la ciencia de datos para su desarrollo profesional
  • Analistas de datos con experiencia que quieran dar el salto a los aspectos más profundos de la tecnología

El curso incluye:

  • 3 clases (1 mes)

  • 3 sprint semanales

  • Masterclass y/o tutorias

  • 1 proyecto

  • Diploma IEBS

  • Bolsa de empleo

Plan de estudios

Contenidos del curso:

  • Bienvenida y presentación
Tema 1: Fundamentos y herramientas del ecosistema Hadoop

Resumen

Esta clase tiene como objetivo adquirir conciencia de las implicaciones y los conocimientos necesarios para diseñar una arquitectura distribuída para un proyecto empresarial en un contexto Batch con datos estáticos. Para ello, se abordarán los aspectos de este tipo de arquitecturas para el procesamiento y análisis de datos en Batch en HDFS con Hive.

 

Objetivos

  •  Ser capaz de diseñar arquitecturas distribuídas para datos estáticos.
  • Aprender los comandos de HDFS y sentecias HiveQL para el análisis de datos Batch.
 

Temario

  • Introducción a sistemas distribuídos
    • Historia
    • Conceptos clave
  • Introducción a Hadoop
    • Origen y características
    • Casos de uso
  • Componentes Hadoop
    • HDFS. Parte I
    • HDFS. Parte II
    • MapReduce
    • YARN
  • Ecosistema Hadoop
    • Hive, Pig, Hbase y plataformas
  • Alcance de Hadoop
    • Consideraciones
Tema 2: Gestión de datos Streaming

Resumen

Esta clase tiene como objetivo adquirir conciencia de las implicaciones y los conocimientos necesarios para diseñar una arquitectura distribuida para un proyecto empresarial en un contexto Streaming con un flujo continuo de datos. Para ello, se abordarán los aspectos de este tipo de arquitecturas para el movimiento de datos en Streaming con Kafka. 

 

Objetivos

  • Ser capaz de diseñar arquitecturas distribuídas para datos Streaming.
  • Aprender conceptos relacionados con la configuración de Kafka y sus herramientas para el análisis de datos Streaming.
 

Temario

  • Entornos distribuídos para arquitecturas Streaming
    • Contexto
    • Arquitecturas Streaming
  • Arquitectura de Apache Kafka
    • Introducción
    • Definición y conceptos clave
    • Mensajería distribuida
  • Herramientas y uso de Apache Kafka
    • Ecosistema: Schema Registry y Rest Proxy
    • Ecosistema: Connect, Streams y KSql
Tema 3: Extracción, transformación y carga de datos

Resumen

Esta clase tiene como objetivo adquirir conciencia de las implicaciones y los conocimientos necesarios para diseñar una arquitectura distribuida para un proyecto empresarial en un contexto ETLs para la transformación de datos tanto en Batch como en Streaming. Para ello, se abordarán los aspectos de este tipo de arquitecturas para el diseño e implementación de estas ETLs con NiFi.

 

Objetivos

  • Ser capaz de diseñar arquitecturas distribuídas para la extracción, transformación y carga de datos.
  • Aprender como funciona la configuración de NiFi para el diseño e implementación de flujos ETLs.
 

Temario

  • Introducción a ETLs
    • Contexto
    • Obtención de datos
    • Técnicas de obtención de datos. Parte I
    • Técnicas de obtención de datos. Parte II
  • Características de Apache NiFi
    • Componentes
    • Casos de uso
    • Programación Basada en Flujos
    • FlowFiles
    • Arquitectura
  • ETLs con Apache NiFi
    • Conceptos básicos
    • Principales herramientas

Experto

Miguel Ángel Fernández Díaz

Ingeniero Big Data en Stratio BD

Nuestros alumnos opinan

¿Por qué elegirnos?

Descubre lo que nos diferencia

95%Empleo

El 95% de nuestros alumnos está trabajando o emprende cuando finaliza sus estudios

Empleo
175kAlumnos

Somos la mayor comunidad de profesionales digitales del mundo

Comunidad
13Años

Expertos en formación online: más de 10 años liderando la innovación del elearning

Experiencia
95%Satisfacción

El 95% de nuestros alumnos consiguen mejorar su situación al finalizar sus estudios

Seguridad

Curso en Entorno Distribuido de Big Data

U$S 510

  • Big data & IA
Inicio: 4 Abril 2024
1 mes
Online
Ininterrumpido 24/7
Diploma de IEBS

Curso en Entorno Distribuido de Big Data

U$S 510