Curso ONLINE

Curso en Entorno Distribuido de Big Data

Impartido por Miguel Ángel Fernández Díaz, Ingeniero Big Data en Stratio BD
Inicio: 2 Noviembre 2023
1 mes
4.6

Presentación del curso

En este Curso en Entorno Distribuido de Big Data se trabajarán los conceptos básicos sobre el framework de Hadoop, como opensource, para almacenar datos del entorno Big Data y ejecutar aplicaciones en clusters de servidores básicos.

Veremos también cómo este sistema proporciona con HDFS un almacenamiento masivo para cualquier tipo de datos.

Este curso forma parte del Master en Data Science y Big Data. Si quieres ampliar tu formación, consulta el programa completo.

En este Curso en Entorno Distribuido de Big Data se trabajarán los conceptos básicos sobre el framework de Hadoop, como opensource, para almacenar datos del entorno Big Data y ejecutar aplicaciones en clusters de servidores básicos.

Veremos también cómo este sistema proporciona con HDFS un almacenamiento masivo para cualquier tipo de datos.

Este curso forma parte del Master en Data Science y Big Data. Si quieres ampliar tu formación, consulta el programa completo.

 

¿Qué aprenderás en este curso?

Al finalizar el Curso en Entorno Distribuido de Big Data serás perfectamente capaz de:

  • Entender y saber aplicar el modelo MapReduce para el procesamiento distribuido de Big Data.
  • Saber manejar sistemas de ficheros distribuidos en Hadoop con HDFS.

¿Para quién es este curso?

El Curso en Entorno Distribuido de Big Data proporciona formación específicamente orientada a los siguientes perfiles:

  • Ingenieros que tengan por objetivo una actualización de sus conocimientos y el desarrollo de nuevas competencias dentro de la Inteligencia Artificial
  • Programadores que tengan por objetivo ampliar sus conocimientos y capacidades en el mundo de la ciencia de datos para su desarrollo profesional
  • Analistas de datos con experiencia que quieran dar el salto a los aspectos más profundos de la tecnología

Plan de estudios

El curso incluye:

  • 3 clases (1 mes)

  • 3 sprint semanales

  • Masterclass y/o tutorias

  • 1 proyecto

  • Diploma IEBS

  • Bolsa de empleo

Contenidos del curso:

  • Bienvenida y presentación
Tema 1: Fundamentos y herramientas del ecosistema Hadoop

Resumen

La aparición de  Internet y de  los entornos Big Data generaron unas necesidades de computación muy diferentes a la que habitualmente se utilizaban. El HW utilizado en los sistemas centralizados hasta el momento tocó techo y dió paso al paradigma de la computación distribuida.

Ante este reto, nuevo SW tuvo que ser definido y empresas como Google desarrollaron nuevos sistemas de fichero y de procesamiento, que gracias a que fué compartido con la comunidad, se pudieron crear aplicativos Apache distribuidos para entornos Big Data.

Además de la evolución comentada, veremos también en esta lección el framework Apache Hadoop y las principales aplicaciones relacionadas. Veremos también la manera en que las empresas utillizan este ecosistema a través de los principales distribuidores y unos interesantes casos de uso.

 

Objetivos

  • Entender los requerimientos HW del entorno Big Data.
  • Conocer  el entorno Apache Hadoop.
  • Saber diferenciar y entender los principales componentes de apache Hadoop.
  • Comprender cómo es utilizado por las empresas Apache Hadoop.
 

Temario

  • Introducción
    • Conceptos
    • Big Data y Hadoop, breve historia
  • Hadoop
    • Evolución y versiones
    • Principales componentes: HDFS y YARN
    • Hadoop, su evolución: Spark
    • Ecosistema Hadoop
    • Distribuciones de Hadoop
  • Casos de uso
    • Casos de uso de Hadoop
Tema 2: Sistema de ficheros distribuidos HDFS

Resumen

En esta clase se describen los sistemas de almacenamiento propios de Apache Hadoop, que son HDFS y HBase.

El primero, HDFS, es un sistema de almacenamiento de ficheros distribuido y el segundo, HBase, es una base de datos distribuida NoSql.

Ambos sistemas se complementa perfectamente para abordar la solución de almacenamiento requerida para el entorno Big Data de Apache HAdoop.

 

Objetivos

  • Cuáles son las soluciones de almacenamiento en un entorno distribuido de Apache Hadoop.
  • Cuál es la arquitectura de HDFS, el sistema de ficheros de Hadoop.
  • Cuál es la arquitectura de HBase, el sistema de Base de Datos NoSql de HAdoop.
  • Otras herramientas de gestión de datos del ecosistema Apache.
 

Temario

  • HDFS
    • Introducción y conceptos
    • Características
    • Arquitectura, distribución en bloques
    • Arquitectura maestro/esclavo
    • Comandos
  • HBase
    • ¿Qué es HBase?
    • ¿Cuándo usar HBase?
    • Arquitectura HBase
    • Comandos
Tema 3: El modelo MapReduce de procesamiento

Resumen

En esta clase se describe el funcionamiento de otro elemento core Hadoop, su sistema de procesamiento, denominado MapReduce.

Haremos una revisión completa de los elementos de MapRed, desde el funcionamiento del algoritmo hasta su arquitectura.  

Veremos también las alternativas a MapReduce con algunos requerimientos particulares de procesamiento, como es el caso de Spark. Y concluimos aportando casos de uso y citando empresas que lo utilizan, algunas de las cuales están a la cabeza en el mundo tecnológico.

Muy recomendable realizar la práctica de MapReduce que se desarrolla en formato de masterclass en esta lección.

 

Objetivos

  • Conocer el motor de procesamiento de Hadoop: MapReduce:
    • Funcionamiento
    • Arquitectura
    • Alternativas
  • Utilizar en un ejemplo práctico MapReduce.

Temario

  • MapReduce
    • Introducción
    • Características y funcionamiento
    • Arquitectura
    • Nuevas releases
    • Yarn
    • Implementaciones MapReduce
    • Práctica de Hadoop

Experto

Miguel Ángel Fernández Díaz

Ingeniero Big Data en Stratio BD

Nuestros alumnos opinan

¿Por qué elegirnos?

Descubre lo que nos diferencia

95%Empleo

El 95% de nuestros alumnos está trabajando o emprende cuando finaliza sus estudios

Empleo
175kAlumnos

Somos la mayor comunidad de profesionales digitales del mundo

Comunidad
13Años

Expertos en formación online: más de 10 años liderando la innovación del elearning

Experiencia
95%Satisfacción

El 95% de nuestros alumnos consiguen mejorar su situación al finalizar sus estudios

Seguridad

Curso en Entorno Distribuido de Big Data

U$S 510

  • Big data & IA
Inicio: 2 Noviembre 2023
1 mes
Online
Ininterrumpido 24/7
Diploma de IEBS

Curso en Entorno Distribuido de Big Data

U$S 510