En este Curso en Entorno Distribuido de Big Data se trabajarán los conceptos básicos sobre el framework de Hadoop, como opensource, para almacenar datos del entorno Big Data y ejecutar aplicaciones en clusters de servidores básicos.
Veremos también cómo este sistema proporciona con HDFS un almacenamiento masivo para cualquier tipo de datos.
Este curso forma parte del Master en Data Science y Big Data. Si quieres ampliar tu formación, consulta el programa completo.
En este Curso en Entorno Distribuido de Big Data se trabajarán los conceptos básicos sobre el framework de Hadoop, como opensource, para almacenar datos del entorno Big Data y ejecutar aplicaciones en clusters de servidores básicos.
Veremos también cómo este sistema proporciona con HDFS un almacenamiento masivo para cualquier tipo de datos.
Este curso forma parte del Master en Data Science y Big Data. Si quieres ampliar tu formación, consulta el programa completo.
El curso incluye:
Contenidos del curso:
La aparición de Internet y de los entornos Big Data generaron unas necesidades de computación muy diferentes a la que habitualmente se utilizaban. El HW utilizado en los sistemas centralizados hasta el momento tocó techo y dió paso al paradigma de la computación distribuida.
Ante este reto, nuevo SW tuvo que ser definido y empresas como Google desarrollaron nuevos sistemas de fichero y de procesamiento, que gracias a que fué compartido con la comunidad, se pudieron crear aplicativos Apache distribuidos para entornos Big Data.
Además de la evolución comentada, veremos también en esta lección el framework Apache Hadoop y las principales aplicaciones relacionadas. Veremos también la manera en que las empresas utillizan este ecosistema a través de los principales distribuidores y unos interesantes casos de uso.
En esta clase se describen los sistemas de almacenamiento propios de Apache Hadoop, que son HDFS y HBase.
El primero, HDFS, es un sistema de almacenamiento de ficheros distribuido y el segundo, HBase, es una base de datos distribuida NoSql.
Ambos sistemas se complementa perfectamente para abordar la solución de almacenamiento requerida para el entorno Big Data de Apache HAdoop.
En esta clase se describe el funcionamiento de otro elemento core Hadoop, su sistema de procesamiento, denominado MapReduce.
Haremos una revisión completa de los elementos de MapRed, desde el funcionamiento del algoritmo hasta su arquitectura.
Veremos también las alternativas a MapReduce con algunos requerimientos particulares de procesamiento, como es el caso de Spark. Y concluimos aportando casos de uso y citando empresas que lo utilizan, algunas de las cuales están a la cabeza en el mundo tecnológico.
Muy recomendable realizar la práctica de MapReduce que se desarrolla en formato de masterclass en esta lección.
El 95% de nuestros alumnos está trabajando o emprende cuando finaliza sus estudios
Somos la mayor comunidad de profesionales digitales del mundo
Expertos en formación online: más de 10 años liderando la innovación del elearning
El 95% de nuestros alumnos consiguen mejorar su situación al finalizar sus estudios
Curso en Entorno Distribuido de Big Data
Curso en Entorno Distribuido de Big Data