Ecosistema Apache Hadoop

admin 8 octubre, 2019 Big Data Cursos 0

Se espera que al finalizar el programa, los participantes puedan:
Describir y utilizar varias herramientas y componentes del ecosistema Hadoop 2.0.
Utilización de motores de procesamiento Distribuido mapReduce, Tez y Spark.
Utilizar herramientas para extracción y carga, monitoreo, explotación y consultas de datos, ingesta de datos, colas de procesos, enre otros.

El workshop está dirigido a personas con conocimientos en el área de sistemas de información que quieran hacer una inmersión en el mundo de Big Data y las plataformas de almacenamiento y procesamiento distribuido.
El workshop está también dirigido a personas con conocimientos en el área de Big que quieren introducirse en el mundo de Hadoop.

Describir varias herramientas y componentes del ecosistema Hadoop 2.0.
Describir la arquitectura del file system HDFS.
Describir como los archivos se escriben y son accedidos en HDFS.
Usar comandos de HDFS para importar y exportar archivos desde/hacia Hadoop.
Describir como es generan las tablas Hive
Usar Hive para explorar como se definen e implementan las tablas Hive y analizar sets de datos
Explicar y utilizar diferentes formatos de archivo Hive
Implementar y configurar YARN en un cluster
Describir como se ejecutan los procesos YARN.
Utilización de motores de procesamiento Distribuido mapReduce, Tez y Spark.
Usar Sqoop para transferir datos entre Hadoop y una base de datos
Usar Flume para tomar datos de streaming en HDFS.
Usar Oozie herramienta para workflows.
Usar Kafka como middleware tomando datos de streaming
Usar Pig para transformar y preparar datos en Hadoop
Usar Hive para ejecutar consultas de tipo SQL con o sin joins para realizar análisis de datos
Conocer Hbase como Base de Datos NoSQL dentro de Hadoop.
Desarrollar en Pig procesos mapReduce.
Desarrollar ETLs con Pentaho Community desde y hacia Hadoop
Configurar y hacer troubleshooting de Jobs MapReduce
Monitorear y administrar un cluster.