Ecosistema Apache Hadoop
Curso de Big Data – Apache Hadoop
Objetivos
- Se espera que al finalizar el programa, los participantes puedan:
- Describir y utilizar varias herramientas y componentes del ecosistema Hadoop 2.0.
- Utilización de motores de procesamiento Distribuido mapReduce, Tez y Spark.
- Utilizar herramientas para extracción y carga, monitoreo, explotación y consultas de datos, ingesta de datos, colas de procesos, entre otros.
Dirigido a
- El workshop está dirigido a personas con conocimientos en el área de sistemas de información que quieran hacer una inmersión en el mundo de Big Data y las plataformas de almacenamiento y procesamiento distribuido.
- El workshop está también dirigido a personas con conocimientos en el área de Big que quieren introducirse en el mundo de Hadoop.
Modalidad
Curso Teórico/Práctico – In house – Presencial
Duración
35 horas en 5 jornadas
Contenidos
- Describir varias herramientas y componentes del ecosistema Hadoop 2.0.
- Describir la arquitectura del file system HDFS.
- Describir como los archivos se escriben y son accedidos en HDFS.
- Usar comandos de HDFS para importar y exportar archivos desde/hacia Hadoop.
- Describir como es generan las tablas Hive
- Usar Hive para explorar como se definen e implementan las tablas Hive y analizar sets de datos
- Explicar y utilizar diferentes formatos de archivo Hive
- Implementar y configurar YARN en un cluster
- Describir como se ejecutan los procesos YARN.
- Utilización de motores de procesamiento Distribuido mapReduce, Tez y Spark.
- Usar Sqoop para transferir datos entre Hadoop y una base de datos
- Usar Flume para tomar datos de streaming en HDFS.
- Usar Oozie herramienta para workflows.
- Usar Kafka como middleware tomando datos de streaming
- Usar Pig para transformar y preparar datos en Hadoop
- Usar Hive para ejecutar consultas de tipo SQL con o sin joins para realizar análisis de datos
- Conocer Hbase como Base de Datos NoSQL dentro de Hadoop.
- Desarrollar en Pig procesos mapReduce.
- Desarrollar ETLs con Pentaho Community desde y hacia Hadoop
- Configurar y hacer troubleshooting de Jobs MapReduce
- Monitorear y administrar un cluster.