Ecosistema Apache Hadoop

Business & Technology

Ecosistema Apache Hadoop

Big Data Cursos 0

Curso de Big Data – Apache Hadoop


Objetivos
  • Se espera que al finalizar el programa, los participantes puedan:
  • Describir y utilizar varias herramientas y componentes del ecosistema Hadoop 2.0.
  • Utilización de motores de procesamiento Distribuido mapReduce, Tez y Spark.
  • Utilizar herramientas para extracción y carga, monitoreo, explotación y consultas de datos, ingesta de datos, colas de procesos, enre otros.
Modalidad
  • Curso Teórico/Práctico – In house – Presencial
 Duración
  • 35 horas en 5 jornadas
 Destinatarios
  • El workshop está dirigido a personas con conocimientos en el área de sistemas de información que quieran hacer una inmersión en el mundo de Big Data y las plataformas de almacenamiento y procesamiento distribuido.
  • El workshop está también dirigido a personas con conocimientos en el área de Big que quieren introducirse en el mundo de Hadoop.
Contenido
  • Describir varias herramientas y componentes del ecosistema Hadoop 2.0.
  • Describir la arquitectura del file system HDFS.
  • Describir como los archivos se escriben y son accedidos en HDFS.
  • Usar comandos de HDFS para importar y exportar archivos desde/hacia Hadoop.
  • Describir como es generan las tablas Hive
  • Usar Hive para explorar como se definen e implementan las tablas Hive y analizar sets de datos
  • Explicar y utilizar diferentes formatos de archivo Hive
  • Implementar y configurar YARN en un cluster
  • Describir como se ejecutan los procesos YARN.
  • Utilización de motores de procesamiento Distribuido mapReduce, Tez y Spark.
  • Usar Sqoop para transferir datos entre Hadoop y una base de datos
  • Usar Flume para tomar datos de streaming en HDFS.
  • Usar Oozie herramienta para workflows.
  • Usar Kafka como middleware tomando datos de streaming
  • Usar Pig para transformar y preparar datos en Hadoop
  • Usar Hive para ejecutar consultas de tipo SQL con o sin joins para realizar análisis de datos
  • Conocer Hbase como Base de Datos NoSQL dentro de Hadoop.
  • Desarrollar en Pig procesos mapReduce.
  • Desarrollar ETLs con Pentaho Community desde y hacia Hadoop
  • Configurar y hacer troubleshooting de Jobs MapReduce
  • Monitorear y administrar un cluster.