Curso de Cloudera Developer Training for Spark and Hadoop
Información del curso
Curso
Oficial / Homologado
Presencial | On-line
Barcelona
28 horas
Precio 1.670 €
Descripción
El curso permitirá a los alumnos aprender a diseñar potentes herramientas de procesamiento de datos por medio del empleo de Apache Hadoop.
PUE es Training Partner oficial de Cloudera, autorizado por dicha multinacional para impartir formación oficial en tecnologías Cloudera.
PUE está también acreditado y reconocido para realizar servicios de consultoría y mentoring en la implementación de soluciones Cloudera en el ámbito empresarial con el consiguiente valor añadido en el enfoque práctico y de negocio del conocimiento que se traslada en sus cursos oficiales.
PUE es Training Partner oficial de Cloudera, autorizado por dicha multinacional para impartir formación oficial en tecnologías Cloudera.
PUE está también acreditado y reconocido para realizar servicios de consultoría y mentoring en la implementación de soluciones Cloudera en el ámbito empresarial con el consiguiente valor añadido en el enfoque práctico y de negocio del conocimiento que se traslada en sus cursos oficiales.
Temario
- Introducción.
- Objetivos de Hadoop.
Problemática tradicional en sistemas de gran escala.
Introducción a Hadoop.
Cómo resuelve Hadoop problemas.
- Hadoop: Conceptos básicos y HDFS.
El proyecto Hadoop y sus componentes.
El sistema distribuido de ficheros de Hadoop HDFS (Hadoop Distributed File System).
- Introducción a MapReduce.
Descripción de los aspectos generales de MapReduce.
Ejemplo: WordCount.
Mappers.
Reducers.
- Cluster y Ecosistema Hadoop.
Descripción de los aspectos generales del cluster Hadoop.
Trabajos y tareas Hadoop.
Otros componentes del Ecosistema Hadoop.
- Escribir un programa MapReduce en Java.
Conceptos básicos de APIs MapReduce.
Escribir Drivers MapReduce, Mappers y Reducers en Java.
Acelerar el funcionamiento de Hadoop empleando Eclipse.
Diferencias entre APIs MapReduce antiguas y nuevas.
- Escribir programas MapReduce empleando Streaming.
Escribir programas Mappers y Reducers empleando APIs Streaming.
- Unidad de ejercicios de programas MapReduce.
Los entornos de prueba JUnit y MRUnit.
Testeo con MRUnit.
Ejecución de testeo de profundidad en APIs Hadoop.
- Profundizar en la API de Hadoop.
Empleo de la Clase ToolRunner.
Configuración y desactivación de tareas Map y Reduce.
Disminución de datos intermedios con combinadores.
Acceso programático a HDFS.
Empleo de caché distribuida.
Empleo de librerías de APIs Map, Reduce y Partition.
- Practica de desarrollo de técnicas y trucos.
Estrategias de depurado para código MapReduce.
Testeo local de código MapReduce empleando LocalJobRunner.
Acceso y escritura de ficheros log.
Recuperación de información de trabajo con contadores.
Reempleo de objetos.
Creación de trabajos MapReduce Map, Reduce o Partition.
Trabajo en conjunto de tareas Reduce y Partition.
Determinación de número óptimo de tareas reduce para un trabajo.
Escribir tareas Partition customizadas.
- Salida y entrada de datos.
Creación customizada de implementaciones Writable y Writable-Comparable.
Conceptos a considerar en el empleo de compresión de archivos.
Implementación customizada de formatos de entrada y salida (InputFormats y OutputFormats).
- Algoritmos comunes en MapReduce.
Clasificación y búsqueda de grandes conjuntos de datos.
Computación de Term Frequency e Inverse Document Frequency.
Cálculo de Co-ocurrencia de palabra.
Creación y modelado de órdenes secundarias.
- Acceso a conjuntos de datos en trabajos MapReduce.
Escribir accesos Map-Side.
Escribir accesos Reduce-Side.
- Integración de flujo de trabajo de Hadoop en entornos empresariales existentes.
Integración de Hadoop ien entornos existentes.
Carga de datos en HDFS desde RDBMS empleando Sqoop.
Administración de datos en tiempo real empleando Flume.
Acceso HDFS desde sistemas confiables con FuseDFS y HttpFS.
- Introducción a Hive, Imapala, y Pig.
Objetivos de Hive, Impala, y Pig.
Descripción de los aspectos generales de Hive.
Descripción de los aspectos generales de Impala.
Descripción de los aspectos generales de Pig.
Elección entre Hive, Impala, y Pig.
- Introducción a Oozie.
Descripción de los aspectos generales de Oozie.
Creación de flujos de trabajo con Oozie.
- Conclusión.
- Objetivos de Hadoop.
Problemática tradicional en sistemas de gran escala.
Introducción a Hadoop.
Cómo resuelve Hadoop problemas.
- Hadoop: Conceptos básicos y HDFS.
El proyecto Hadoop y sus componentes.
El sistema distribuido de ficheros de Hadoop HDFS (Hadoop Distributed File System).
- Introducción a MapReduce.
Descripción de los aspectos generales de MapReduce.
Ejemplo: WordCount.
Mappers.
Reducers.
- Cluster y Ecosistema Hadoop.
Descripción de los aspectos generales del cluster Hadoop.
Trabajos y tareas Hadoop.
Otros componentes del Ecosistema Hadoop.
- Escribir un programa MapReduce en Java.
Conceptos básicos de APIs MapReduce.
Escribir Drivers MapReduce, Mappers y Reducers en Java.
Acelerar el funcionamiento de Hadoop empleando Eclipse.
Diferencias entre APIs MapReduce antiguas y nuevas.
- Escribir programas MapReduce empleando Streaming.
Escribir programas Mappers y Reducers empleando APIs Streaming.
- Unidad de ejercicios de programas MapReduce.
Los entornos de prueba JUnit y MRUnit.
Testeo con MRUnit.
Ejecución de testeo de profundidad en APIs Hadoop.
- Profundizar en la API de Hadoop.
Empleo de la Clase ToolRunner.
Configuración y desactivación de tareas Map y Reduce.
Disminución de datos intermedios con combinadores.
Acceso programático a HDFS.
Empleo de caché distribuida.
Empleo de librerías de APIs Map, Reduce y Partition.
- Practica de desarrollo de técnicas y trucos.
Estrategias de depurado para código MapReduce.
Testeo local de código MapReduce empleando LocalJobRunner.
Acceso y escritura de ficheros log.
Recuperación de información de trabajo con contadores.
Reempleo de objetos.
Creación de trabajos MapReduce Map, Reduce o Partition.
Trabajo en conjunto de tareas Reduce y Partition.
Determinación de número óptimo de tareas reduce para un trabajo.
Escribir tareas Partition customizadas.
- Salida y entrada de datos.
Creación customizada de implementaciones Writable y Writable-Comparable.
Conceptos a considerar en el empleo de compresión de archivos.
Implementación customizada de formatos de entrada y salida (InputFormats y OutputFormats).
- Algoritmos comunes en MapReduce.
Clasificación y búsqueda de grandes conjuntos de datos.
Computación de Term Frequency e Inverse Document Frequency.
Cálculo de Co-ocurrencia de palabra.
Creación y modelado de órdenes secundarias.
- Acceso a conjuntos de datos en trabajos MapReduce.
Escribir accesos Map-Side.
Escribir accesos Reduce-Side.
- Integración de flujo de trabajo de Hadoop en entornos empresariales existentes.
Integración de Hadoop ien entornos existentes.
Carga de datos en HDFS desde RDBMS empleando Sqoop.
Administración de datos en tiempo real empleando Flume.
Acceso HDFS desde sistemas confiables con FuseDFS y HttpFS.
- Introducción a Hive, Imapala, y Pig.
Objetivos de Hive, Impala, y Pig.
Descripción de los aspectos generales de Hive.
Descripción de los aspectos generales de Impala.
Descripción de los aspectos generales de Pig.
Elección entre Hive, Impala, y Pig.
- Introducción a Oozie.
Descripción de los aspectos generales de Oozie.
Creación de flujos de trabajo con Oozie.
- Conclusión.
Destinatarios
El curso está dirigido a desarrolladores que quieren aprender a utilizar Apache Hadoop para desarrollar potentes herramientas de procesamiento de datos.
Requisitos
Esta formación oficial está diseñada para desarrolladores con algo de experiencia en programación (preferiblemente Java). No son necesarios los conocimientos previos en Hadoop.
Duración
Fechas de convocatoria a consultar
Objetivos
Tras la finalización de la formación, el participante conocerá:
- Las tecnologías clave de Hadoop.
- Cómo funciona HDFS MapReduce.
- Cómo desarrollar aplicaciones MapReduce.
- Cómo crear unidades de testeo (unit tests) para aplicaciones MapReduce.
- Cómo usar los combiners, partitioners, y la caché distribuida de un MapReduce.
- Mejores prácticas para el desarrollo y depuración de aplicaciones MapReduce.
- Cómo implementar la entrada y salida de datos de aplicaciones MapReduce.
- Algoritmos para tareas comunes de MapReduce.
- Cómo unir conjuntos de datos en MapReduce.
- Cómo se integra Hadoop en el CPD.
- Cómo usar los algoritmos Machine Learning de Mahout.
- Cómo utilizar Hive y Pig para el desarrollo rápido de aplicaciones.
- Cómo crear grandes workflows utilizando Oozie.
Titulación obtenida
Tras la realización del presente curso oficial estará capacitado para superar el examen de certificación: Cloudera Certified Developer for Apache Hadoop (CCDH).
Promociones
Formación Bonificada, si se reunen los requisitos
Horario
Curso de Cloudera Developer Training for Spark and Hadoop
PUE
Campus y sedes: PUE
PUE
Avda. Diagonal 98-100
08019
Barcelona
Cursos más populares