SOLO PARA ALUMNOS RESIDENTES FUERA DE MADRID-ESPAÑA
Profesor:
Con la garantía devacademy.es
DevAcademy es una comunidad de expertos y entusiastas de tecnologías innovadoras creada con el fin de fomentar el conocimiento práctico y ágil en las mismas. En DevAcademy seleccionamos los mejores profesionales para que transmitan los mejores conocimientos prácticos y reales sobre las tecnologías que imparten.
Sesiones:
7 de marzo de 2017, 17:00 – 21:00 CET
8 de marzo de 2017, 17:00 – 21:00 CET
Al inscribirse al curso, tiene acceso a la grabación del mismo.
Precio: 150 USD
Requisitos:
El curso va dirigido a personas con un perfil de programación, por lo que se desea unos conocimientos mínimos de algún lenguaje de programación, al ser posible Python. También es recomendable, aunque no obligatorio que tengan conocimientos sobre HDFS y MapReduce.
SESIÓN I
Introducción al mundo del Big Data. Centrándonos en una distribución de referencia como es Hortonworks. En esta sesión se explicarán brevemente la mayoría de herramientas que ofrece la distribución Hortonworks, pero nos centraremos en el framework Spark.
La sesión comenzará hablando en términos generales sobre cómo ha surgido la necesidad de las tecnologías Big Data en el mundo empresarial y como ha sido su evolución desde los clásicos sistemas distribuidos a las actuales distribuciones basadas en el ecosistema hadoop.
Tras esta breve introducción citaremos brevemente la funcionalidad de las diversas herramientas Big Data que pueden resultar de gran interés en el desarrollo de proyectos Big Data. Ejemplos: sqoop, oozie, hive, storm, flume, Kafka, etc..
Y por último incidiremos en la parte fundamental del curso que será Apache Spark. Comenzando con una breve explicación de cómo funciona sobre la arquitectura yarn, pasando después a la sección dedicada a explicar Spark Core RDD a través de ejemplos prácticos con el lenguaje Python.
Temario
• Introducción de Big Data
o Casos reales
• Hadoop
o HDFS
o MapReduce
• Hortonworks
o Recorrido por sus principales herramientas BigData: sqoop, hive, flume, kafka, storm, etc.
• Spark
o Arquitectura Yarn
o Spark RDD
Ejercicios
Casos prácticos
Hablaremos sobre proyectos reales de Big Data.
Trataremos de explicar la utilidad de cada una de las herramientas en casos reales.
Realizaremos ejercicios practicos de Spark RDD con lenguaje Python
SESIÓN II
La sesión comenzará con un repaso de Apache Spark Core RDD, para a continuación incidir en Spark SQL y Spark Streaming. Antes de ver Spark Streaming explicaremos dos herramientas básicas en los proyectos de Big Data que contienen flujos de datos en tiempo real como son Kafka y Flume. Por último, veremos la integración de Kafka con Spark Streaming.
Esta segunda sesión trata de ampliar los conocimientos en el Framework Apache Spark de los alumnos que ya conozcan la parte de Spark Core RDD, para que entiendan y comiencen a desarrollar con Spark SQL y Spark Streaming. En el curso también aprenderán el funcionamiento de las herramientas Flume y Kafka.
La integración de Kafka y Spark Streaming también será una pieza clave en el curso. Siendo los ejercicios prácticos la herramienta didáctica más utilizada para entender la utilidad de Spark en proyectos reales.
Temario
• Introducción a Spark
• Repaso rápido a Spark RDD (Se profundiza en el curso Spark I)
• Spark Sql
o Ejercicios Spark Sql
o Integración con Hive
o Ejercicios Hive-Spark Sql
• Kafka y Flume
o Ejercicio Flume
o Ejercicio Kafka
o Ejercicio Kafka-Flume
• Spark Streaming
o Ejercicios Spark Streaming
o Integración con Kafka
o Ejercicios Integración Kafka
Casos prácticos
Realizaremos ejercicios prácticos de Spark SQL y Spark Streaming con lenguaje Python.
Integración con Kafka. Hablando de la gran utilidad que supone está integración en casos reales de proyectos de Big Data.