¿Cómo recibir en streaming información de Twitter sobre temas específicos?
¿Cuales son las posibilidades de Flume a la hora de capturar información y luego volcarla en el sistema de fichero de Hadoop (HDFS)?
¿Cómo es posible explotar la información semi-estructurada de Twitter con Hive, el componente DataWareHouse de Hadoop?
FormHadoop está compuesto por personal especializado en Hadoop y en temas de Big Data.
Con este webinar, realizado el 23 de Julio de 2014 y presentado por Sourygna Luangsay, fundador, de la compañía FormHadoop, se pretende dar una introducción a unos de los componentes principales de Hadoop, aplicados al mundo de social media.
Entre otras cosas, se habló de:
– El papel de Flume dentro de un proceso ETL en Hadoop.
– Posibilidades de configuración de Flume y cómo conectarlo a la API de Twitter
– Algunas empresas especializadas en fuentes de Social Media y que permiten superar el límite
de la API pública de Twitter.
– Las ventajas de Hive, para explotar la información en Hadoop usando queries similares a SQL
– Por qué Hive es el complemento Big Data a los DataWarehouse tradicionales.
– Cómo Hive es capaz de trabajar con información semi-estructurada. En el caso de Twitter: un formato JSON.