Publicamos grabación de webinar en inglés del experto en proyectos Big Data holandés Rick van der Lans y de Lakshmi Randall, Directora de Márketing de Producto de Denodo.
En el webinar, que tuvo lugar el pasado 30/5/2018, Rick hace una explicación muy pormenorizada de los denominados «Logical Data Lakes multipropósito» que permiten el acceso a los datos por parte de todo tipo de usuarios de la organización (desde los más avanzados a los usuarios de negocio con nulo perfil técnico).
Se trata de repositorios de datos que mediante la virtualización de datos permiten el acceso a los datos provenientes de múltiples fuentes sin tener que pasar obligatoriamente por Hadoop.
Una de las partes más interesantes del webinar puede encontrarse al final cuando se explica el caso de una importante petrolera y gasística explicando toda la arquitectura de datos que utilizan en la actualidad.
Según Rick estos Logical Data Lakes conllevan los siguientes beneficios:
– Reducción de los costes de desarrollo de los proyectos analíticos: los metadata se definen una vez y se reusan, las soluciones analíticas desarrolladas se pueden reutilizar
– Se acortan los tiempos de puesta en marcha de los proyectos de análisis: los científicos de datos no deben de desperdicir el tiempo en la selección de datos, la copia física de los datos no es mandatoria, los usuarios de los datos no deben aprender los lenguajes de programación del origen de los datos.
– Incremento de la consistencia en los informes y análisis: el reusar las aplicaciones analíticas y las soluciones de datos mejora la consistencia de informes y análisis, toda la metainformación puede catalogizarse de forma centralizada, se securiza centralizadamente el acceso a los datos.
Los capítulos del video son:
Data Lake: Un viejo concepto muy de moda 00:50
Los pasos de la ciencia de datos y su preparación 02:23
Data preparation is Time Consuming 03:23
¿Cuál es la definición de Data Lake? 4:34
Arquitectura de un Logical Data Lake 5:54
Los retos de un Data Lake físico 07:00
Demasiado tiempo en la T de ETL 7:45
The Logical Data Lake 10:30
Los datos son demasiado valiosos como para usarlos sólo para reporting 14:07
Data Delivery Systems 15:06
Un lío: Cada Delivery Systems tiene sus propias reglas de limpiado… 16:11
Siloed Data Delivery Systems 17:03
A physical Data Lake with Multiple Zones 17:36
The Logical Data Warehouse Arquitecture 20:05
Key features missing in SQL-on-hadoop Engines 21:35
Single-Purpose versus Multi-Purpuse Data Lake 22:46
Ventajas de los Data Lakes multipropósito 24:55
Conclusiones 26:54
Problema Big Data Hadoop deployments 27:45
Ventajas de la virtualización de datos frente a Hadoop 30:17
Un único Logical Data Lake multipropósito 37:16
Arquitectura de un Multi-purpose Data Lake with data Virtualization 38:50
Virtualiza tus datos, no los migres físicamente 39:04
Consultas mucho más rápidas con virtualización al no replicar los datos a Hadoop 39:58
Casos Prácticos de Logical Data Lake Multipropósito con virtualización 40:30
Anadarko: Petróleos 40:30
Arquitectura de datos de Anadarko 42:30
Razones para un Data Lake multipropósito 42:47
Unificar el data lake para todos los usuarios 44:9