La Evolución de las Arquitecturas de Data Lake


Para los lagos de datos, como ocurre con cualquier conjunto de datos empresariales valiosos, la arquitectura es un requisito. Pero también es un objetivo en movimiento, debido a la evolución en curso.

El lago de datos ha recorrido un largo camino desde sus orígenes alrededor de 2015. En la actualidad, es un patrón de diseño y una arquitectura de datos bien establecidos para aplicaciones profundas en almacenamiento de datos, informes, ciencia de datos y análisis avanzado, así como entornos operativos para marketing, suministro. cadena y finanzas. A lo largo de los años, las expectativas de los usuarios, las mejores prácticas y los casos de uso comercial del lago de datos han evolucionado, al igual que las plataformas de datos disponibles en las que se puede implementar un lago de datos.

Esta evolución está forzando cambios en la forma en que se diseñan, diseñan e implementan los lagos de datos. En resumen, TDWI ve a muchas corporaciones, agencias gubernamentales y otras organizaciones de usuarios modernizar sus lagos de datos para adaptarlos a los requisitos de datos y negocios actuales en lugar de los de 2015. De manera similar, los lagos de datos “nuevos” de hoy son bastante diferentes de los primeros lagos de datos.

Muchos de los cambios recientes en el lago de datos se están produciendo a nivel arquitectónico. En particular, TDWI ve a muchas organizaciones remodelando sus lagos de datos a medida que abandonan los sistemas de administración de bases de datos más antiguos y otras plataformas de datos en favor de los modernos. Esto fuerza cambios en las arquitecturas de sistemas de un lago de datos, ya sea que una plataforma antigua se reemplace por una nueva o se deje en su lugar y se amplíe con una nueva. El cambio de plataforma también conduce a cambios en la arquitectura de datos de un lago de datos cuando los datos se redistribuyen entre la nueva combinación de plataformas o se remodelan y mejoran durante la migración de datos.

El cambio de plataforma y otros impulsores de la evolución de la arquitectura del lago de datos adoptan varias formas:

Los lagos de datos comenzaron en Hadoop pero están migrando a otros lugares.

De hecho, los primeros lagos de datos estaban casi exclusivamente en Hadoop. La ola actual de insatisfacción con Hadoop está impulsando una serie de migraciones de lagos fuera de Hadoop. Por ejemplo, después de vivir con sus lagos durante un año o más, muchos usuarios descubren que los casos de uso clave exigen más y mejor funcionalidad relacional de la que se puede adaptar a Hadoop. En una tendencia relacionada, muchas organizaciones demostraron el valor de los lagos de datos en las instalaciones y ahora están migrando a plataformas de datos en la nube por su funcionalidad relacional, elasticidad, administración mínima y control de costos.

Un lago de datos moderno debe atender a una gama más amplia de usuarios y sus necesidades.

Los primeros usuarios de los lagos de datos fueron en su mayoría científicos de datos y analistas de datos que programan análisis basados ​​en algoritmos para la minería de datos, las estadísticas, la agrupación en clústeres y el aprendizaje automático. A medida que los lagos se han vuelto más multiusuario (que atienden a más tipos de usuarios y casos de uso), el análisis basado en conjuntos (informes a escala, exploración amplia de datos, consultas de autoservicio y preparación de datos) ha surgido como un requisito para el lago, y eso requiere una base de datos relacional.

La nube se ha convertido recientemente en la plataforma preferida para aplicaciones basadas en datos.

La nube ya no es solo para aplicaciones operativas. Muchos clientes de TDWI demostraron por primera vez el valor de la nube como plataforma informática general al adoptar o actualizar a aplicaciones basadas en la nube implementadas en el modelo de software como servicio (SaaS). El almacenamiento de datos, los lagos de datos, la generación de informes y el análisis ahora están adoptando o migrando agresivamente a herramientas y plataformas de datos en la nube. Este es un ciclo de vida de madurez normal: muchas tecnologías nuevas se adoptan primero para aplicaciones operativas y luego para aplicaciones analíticas basadas en datos.

Las nuevas plataformas de datos en la nube ahora están completamente probadas.

La fase de adopción inicial ha terminado, lo que ha provocado una avalancha de migraciones para todo tipo de conjuntos de datos. Como se mencionó anteriormente, los almacenes de datos en la nube y otras plataformas de datos tienen la funcionalidad relacional que los usuarios necesitan. Además, admiten la ejecución push-down de programación personalizada en Java, R y Python. Los primeros usuarios han corroborado que las plataformas funcionan y escalan elásticamente, como se anuncia, al tiempo que mantienen una alta disponibilidad y una seguridad estricta. Esto brinda a más organizaciones la confianza que necesitan para asumir sus propios compromisos con las plataformas de datos en la nube.

Las mejores prácticas de usuario para lagos de datos son mucho más sofisticadas en la actualidad.

Los primeros lagos de datos sufrieron prácticas abusivas, como el vertido de datos, el descuido de los estándares de datos y el desprecio por el cumplimiento. Con el tiempo, los usuarios del lago han corregido estas malas prácticas. Además, los usuarios se han dado cuenta de que el lago de datos, como cualquier conjunto de datos empresariales, se beneficia de una mayor estructura, calidad, conservación y gobernanza.

El problema es realizar estas mejoras con moderación sin dañar el espíritu del lago de datos como repositorio de volúmenes masivos de datos de origen sin procesar aptos para una amplia exploración, descubrimiento y muchos enfoques analíticos. Es un acto de equilibrio, pero ahora se establecen las mejores prácticas del lago de datos para mantener datos de origen detallados para el análisis de descubrimiento y, al mismo tiempo, proporcionar datos limpios y ligeramente estandarizados para análisis basados ​​en conjuntos.

Fuente: Philip Russom