Tengo un Almacén de Datos, ¿También necesito un Lago de Datos?

Al crear su programa de datos y análisis, debe decidir si necesita un almacén de datos, un lago de datos o ambos. Comprender la diferencia es el primer paso.

Cualquiera que esté creando un programa de datos y análisis se ha topado con los términos almacén de datos y lago de datos. Incluso es posible que ya tenga un almacén de datos, que ofrece cuadros de mando y cuadros de mando a sus usuarios. Si es como yo, podría preguntarse en qué se diferencia su almacén de datos de un lago de datos y si ambos deben ser parte de su estrategia analítica general.

La respuesta es que estos dos constructos tienen diferentes roles en la organización. Un almacén de datos y un lago de datos difieren en la estructura de datos, la base de usuarios y el modelo de gobierno. Una vez que comprenda estas diferencias, será mucho más fácil evaluar si necesita solo uno o ambos en combinación.

Estructura de datos

La primera diferencia clave entre el almacén de datos y el lago de datos es la estructura de los datos. El almacén de datos existe desde la década de 1970 y Bill Inmon lo describió como una recopilación de datos no volátil, integrada, variable en el tiempo y orientada al sujeto en apoyo de las decisiones de la gerencia. ¿Qué significa cada una de estas partes?

Orientado al tema: los datos se estructuran en torno a un área temática empresarial específica (por ejemplo, ventas, inventario o empleados). A menudo, estos almacenes crecen de un tema a otro hasta que pueden responder las preguntas que plantea la empresa.

Integrado: a medida que los datos de una organización se distribuyen en múltiples sistemas transaccionales, los datos se fusionan e integran para presentar una visión holística del área temática. Esto implica un proceso de calidad de datos y unir y combinar elementos de datos para crear cohesión entre datos dispares.

   Variante temporal: los datos históricos se mantienen en el almacén de datos. Los cambios en los datos se mantienen para permitir que los informes representen con precisión vistas históricas en un momento determinado. Un ejemplo es mantener las direcciones de los clientes anteriores para representar con precisión las ventas por ubicación a lo largo del tiempo y no actualizar esas ventas a medida que el cliente se traslada.

   No volátil: una vez que los datos se cargan en el almacén de datos, no cambian. Esto crea estabilidad para los informes. El control de versiones y las dimensiones que cambian lentamente se utilizan para mostrar los cambios a lo largo del tiempo.

Un lago de datos es muy diferente. Es un repositorio de datos en su formato natural o sin procesar. Esto puede incluir datos relacionales, semiestructurados, no estructurados e incluso binarios. La idea con un lago de datos es tener menos reestructuración y limpieza de datos para acelerar la carga de estos datos rápidamente desde múltiples fuentes. Esto no significa que el lago de datos sea un caos puro; está estructurado para una carga óptima y para una eventual estructuración. El objetivo es implementar la estructura de los datos durante el proceso de lectura, fusionando y mezclando los datos sin procesar en algo valioso según sea necesario.

Un lago de datos también está estructurado para conservar todos los datos, tanto los que se utilizan como los que se podrían utilizar en el futuro. La naturaleza extensa del conjunto de datos en el lago de datos crea una fuente óptima a partir de la cual construir el almacén de datos ahora y en el futuro. A medida que se identifican nuevas áreas temáticas como deseables en el almacén de datos, un lago de datos ya tiene los datos necesarios para realizar la construcción inicial y las cargas incrementales en curso.

Usuario base

Debido a que un almacén de datos está formulado específicamente para responder preguntas orientadas al tema, tiene el nivel de usabilidad más alto. Esto significa que una amplia audiencia de consumidores de información y tomadores de decisiones de toda la organización pueden extraer información del almacén de datos.

Uno de los modelos más comunes para el almacén de datos, el esquema en estrella, se ha integrado en herramientas de informes como Microsoft Power BI, Tableau y QlikView para permitir a los usuarios arrastrar y soltar elementos y crear fácilmente informes, cuadros de mando y cuadros de mando potentes. Sin embargo, si necesitan datos nuevos y novedosos, a menudo se necesita coordinación y colaboración con el departamento de TI para construir estos elementos de datos en el almacén de datos. Una vez construidos, se pueden utilizar para una gran variedad de fines comerciales.

Un lago de datos incluye varios tipos de datos estructurados, semiestructurados y no estructurados, por lo que la audiencia debe ser más técnica para extraer información; sus usuarios son científicos de datos, ingenieros de datos y desarrolladores de análisis que utilizan una variedad de herramientas para realizar el descubrimiento de datos en este datos. Desde lenguajes de programación como R, Python y SAS hasta herramientas de descubrimiento de datos gráficos como Knime y RapidMiner, estas herramientas proporcionan muchos métodos para extraer diferentes tipos de datos y realizar análisis sobre ellos.

Los usuarios de este entorno tienen una gran flexibilidad en términos de qué análisis se pueden realizar y qué respuestas se pueden descubrir. A menudo extraen pequeñas porciones de datos en un entorno de análisis temporal y trabajan solo con ese subconjunto para encontrar sus respuestas.

Los usuarios más avanzados, como los científicos de datos, encontrarán valor en el uso tanto del almacén de datos como del lago de datos. Tienen experiencia en equilibrar la facilidad de extracción de la fuente con la naturaleza de su análisis y cambiarán a menudo entre sus herramientas. A menudo, los experimentos con los datos del lago de datos darán lugar a solicitudes para crear funciones permanentes que creen mejoras a largo plazo en el almacén de datos.

Gobernancia

El almacén de datos requiere planificación y controles iniciales para garantizar que siga siendo accesible para la base más amplia de usuarios; su modelo de gobierno es mucho más sólido que el del lago de datos. Los cambios en el almacén de datos requieren desarrollo y pruebas antes de trasladarse a un entorno de producción. Cuando ocurren cambios, los catálogos de datos y las capas semánticas comerciales deben actualizarse para garantizar que se puedan utilizar los nuevos elementos de datos. Este modelo de gobierno maduro es necesario cuando los activos de información tienen el mayor valor operativo continuo para la organización.

El lago de datos tiene mucha menos gobernanza en términos de lo que se puede hacer dentro de él. Esto es cierto tanto para la adición de nuevas estructuras como para los tipos de experimentación que se pueden realizar utilizando los datos en este entorno. Es esta libertad la que permite a los científicos de datos descubrir los conocimientos que tienen el mayor potencial para cambiar el negocio.

Aquí es donde un lago de datos y un almacén de datos pueden interactuar maravillosamente. Los ingenieros de datos y los científicos de datos pueden realizar análisis y experimentación en el lago de datos. Una vez que los resultados son satisfactorios, se pueden impulsar sistemáticamente a través del proceso de desarrollo y ponerlos en producción en el almacén de datos para que una audiencia más amplia los aproveche. Esto permite que una organización equilibre entre lo probado y lo verdadero que se requiere para que el negocio siga avanzando y lo nuevo y novedoso con el potencial de interrumpir el negocio y llevarlo a nuevos espacios.

Una palabra final

El almacén de datos y el lago de datos no son lo mismo. Cada uno tiene valor para la organización. Se pueden implementar de forma independiente o en conjunto para cumplir con sus objetivos comerciales. La clave es comprender el papel que desempeña cada uno y tomar decisiones deliberadas en función de su estrategia de datos y análisis.

Fuente: Troy Hiltbrand