El creciente papel del linaje de datos en la gestión de datos moderna

Determinar los orígenes y transformaciones de los datos como una forma de comprender su valor comercial, confiabilidad, calidad y aplicabilidad para casos de uso específicos.

Los consumidores finales de informes, análisis, conjuntos de datos y otros productos basados ​​en datos de BI tienen preguntas que suelen hacer: ¿De dónde provienen los datos? ¿Cómo se ha agregado y transformado? ¿Quién lo ha usado? ¿Cuál es la calidad de estos datos? ¿Qué tan confiable es?

Si los usuarios no reciben respuestas creíbles, no confiarán ni consumirán los datos y los productos de BI. Por lo tanto, corresponde a los profesionales de análisis y administración de datos implementar soluciones de linaje de datos que puedan responder con precisión a estas y otras preguntas sobre el origen, el historial, las transformaciones, el uso, la condición y la confiabilidad de los datos. Necesita la funcionalidad de la herramienta de linaje de datos para tener información precisa sobre los datos disponibles rápidamente cuando los usuarios, desarrolladores, auditores, gobernadores y gerentes le pregunten.

La información de linaje de datos responde preguntas sobre los datos

El linaje de datos registra el viaje que toman los datos a medida que se mueven desde las fuentes originales, se reutilizan (a través de la agregación y la transformación) y se envían a los productos de análisis y BI. El linaje de datos también puede registrar varios atributos de datos catalogando los datos por dominios, temas y otras categorías, ya sea de forma manual o automática. Otros atributos incluyen la condición de la calidad de los datos, los metadatos, los modelos, además de las clasificaciones aportadas por los usuarios sobre su confiabilidad y usabilidad.

Además del seguimiento de los flujos de datos individuales, el linaje de datos los unifica para que pueda dibujar un mapa de datos completo al que pueden acceder muchos tipos de usuarios y aplicaciones. Cuando la funcionalidad de linaje de datos está completamente automatizada, puede rastrear, registrar y catalogar datos de forma autónoma con poca o ninguna intervención humana, lo que aumenta la productividad del desarrollador y asegura un mapa actualizado de datos en toda la empresa.

Ramificaciones de las respuestas de linaje de datos limitados o faltantes

Si los usuarios no reciben respuestas creíbles a las preguntas sobre el linaje, no confiarán en los datos. No utilizarán los datos ni los productos de BI en los que se entregan, como informes, análisis y conjuntos de datos. La baja adopción resultante de datos y productos de BI puede interpretarse como una falla de su parte como profesional de datos o análisis. En algunos casos, esto puede ser un fracaso que limita la carrera.

Algunos usuarios reaccionarán a los datos en los que no confían creando sus propios conjuntos de datos. Por ejemplo, los data marts deshonestos y otros silos de datos contradictorios y de baja calidad pueden ser una consecuencia de una información deficiente sobre el linaje de los datos.

Sin una amplia información sobre el linaje de datos, muchas tareas son lentas e inexactas. Por ejemplo, los desarrolladores pueden tardar demasiado en producir una solución porque su tiempo se gasta en reconstruir el linaje de datos sobre la marcha. Muchos usuarios seleccionan fuentes de datos inapropiadas cuando la información sobre los datos es limitada. En particular, los usuarios de autoservicio ligeramente técnicos necesitan toda la orientación que puedan obtener, y la información sobre el linaje de los datos puede ayudarlos a encontrar y utilizar los datos con mayor facilidad y control.

Finalmente, una de las peores ramificaciones del linaje de datos faltantes se refiere a las auditorías requeridas por auditores reguladores, instituciones financieras, su propia administración, contadores o empresas asociadas. Los auditores sospechan y el proceso de auditoría tarda más de lo necesario cuando los datos están mal documentados o la documentación carece de credibilidad.

Casos de uso empresarial para el linaje de datos

Mejorar la información sobre sus datos a través de prácticas de linaje de datos y funciones de herramientas puede generar un mayor valor comercial de las inversiones en análisis. Esto es especialmente cierto para las soluciones para BI, informes, análisis avanzado, almacenamiento de datos e integración de datos. Esto se debe a que los productos de BI se vuelven más precisos, específicos y confiables, por lo que se utilizan con más frecuencia con mejores resultados comerciales.

La información creíble sobre el linaje de los datos también puede contribuir a mejorar la gobernanza, la administración, la conservación y el uso conforme de los datos. Por ejemplo, el linaje puede localizar, etiquetar y rastrear información de identificación personal (PII), lo que ayuda a evitar usos no autorizados o que no cumplan con las normas. Por el contrario, cuando la información de linaje también rastrea a los usuarios y el uso, puede revelar y ayudar a remediar los usos no compatibles de datos confidenciales. En el caso de una auditoría, el linaje de datos con seguimiento extendido le permite demostrar el cumplimiento de manera creíble, por lo que la auditoría es más rápida y con menos ramificaciones comerciales.

Casos de uso de tecnología para el linaje de datos

La información adicional sobre los datos proporcionados a través del linaje de datos puede guiar a los desarrolladores a medida que buscan datos y los perfilan a fondo al crear aplicaciones basadas en datos. La información de linaje también permite el descubrimiento rápido de datos para la creación rápida de prototipos y métodos de desarrollo ágiles. En estos casos, los desarrolladores de datos reciben un impulso de productividad.

La información de linaje de datos también impulsa la ingeniería inversa de conjuntos de datos, soluciones de integración y otros productos de BI. A partir de la información del linaje de datos, un desarrollador obtiene una comprensión rápida de un producto de BI creado por otra persona, lo que ayuda en el mantenimiento y la actualización.

Finalmente, la información del linaje de datos (similar a los metadatos detallados) puede contribuir a múltiples disciplinas de datos, como programas de calidad, migraciones e integración. La información de linaje puede revelar conjuntos de datos redundantes que deben fusionarse o datos no utilizados que deben archivarse. También contribuye a tareas que requieren mucho tiempo, como la gestión del ciclo de vida de la información (ILM) y la administración de bases de datos.

El papel de la automatización en el linaje de datos moderno

Las herramientas avanzadas para el linaje de datos escanean datos automáticamente independientemente de la ubicación, las estructuras y otras características de los datos. El escaneo da como resultado un amplio “mapa de datos” que representa todos los datos conocidos, junto con información sobre la fuente, las transformaciones y los usos de la mayoría de los activos de datos. El hecho de que un mapa de datos se genere automáticamente, y también se mantenga automáticamente a medida que evoluciona el ecosistema de datos, ahorra horas de tiempo de desarrollador y administrador. Esto acelera los proyectos y reduce los costos de nómina.

El mapa de datos automatizado impulsado por el linaje también permite mayores ganancias de productividad. Esto incluye ingeniería inversa rápida para soluciones antiguas basadas en datos, mapeo fácil de origen a destino para nuevas soluciones y análisis de impacto para comprender las ramificaciones de los datos cambiantes antes de realizar los cambios.

El panorama general visto a través de un mapa de linaje de datos

Un mapa de linaje de datos proporciona una vista de todos los activos de datos disponibles. Por lo tanto, el mapa de linaje se puede utilizar como un inventario de datos para ser consultados, explorados, buscados y gobernados.

El mapa proporciona semántica para una exploración de datos muy amplia pero controlada, que es clave para el análisis orientado al descubrimiento (minería, estadísticas, aprendizaje automático) y las prácticas de datos de autoservicio (preparación y visualización de datos de autoservicio).

Dependiendo de cómo se amplíen los servicios de linaje de datos, el mapa de linaje de datos también puede registrar estructuras de datos, interfaces y dependencias. Esta información es invaluable para los arquitectos de datos y los expertos en optimización de sistemas que tienen dificultades para comprender, y mucho menos mejorar y diseñar, arquitecturas de datos y arquitecturas de sistemas grandes y multiplataforma. El mapa de datos de linaje es especialmente profundo cuando se cubren datos en todos los sistemas locales y en la nube. Dejando a un lado la arquitectura, el “panorama general” visualizado por un mapa de linaje de datos puede facilitar el diseño y la ejecución de la administración de la plataforma de datos, las migraciones de datos, las consolidaciones de datos, la optimización de procesos multiplataforma y el gobierno de datos en toda la empresa.

Fuente: Philip Russom