Los datos como servicio deben convertirse en el nuevo estándar para conjuntos de datos

Al utilizar software de código abierto, servicios en la nube y una estrategia de datos como servicio, las empresas pueden obtener más valor de sus datos, más rápido.

Este año, Amazon S3 cumplió 13 años. Se ha convertido en la forma estándar en la que los datos aterrizan por primera vez en la nube debido a su escalabilidad ilimitada, administración simple y bajo costo. En la actualidad, Amazon Web Services (AWS) ofrece más de 100 servicios, con ofertas para prácticamente todas las capas de la pila de tecnología. A lo largo de los años, AWS ha ampliado constantemente sus servicios de «almacenamiento simple» a «servidores por hora» y servicios «sin servidor», mientras que los ingenieros de software han disfrutado de servicios en constante expansión que mejoran su vida laboral y los hacen más productivos.

Ahora llamamos a esta idea «como servicio». Lo que queremos decir es que los aspectos complejos y onerosos de la infraestructura están ocultos y administrados en nombre del usuario, lo que les permite concentrarse en un trabajo más significativo. Además, no hay tiempo de espera: con el clic de un botón, los usuarios pueden tener miles de instancias aprovisionadas en su nombre. Así como Google cambió para siempre nuestras expectativas de acceso simple y rápido a la información, AWS cambió para siempre la forma en que esperamos consumir la infraestructura y otras tecnologías centrales.

Si la infraestructura y la tecnología han mejorado las experiencias de los usuarios de los compradores en línea de Amazon, el acceso a los datos ha ido en la dirección opuesta. Se ha vuelto cada vez más difícil de acceder, más desafiante de usar y más propenso a las amenazas de seguridad. A medida que las empresas han trasladado sus datos a ofertas tecnológicas especializadas, como lagos de datos, NoSQL y varios servicios en la nube, los desafíos de acceder y administrar datos se han vuelto desesperadamente complejos. Como resultado, los consumidores de datos no pueden obtener acceso a los datos por sí mismos y, en cambio, van a TI para satisfacer sus necesidades, donde ocupan su lugar en la fila, esperando su turno.

Así como los ingenieros de software alguna vez esperaron semanas y meses para que sus servidores fueran apilados y apilados por TI antes de que pudieran comenzar a implementar sus aplicaciones, los consumidores de datos esperan semanas y meses para que los datos se aprovisionen para sus necesidades. Este es un costo de oportunidad enorme para las empresas en la actualidad. Hay más de 200 millones de consumidores de datos en todo el mundo; incluso asumiendo costos modestos por persona, las pérdidas de productividad asociadas se acumulan rápidamente a cientos de miles de millones de dólares cada año.

La idea de «como servicio» que Amazon defendió para la infraestructura en beneficio de los ingenieros de software ahora debe aplicarse a los datos empresariales en beneficio de los consumidores de datos. Esto incluye científicos de datos, analistas, usuarios de inteligencia empresarial y otros que dependen del acceso a los datos para realizar su trabajo a diario.

Así como los desarrolladores de software pueden proporcionar infraestructura y servicios para una nueva aplicación, bajo demanda y con un tiempo de entrega prácticamente nulo, los consumidores de datos deberían poder suministrar datos para entrenar un modelo de aprendizaje automático, trabajando con sus herramientas favoritas, sin depender de TI. para hacer este trabajo en su nombre. Los nuevos paneles deberían poder crearse en unos minutos en lugar de semanas y meses.

Cuellos de botella del conjunto de datos

Los datos son mucho más masivos, complejos y variables que los servicios de infraestructura y software. Si bien una empresa de Fortune 500 puede operar en miles de casos en su plataforma de nube favorita, un trabajo de análisis individual puede involucrar fácilmente docenas de fuentes de datos y miles de millones de puntos de datos, así como transformaciones y enriquecimiento antes del análisis real.

Otro cuello de botella en la escasez de ingenieros de datos en las empresas de hoy. Por cada ingeniero de datos, normalmente hay más de 100 consumidores de datos. Como resultado, cada consumidor de datos termina haciendo fila, esperando su turno con TI y los ingenieros de datos siempre están apagando el próximo fuego en lugar de trabajar en iniciativas más grandes y estratégicas.

Mediante una combinación de tecnologías de código abierto y mejores prácticas, las empresas pueden desarrollar una estrategia de datos como servicio. A través de este enfoque, los ingenieros de datos se vuelven más productivos en su apoyo a los consumidores de datos, lo que garantiza la gobernanza, la seguridad y la disponibilidad del servicio. Además, los consumidores de datos pueden dedicar la mayor parte de su tiempo a hacer lo que mejor saben hacer: dar sentido a los datos para ayudar a la empresa a operar de manera más eficaz.

¿Cuáles son los componentes básicos de los datos como servicio?

En primer lugar, las empresas deben dejar de hacer copias interminables de los datos que mueven entre diferentes tecnologías y entornos. Los ejemplos incluyen cosas como extractos, cubos, data marts y tablas de agregación, que se crean para brindar a diferentes usuarios un acceso más rápido a un subconjunto de datos empresariales.

En cambio, las empresas deben desarrollar una estrategia en la que los conjuntos de datos se aprovisionen a pedido utilizando capacidades avanzadas que brinden acceso de alto rendimiento a los datos desde cualquier fuente y simultáneamente apliquen la transformación, aseguren los controles de acceso y enmascaren los datos confidenciales de forma dinámica. Si bien esta idea ha existido durante muchos años, ha estado plagada de complejidad, rendimiento lento y falta de capacidad para brindar autoservicio al consumidor de datos. Hoy en día, los avances en hardware y los nuevos proyectos de código abierto como Apache Arrow simplifican y aceleran el acceso a los datos, lo que hace que este enfoque sea factible de una manera que nunca antes había sido.

Las empresas también deben pensar en términos de un catálogo empresarial central y examinado de sus activos de datos. Pregunte a sus analistas dónde encontrarían datos para responder una pregunta sobre nuestros clientes en Europa durante los últimos 180 días y la respuesta es con frecuencia: «Le preguntaríamos a TI». Pero las cosas son muy diferentes en sus vidas personales: si estuvieran buscando hoteles cerca del estadio de su equipo deportivo favorito, simplemente preguntarían a Google y encontrarían la respuesta al instante. Debería ser tan fácil encontrar datos en el trabajo como en casa.

Los consumidores de datos con frecuencia requieren conjuntos de datos personalizados que aún no se han creado, como conjuntos de datos centrados en un período de tiempo, geografía o unidad de negocio. Tradicionalmente, los consumidores de datos esperaban a que TI creara un mercado de datos en su nombre. Con los datos como servicio, el consumidor de datos puede hacer este trabajo por sí mismo.

Los datos como servicio son una estrategia que las empresas pueden implementar en la nube, en las instalaciones o en un modelo híbrido. Las empresas administran sus datos en muchos silos diferentes, incluidas bases de datos relacionales, almacenes de datos, mercados de datos, bases de datos NoSQL y almacenes de objetos como Amazon S3. Al seguir una estrategia de datos como servicio, las empresas pueden poner todos sus activos de datos a disposición de los consumidores de datos. Al utilizar software de código abierto, servicios en la nube y una estrategia de datos como servicio, las empresas pueden obtener más valor de sus datos, más rápido.

Fuente: Kelly Stirman