Cuatro Pasos para Preparar su Empresa para el Aprendizaje Automático

El aprendizaje automático puede automatizar significativamente la generación de información a partir de macrodatos. He aquí cómo empezar.

La implementación del aprendizaje automático (ML) a menudo se malinterpreta, pero el conocimiento de las herramientas y procesos tecnológicos que facilitan la generación de conocimientos derivados de datos es vital. Con el aumento del volumen de macrodatos, es más difícil generar información valiosa utilizando la analítica tradicional. La capacidad de ML para automatizar significativamente este proceso complementa el crecimiento de big data, especialmente cuando se entiende la infraestructura de ML.

Eso significa abordar los cuatro pasos clave para prepararse para el AA:

Origen de los datos
Establecimiento de una zona de confianza o “fuente única de la verdad” (SSOT)
Establecimiento de entornos de modelado
Provisión de resultados de modelos o conocimientos para aplicaciones posteriores

Paso 1: obtenga los datos

El abastecimiento de datos incluye la encuesta de tipos de datos accesibles para entradas al algoritmo, así como los procesos y tecnologías necesarios para aprovechar estas fuentes. Los ejemplos de fuentes de datos incluyen transacciones principales, información proporcionada por el cliente, bases de datos externas, datos de investigación de mercado, redes sociales y tráfico del sitio web.

Paso 2: establezca una zona de confianza

Una vez que se obtienen los datos, se deben curar a través de un SSOT (que estructura los datos en un lugar coherente). Es importante demostrar la validez y la calidad de los datos a medida que se manejan. Antes de que los datos se puedan consumir para el AA, se deben agregar, conciliar y validar. Los atributos clave de una zona de confianza incluyen:

Un repositorio central de datos, agregado de múltiples canales.

Elementos de datos y linaje de datos claramente definidos y documentados.

Documentación de supuestos. Por ejemplo, si los datos del hospital de un sistema de gestión anterior entran en conflicto con elementos del sistema actual, quizás prevalezca la entrada de datos más reciente. Esta suposición debe estar documentada.

Protocolo para abordar excepciones no deseadas. Considere el ejemplo anterior y suponga que un paciente tenía entradas de datos de la misma fecha en conflicto en ambos sistemas. La pila debe capturar tales excepciones como un informe de inteligencia empresarial, y los datos pueden ingresarse manualmente en la zona de confianza.

Informes diarios que igualan y concilian recuentos en todos los sistemas.

Arquitectura que se expande vertical y horizontalmente.

El almacén de datos que alberga la zona de confianza debe tener alta disponibilidad y ser resistente a fallas. Últimamente, más almacenes de datos se alojan en plataformas en la nube. Los beneficios de la nube incluyen alta disponibilidad, rentabilidad y escalamiento horizontal y vertical. Otra tendencia es la adopción creciente de bases de datos NoSQL (como MongoDB), que brindan mayor flexibilidad y mejor rendimiento para almacenar datos no estructurados que las bases de datos relacionales tradicionales.

Como ocurre con todo lo digital, la regulación y la seguridad de los datos son fundamentales. Los datos son más íntimos hoy y las regulaciones de privacidad y seguridad son más complicadas. El equipo de gobierno de datos debe formar parte de cualquier implementación de ML. Tener un linaje de datos que rastree el origen de datos es necesario para garantizar el cumplimiento.

Los datos recopilados y conservados deben estar protegidos. Los equipos de gestión de riesgos y seguridad deben participar para iniciar y monitorear las mejores prácticas y desarrollar planes de respuesta a las brechas de seguridad. La inversión en asistencia subcontratada vale la pena para las instituciones más pequeñas. Si se utilizan proveedores de la nube, deben acordar por contrato que la seguridad de los datos es su responsabilidad. La transmisión de datos desde las instalaciones a la nube y viceversa debe ser parte del alcance y debe diseñarse cuidadosamente para abordar los riesgos de seguridad. El cifrado de datos es valioso antes de la transmisión a la nube, incluso cuando la transmisión se realiza a través de una red privada virtual segura.

Paso 3: creación del entorno de modelado de AA

Los datos seleccionados del SSOT se pueden obtener en un entorno de modelado creado para implementar algoritmos ML. El entorno de modelado facilita la creación de modelos que generan conocimientos significativos de una manera que supera los requisitos de auditoría y validación del modelo. Hay tres componentes: infraestructura de modelado, herramientas de desarrollo y DevOps. Las diferentes opciones para los entornos de modelado de ML incluyen:

Servicios listos para usar: estos son modelos de propósito general previamente entrenados empaquetados como servicios listos para usar, como texto a voz, voz a texto, OCR, etc. Algunos ejemplos son Polly de Amazon y Watson de IBM.

ML automatizado: estas son aplicaciones con una interfaz gráfica de usuario (GUI) y pasos o flujos de trabajo predefinidos para realizar ML. Permiten a los expertos en la materia / usuarios comerciales utilizar pipelines ML precocinados con muy poco conocimiento de programación. Hacen un trabajo decente para muchos casos de uso, pero no para todos. Un ejemplo útil es DataRobot.

ML Workbench: estos son entornos de modelado ML prediseñados con herramientas de programación configurables y DevOps integradas. Un programador solo necesita configurar las herramientas y comenzar a construir los modelos. Un ejemplo es SageMaker de Amazon.

Entornos de modelado de ML personalizados o creados internamente: la institución recopila, crea, configura y mantiene todos los componentes de un entorno de modelado, herramientas de programación y herramientas de DevOps.

Una tendencia actual es el movimiento de plataformas de modelado a la nube desde la implementación interna de Apache Hadoop. Las pilas basadas en Hadoop pueden tener altos costos iniciales y pueden ser complicadas de mantener. Pasar a la nube ofrece varios beneficios, incluida la flexibilidad y una mínima inversión de capital inicial. A medida que cambian las necesidades de almacenamiento y computación, se adapta a la perfección. Piense en ello como “paga sobre la marcha”. La mayoría de los principales proveedores de nube también ofrecen servicios de aprendizaje automático listos para usar y bancos de trabajo de aprendizaje automático que podrían utilizarse con requisitos mínimos de configuración.

Los entornos de modelado de ML deben configurarse para facilitar la validación del modelo y tener en cuenta los desafíos asociados. Los modelos deben estar validados por sesgos, deben ser explicables y deben documentar la selección de métodos y parámetros. La documentación debe ser detallada para que un tercero pueda recrear el modelo sin que se le proporcione el código fuente. Por tanto, es importante estandarizar los procesos de desarrollo y validación de modelos.

Por lo general, se requiere evaluar el riesgo del modelo antes de la producción. Las pautas regulatorias requieren que los tomadores de decisiones comprendan la intención de construir estos modelos, las suposiciones hechas y las limitaciones. Debe evitarse el uso de un modelo fuera del alcance de su intención inicial. Aunque el aprendizaje automático es excelente para modelar escenarios no lineales complicados, es menos transparente que los modelos tradicionales, lo que dificulta la validación del modelo de aprendizaje automático. Por ejemplo, con los hospitales actuales invadidos por el coronavirus, los modelos basados ​​en ML pueden ayudar a clasificar los equipos en función de los datos clínicos. Sin embargo, no se pueden utilizar en la práctica sin documentar que dicho modelo no tiene un sesgo irrazonable en contra de un determinado grupo de población.

El modelo seleccionado debe tener un razonamiento conceptual detrás de su desarrollo y construcción. Es importante documentar por qué se seleccionó el modelo, las matemáticas detrás de él y el proceso de selección de características. El abastecimiento de funciones y la integridad de los datos también son esenciales y se logran más fácilmente con un SSOT. Se debe tener especial cuidado al utilizar AutoML porque proporciona modelos precocinados que deben pasar por una solidez conceptual. La validación del modelo debe evaluarse de cerca al seleccionar cualquier producto de AutoML.

Paso 4: Aprovisionamiento de estadísticas de AA

La entrega de información se clasifica como entrega en tiempo real o por lotes. Es necesario procesar, generar y entregar información en tiempo real en plazos breves o casi en tiempo real, como la detección de transacciones fraudulentas. La entrega por lotes se procesa y genera en grupos. Los ejemplos incluyen modelos que predicen el comportamiento del cliente.

Las consideraciones para diseñar y hospedar el nivel de cómputo para modelos en tiempo real incluyen la frecuencia de solicitud y la carga. Si esto es impredecible o muy variable, es recomendable alojar el nivel de cómputo en la nube. También es aconsejable crear una capa de API basada en servicios web dedicada a este nivel de cómputo. Los modelos en tiempo real deberían requerir el registro en la capa de API, lo que debería permitir que las aplicaciones recuperen información sobre cómo estructurar las solicitudes de API y la estructura de salida esperada.

Los modelos ML se diferencian de los modelos tradicionales en que se pueden entrenar continuamente. Se debe crear un ciclo de retroalimentación de capacitación y se debe guardar las entradas pasadas al modelo, así como las salidas resultantes y si esas salidas son significativas. La analítica visual también se puede utilizar para presentar información que se genera a partir de la plataforma de modelado de manera significativa.

Aprovechar los beneficios de los datos

Al comprender la implementación de la pila de tecnología ML, las empresas pueden aprovechar los beneficios de los datos y generar programación que podría transformar sus negocios. Seguir los cuatro pasos operativos descritos en este artículo e implementar estrategias de apoyo resultará en una mejor eficiencia. Los primeros usuarios tienen más posibilidades de tener éxito.

Por Ankur Garg