El Aprendizaje Composicional es el Futuro del Aprendizaje Automático

Cómo se logrará la próxima ola de inteligencia.

El aprendizaje automático ha recorrido un largo camino desde la década de 1950, cuando se idearon métodos estadísticos para algoritmos simples de aprendizaje automático y se introdujeron métodos bayesianos para el modelado probabilístico. Hacia el siglo XX, la investigación de modelos como las máquinas de vectores de soporte y las redes neuronales elementales explotó con el descubrimiento de la retropropagación, basada en el progreso de Alan Turing con las computadoras. Varios años después, la disponibilidad de computación masiva ha dado paso a redes neuronales masivas que pueden vencer a los campeones mundiales en Go, generar arte realista y leer. Históricamente, el progreso en el aprendizaje automático ha sido impulsado por la disponibilidad de potencia computacional.

A medida que el impulso para hacer chips de computadora en la computación clásica se vuelve cada vez más poderoso comienza a secarse (bits que se acercan al tamaño molecular más pequeño que pueden tener), el desarrollo del aprendizaje automático ya no puede depender de un crecimiento constante en el poder computacional para desarrollarse aún más poderoso y modelos efectivos. El aprendizaje automático, en respuesta, se está convirtiendo en aprendizaje compositivo.

El aprendizaje compositivo se basa en la idea de que un modelo no puede hacerlo todo. Cuando las redes neuronales profundas solo se usaban para una tarea, por ejemplo, reconocer una célula cancerosa maligna o benigna o clasificar una imagen en perros o gatos, podían funcionar razonablemente bien. Desafortunadamente, algo que se ha observado en las redes neuronales es que solo pueden hacer una cosa muy bien. A medida que las aplicaciones para la inteligencia artificial se vuelven cada vez más complejas, las redes neuronales singulares solo pueden crecer cada vez más, lo que explica las nuevas complicaciones con más neuronas.

Como se mencionó anteriormente, esta capacidad continua de crecimiento está llegando a un callejón sin salida. Al combinar varias de estas redes neuronales para realizar segmentos de la tarea completa, el modelo en su conjunto se desempeña mucho mejor en estas intrincadas tareas mientras mantiene un espacio de computación razonable. Cuando una tarea se divide en varias redes neuronales, cada una de las redes independientes puede especializarse en su campo, en lugar de tener que estar todas cubiertas por una red. Esto es análogo a pedirle al presidente (o al primer ministro) que tome una decisión con o sin el apoyo de los secretarios de trabajo, defensa, salud y otros departamentos.

Considere, por ejemplo, la siguiente tarea: crear un chatbot para un restaurante de lujo que interactúe con el usuario y pueda realizar tareas comunes como preguntar sobre el menú o hacer una reserva, así como hacer una charla ociosa.

La conversación se puede dividir claramente en tres secciones: cortesías y charlas, recuperación de información y acciones. En lugar de tener un proceso de modelo de aprendizaje automático que toma las interacciones anteriores y genera una respuesta, podemos optar por un sistema más distribuido:

Una red neuronal infiere qué tarea está a la mano, si el usuario está guiando la conversación esperando una broma, información o una acción, y asigna la tarea a una red especializada. Al utilizar un modelo distribuido en lugar de algo más directo como una red codificadora-decodificadora o una GAN * de texto, se obtienen dos beneficios:

Mayor precisión . Debido a que la tarea se delega en tres modelos separados, cada uno especializado en su propio campo, se mejora el rendimiento del modelo.

Tiempo de ejecución más rápido . Aunque entrenar modelos distribuidos es generalmente un proceso más difícil, los modelos distribuidos son mucho más rápidos a la hora de hacer predicciones, algo fundamental para proyectos que requieren respuestas rápidas. Esto se debe a que se puede pensar que el modelo distribuido ‘divide’ el modelo singular, por lo que la información solo pasa a través de neuronas útiles que pertenecen a la tarea actual en lugar de tener que fluir a través de toda la red.

* Las redes de codificador-decodificador y las GAN se componen de múltiples redes y tal vez puedan considerarse como modelos de composición en sí mismos. En este contexto, se consideran singulares solo porque el modelo compositivo lo amplía para hacerlo más efectivo. El modelo compositivo estructurado descrito es más un ‘modelo composición-composición’.

O considere el uso de GAN (modelos generativos) para reemplazar los métodos tradicionales de aumento de datos, que en muchos casos no se adaptan al contexto y proporcionan un ruido excesivo y dañino. Al canalizar continuamente nuevos datos generados por GAN en un modelo, se resuelven dos problemas:

Etiquetas de clase desiguales . Un gran problema con la recopilación de datos es que un modelo tiende a hacer predicciones con la misma proporción que en las etiquetas. Si el 75% de las etiquetas en un conjunto de datos de perros y gatos son ‘perro’, entonces el modelo también recomendará ‘perro’ la mayor parte del tiempo. Mediante el uso de GAN, se pueden crear imágenes adicionales para compensar el desequilibrio de clases.

Sobreajuste . Un problema que normalmente se resuelve con el aumento de datos, las GAN brindan una solución que funciona mejor para una variedad universal de contextos. Las distorsiones de, digamos, rostros de celebridades, pueden hacer que la imagen no esté conectada físicamente a su clase. Por otro lado, las GAN proporcionan la variación adicional necesaria en el sobreajuste y pueden aumentar de manera más eficiente la efectividad del aprendizaje de modelos.

O, por ejemplo, considere un sistema de modelo dual que permita que el modelo aprenda de manera más constructiva muestras fáciles de aprender (aquellas que el modelo de evaluación de dificultad primitiva puede resolver con alta confianza / probabilidad) primero muestras y solo introduce muestras de entrenamiento más difíciles después de la red neuronal profunda ha dominado los anteriores.

Este tipo de aprendizaje de dificultad progresiva podría ser más efectivo que los métodos tradicionales de aprendizaje al establecer primero los conceptos básicos y luego ajustar las ponderaciones para muestras de datos más difíciles. Esta idea se basa en marcos de modelos de composición, que consisten en dos o más submodelos vinculados por un flujo lógico.

Cabe señalar que el aprendizaje compositivo se diferencia de los métodos conjuntos porque a) los modelos en el aprendizaje compositivo realizan diferentes tareas yb) las relaciones basadas en el contexto son una parte clave del aprendizaje compositivo, que no están presentes en los métodos conjuntos.

Quizás la razón por la que los métodos de aprendizaje compositivo funcionan tan bien es porque nuestros cerebros también son de naturaleza composicional. Cada sector de nuestro cerebro se especializa en una tarea específica, y sus señales se coordinan y agregan para formar un tomador de decisiones dinámico y activo.

El aprendizaje composicional es mucho más difícil que el modelado estándar, lo que implica elegir el algoritmo correcto y preparar los datos. En los sistemas de composición, hay un número infinito de formas en las que se pueden estructurar las relaciones entre cada uno de los modelos, todas dependiendo del contexto. En cierto modo, la construcción de modelos de aprendizaje compositivo es un arte. Determinar qué tipos de modelos utilizar y en qué relación requiere codificación adicional, pensamiento creativo y una comprensión fundamental de la naturaleza de los modelos, pero es inmensamente gratificante cuando se trata de los complejos problemas que la IA deberá abordar en 2020 y en el futuro.

El futuro de la IA radica en el aprendizaje compositivo.

Fuente: Andre Ye