Aprendizaje Automático: evitar introducir basura para obtener basura

Opinión

27 MAR 2020

Al dialogar con nuestros clientes, resulta muy claro que todos compartimos los mismos retos: digitalizar nuestros negocios urgentemente, convertir el progreso detenido en innovación frecuente y aprovechar el potencial de los datos y el aprendizaje automático. Sin embargo, creo que existe una brecha entre la comprensión de la importancia crítica de los datos para el éxito y efectividad del aprendizaje automático.

Tribuna de opinión de Bryan Landerman – Estratega Corporativo y Evangelizador, Amazon Web Services

El enfoque actual parece consistir en el empleo de datos para crear productos de datos o identificar información aprovechable para el negocio. Pero la realidad es que el aprendizaje automático no puede existir sin los datos. Por lo tanto, si el tamaño de la muestra es demasiado reducido o la calidad de los datos no representa adecuadamente la realidad, los modelos de aprendizaje automático no tendrán ningún valor. En este artículo exploraré los modelos de entrenamiento y cómo los datos y su calidad pueden afectar a los modelos de aprendizaje automático.

¿Qué es el aprendizaje automático?

Para comprender mejor el aprendizaje automático, pensemos en el aprendizaje humano. Gran parte de lo que aprendemos se enseña y retiene mediante largos procesos de repetición, reconocimiento de patrones y retroalimentación. Mediante una amplia diversidad de conocimientos, experiencia y retroalimentación, aprendemos a tomar decisiones diferentes y mejores a lo largo del tiempo.

El aprendizaje automático es muy similar al aprendizaje humano, excepto que la función de tipo cognitivo de una máquina es menos sofisticada que la del cerebro humano. A veces, nos vemos forzados a elegir de forma instintiva o tomar decisiones sobre problemas que comprendemos tan solo parcialmente. Compensamos los datos que faltan con información procedente experiencias pasadas similares, supuestos y estimaciones basadas en nuestra tolerancia al riesgo. En cambio, las máquinas no toman decisiones instintivas; todas sus decisiones se basan en el entrenamiento realizado y en los datos proporcionados. Por eso debemos actuar de manera intencionada al “enseñar a las máquinas” (modelos de entrenamiento) y asegurarnos de proporcionar los datos adecuados para el aprendizaje. De otro modo, al igual que los seres humanos sin el entrenamiento adecuado, el modelo no estará preparado para tomar las decisiones correctas.

Aprendizaje automático en acción

Existen diferentes clases de aprendizaje automático, pero nos centraremos en un tipo popular: el aprendizaje supervisado. En esta variedad, entrenamos a los modelos para recibir input (entrada) y ofrecer output (respuesta). Por ejemplo, podemos introducir una imagen como input y crear un modelo que calcule la probabilidad de que la imagen contenga un cierto objeto.

Los modelos de aprendizaje automático deben ser entrenados con datos suficientes como para poder predecir con precisión la probabilidad de que, por ejemplo, la imagen del input contenga una manzana. Ahora bien, aunque para un adulto resulta sencillo distinguir cada imagen que representa una manzana ¿qué ocurre en el caso del aprendizaje automático? ¿Y si tan solo entrenamos al modelo con imágenes de manzanas rojas? ¿Qué pasaría si todas las manzanas empleadas en el entrenamiento tuviesen la misma forma? ¿Cómo podría el modelo llegar a distinguir que las dos últimas imágenes mostraban realmente manzanas?

Existen varias formas de entrenar involuntariamente a un modelo para producir resultados incorrectos. Los datos podrían ser demasiado uniformes o carecer de variedad. El conjunto de datos podría estar incompleto o contener datos duplicados. O quizás los datos podrían estar mal etiquetados.

Empleo de retroalimentación en el aprendizaje automático

Otro elemento importante de los modelos de entrenamiento es la retroalimentación (feedback). El modelo necesita saber cuándo las predicciones resultan incorrectas. Una de las formas de aumentar la probabilidades de las predicciones es auditando los resultados del modelo una y otra vez.

Como cabe imaginar, el etiquetado de datos y retroalimentación de los modelos puede ser un proceso muy laborioso. Afortunadamente, Amazon Web Services Marketplace ofrece un número creciente de modelos de aprendizaje automático y AWS Data Exchange está facilitando el acceso a los conjuntos de datos. También existen servicios como Amazon Mechanical Turk que permiten completar ciertas partes de las tareas, como el etiquetado de datos, mediante colaboración abierta distribuida (crowdsourcing).

Recabado de datos para el aprendizaje automático

Al construir lagos de datos para nuestros negocios, debemos pensar en el aprendizaje automático desde el inicio, además de productos de datos y conocimientos de negocio. Aunque la disciplina de gestión de datos maestros nos enseña la importancia de su uniformidad y precisión, el aprendizaje automático recalca la importancia de los datos brutos. A medida que recabamos datos y los alteramos repetidamente para adaptarlos a diferentes usos, aumentamos el riesgo de perder datos valiosos y significativos. Puesto que deseamos aprovechar al máximo nuestros datos, debemos crear los lagos de datos con fines específicos en mente.

Cabe destacar que la construcción de este tipo de cimientos de datos puede representar un reto. Internamente, puede ser difícil convencer a otras personas de compartir sus datos cuando no existe un beneficio directo. Además, una vez que superamos este obstáculo, debemos limpiar los datos, asegurarnos de que tengan el nivel adecuado de granularidad, eliminar duplicados y crear conjuntos o muestras de datos completos y precisos. Estos pasos pueden ser bastante complejos, tanto es así que AWS ofrece servicios como AWS Lake Formation orientados a limpiar y clasificar los datos empleando algoritmos de aprendizaje automático (entre otras herramientas). Efectivamente, ¡es posible emplear el aprendizaje automático para preparar datos para el aprendizaje automático!

Reflexiones finales sobre el aprendizaje automático

Como podemos ver, contar con los datos correctos es muy importante para el aprendizaje automático. De todos los retos que conlleva el aumentar la agilidad del negocio e innovar a mayor velocidad, el arranque es el más difícil. Pero lo que he aprendido es que el éxito llega a base de experimentar frecuentemente, minimizando el riesgo. Comenzar a escala reducida, con objetivos concretos: escoger pequeños segmentos verticales (casos de uso de principio a fin) para detallar patrones, aprender rápidamente y ofrecer valor y progreso a partir de ahí. Se trata de un largo recorrido; no es necesario completarlo todo de una vez.

Bryan Landerman. Estratega Corporativo y Evangelizador, Amazon Web Services