Así evoluciona el primer sistema masivo de inteligencia artificial de la lengua española

Estrategias

15 NOV 2021

Cinco meses después de su lanzamiento, MarIA, el primer sistema masivo de inteligencia artificial de la lengua española creado por el Centro Nacional de Supercomputación, expande sus capacidades y ya es capaz de resumir y generar textos. para utilizar el lenguaje. El proyecto se enmarca en el PERTE para el desarrollo de una economía digital en español y sus resultados se publican en abierto para desarrolladores de aplicaciones, empresas y Administración.

Recomendados:

Atención pública al ciudadano: hacia una relación de 360 grados Evento

El papel de la ciberinteligencia en la seguridad empresarial Webinar

Informe: Hacia la empresa hiperinteligente Leer

El proyecto MarIA, el sistema de modelos de lengua creado en el Barcelona Supercomputing Center – Centro Nacional de Supercomputación (BSC-CNS).en el marco del Plan de Tecnologías del Lenguaje (PlanTL), ha evolucionado y su nueva versión permite resumir textos existentes y crear nuevos textos a partir de titulares o de palabras.

El proyecto MarIA es el primer sistema de inteligencia artificial masivo y experto en comprender y escribir en lengua española. Por su volumen y capacidades, ha situado a la lengua española en el tercer puesto de los idiomas que disponen de modelos masivos de acceso abierto, después del inglés y el mandarín. Se ha construido a partir del patrimonio documental digital de la Biblioteca Nacional de España, que rastrea y archiva las webs elaboradas en español, y se ha entrenado con el superordenador MareNostrum 4, ha sido necesaria una potencia de cálculo de 9,7 trillones de operaciones (969.exaflops). Un flop (operación de coma flotante) es la unidad de medida con que se expresa la capacidad de cálculo de un superordenador por segundo y exa es el prefijo que expresa 1018, es decir, un trillón.

Un modelo de lenguaje es un sistema de inteligencia artificial formado por conjunto de redes neuronales profundas que han sido entrenadas para adquirir una comprensión de la lengua, de su léxico y de sus mecanismos para expresar el significado y escribir a nivel experto. Estos modelos estadísticos complejos que relacionan palabras en textos de modo sistemático y masivo, son capaces de “entender” no sólo conceptos abstractos, sino también el contexto de los mismos. Con estos modelos, los desarrolladores de diferentes aplicaciones pueden crear herramientas para múltiples usos, como clasificar documentos o crear correctores o herramientas de traducción.

La primera versión de MarIA fue elaborada con RoBERTa, una tecnología que crea modelos del lenguaje del tipo “codificadores”. Este tipo de modelos, dada una secuencia de texto, generan una interpretación que puede servir para, por ejemplo, clasificar documentos, responder a preguntas tipo test, encontrar similitudes semánticas en diferentes redactados o detectar los sentimientos que se expresan en ellos.

La nueva versión ha sido creada con GPT-2, una tecnología más avanzada que crea modelos generativos decodificadores y añade prestaciones al sistema. Los modelos decodificadores, dada una secuencia de texto pueden generar nuevos textos. Con ello, pueden servir, por ejemplo, para hacer resúmenes automáticos, simplificar redactados complicados a la medida de diferentes perfiles de usuario, generar preguntas y respuestas, mantener diálogos complejos con los usuarios e incluso redactar textos completos (que podrían parecer escritos por humanos) a partir de un titular o de un pequeño número de palabras

Estas nuevas capacidades convierten a MarIA en una herramienta que, con entrenamientos “ad hoc” adaptados a tareas específicas, puede ser de gran utilidad para desarrolladores de aplicaciones, empresas y administraciones públicas.

Los últimos avances de MarIA constituyen un hito en la consecución de objetivos de la Estrategia Nacional de Inteligencia Artificial y del Plan de Recuperación, Transformación y Resiliencia, con los que España pretende liderar a nivel mundial el desarrollo de herramientas, tecnologías y aplicaciones para la proyección y uso de la lengua española en los ámbitos de aplicación de la IA. En concreto, el Plan Nacional de Tecnologías del Lenguaje en el que se enmarca este proyecto, tiene como objetivo fomentar el desarrollo del procesamiento del lenguaje natural, la traducción automática y los sistemas conversacionales en lengua española y lenguas cooficiales.

“Con proyectos como MarIA, que se verán incorporados al ‘PERTE para el desarrollo de una economía digital en español,’ damos pasos firmes hacia una inteligencia artificial que piense en español, lo que multiplicará las oportunidades económicas para las empresas y la industria tecnológica española”, ha señalado secretaria de Estado de Digitalización e Inteligencia Artificial, Carme Artigas.

En constante evolución
La versión actual de MarIA dará ahora lugar a versiones especializadas en distintas áreas de aplicación, incluyendo biomedicina y legal, y evolucionará para resolver los problemas específicos mencionados anteriormente.

En paralelo el PlanTL continuara expandiendo MarIA para adaptarse a los nuevos desarrollos tecnológicos en procesamiento del lenguaje natural (modelos mas complejos que el GP-T2 ahora implementado) entrenados con mayor cantidad de datos, crear espacios de trabajo para facilitar el uso de MarIA por compañías y grupos de investigación en los entornos computaciones adecuados y embeberlos en sistemas de evaluación y certificación de la calidad de los sistemas desarrollados en distintos dominios.