Datos limpios y optimizados, clave para una IA sostenible

  • Opinión
Tribuna_HPE Jorge Lorenzo 2

Los datos desordenados, erróneos o incompletos no solo dificultan que la inteligencia artificial alcance su máximo rendimiento, sino que también afectan negativamente a su sostenibilidad. Entonces, ¿por qué tantas organizaciones siguen sin prestar la atención necesaria a la optimización de los datos que alimentan sus modelos de inteligencia artificial?

Por Jorge Lorenzo, Channels & Ecosystem Technology Architect and Spain Customer Technology Center Leader, Hewlett Packard Enterprise

 

Una gestión ineficaz de los datos impacta directamente en el rendimiento de los procesos de IA y, además, contribuye a aumentar su huella ambiental. Este problema ha ampliado el debate sobre la posible crisis energética y los efectos del cambio climático ligados al auge de esta tecnología, llevándolo más allá del ámbito de investigadores y tecnólogos. Ahora, estas preocupaciones han comenzado a aparecer también en conversaciones cotidianas.

No es de extrañar, que exista un interés creciente en encontrar la forma de hacer estas herramientas más sostenibles, especialmente cuando se consideran los avances prometedores que la IA puede ofrecer en desafíos globales como la salud, la ciencia climática o la propia sostenibilidad. Sin embargo, mientras celebramos su enorme potencial, es crucial prepararnos para abordar los retos e inconvenientes que puedan surgir.

El impacto ambiental de la inteligencia artificial, en esencia, es fácil de entender, incluso para quienes no son expertos: los modelos de IA se ejecutan en ordenadores extremadamente potentes que requieren un consumo energético muy elevado. Y si no controlamos este consumo, la inteligencia artificial podría disparar las emisiones de carbono.

Para evitar que las organizaciones queden atrapadas en este dilema de sostenibilidad, es conveniente dividir el problema en cinco áreas clave. Estas áreas son la eficiencia de los equipos, la energética, la de recursos, la del software y la de los datos.

Dado que los datos son el eje central de las herramientas de IA, probablemente la eficiencia de datos sea el punto de partida más lógico para que las organizaciones optimicen los recursos que alimentan sus modelos.

 

Cómo abordar la eficiencia de datos en la IA

1. Define tu estrategia desde el principio. Lo primero es tener claro qué datos necesitas, de dónde los vas a obtener, con qué frecuencia se recopilarán y cómo se van a procesar (por ejemplo, qué modelos de IA vas a usar). También es importante decidir cómo se moverán entre sistemas, dónde se almacenarán y durante cuánto tiempo. Plantéate si es posible consolidar o eliminar algunos, o almacenarlos con técnicas de bajo impacto, como en cintas u otros métodos de respaldo. Los datos que no necesiten ser recuperados de inmediato pueden guardarse en medios que consuman menos energía.

2. Limpia los datos antes de empezar. En cargas de trabajo tradicionales, la eficiencia de datos solía centrarse en almacenar únicamente aquello que generara valor comercial. Pero en el caso de la IA, los conjuntos de datos deben estar bien dimensionados, limpios y optimizados antes de empezar a entrenar un modelo. Usar conjuntos de datos genéricos, o repositorios masivos, sin haberlos preparado previamente no solo supone un esfuerzo extra innecesario, sino que obliga a los modelos a trabajar más de lo que deberían.

3. Optimiza el conjunto de datos para el entrenamiento. Tener los datos optimizados desde el principio es esencial para garantizar la sostenibilidad de la IA. Una vez logrado esto, se puede afinar el modelo con datos específicos de los clientes. Si aplicas la eficiencia de datos desde las primeras fases del proceso y haces que el conjunto de datos sea lo más preciso y conciso posible, mejorarás la eficiencia en todo el flujo de trabajo.

4. Procesa los datos una sola vez. Los datos utilizados para el entrenamiento o ajuste deben procesarse solo una vez. Los reentrenamientos o ajustes posteriores deberían limitarse únicamente a los nuevos datos que se recopilen.

5. Evita acumular datos de mala calidad. En las cargas de trabajo de IA, gestionar y mantener los datos es especialmente crítico debido al gran volumen que requieren, incluidos los datos no estructurados. Una manera de reducir la presión sobre los sistemas de almacenamiento es eliminar los datos inexactos, erróneos, desactualizados o duplicados. La deuda de datos puede convertirse en un problema para los sistemas de IA, ya que los resultados de los modelos dependen directamente de la calidad de dichos datos.

6. La ubicación importa. Los datos deberían procesarse lo más cerca posible de su origen, para minimizar el impacto energético de su transferencia y garantizar una mayor rapidez en la obtención de información.