La IA agéntica se convierte en objetivo prioritario ante el auge de ciberataques indirectos
- Seguridad
Los ciberataques contra agentes de IA han aumentado de forma notable. Con ellos, los atacantes buscan principalmente extraer instrucciones internas y manipular el comportamiento del sistema. De cara a 2026, los expertos alertan de que la seguridad deberá abarcar todo el ciclo de funcionamiento del agente.
La evolución de los sistemas de inteligencia artificial hacia capacidades agénticas —como el uso de herramientas, la lectura de documentos o la consulta de fuentes externas— ha abierto una nueva superficie de ataque que los ciberdelincuentes están aprovechando con rapidez. Un análisis elaborado por Lakera confirma un cambio profundo en los patrones de amenaza y sitúa a los agentes de IA como un objetivo prioritario.
Según los datos recopilados tras un mes de monitorización de tráfico real, el 60% de los intentos detectados buscaba extraer el prompt del sistema. Esta información interna permite a los atacantes comprender los límites del modelo, su lógica de funcionamiento y las herramientas que utiliza, facilitando ataques posteriores más complejos.
Junto a ello, cerca del 20% de los incidentes se centraron en evadir los mecanismos de seguridad de contenido, mientras que un 12% correspondió a acciones exploratorias sin un objetivo inmediato, empleadas como fase de reconocimiento. También se registraron intentos de filtración de datos confidenciales e inyección de código malicioso, especialmente en entornos donde los agentes ya interactúan con información sensible o sistemas conectados.
El auge de los ciberataques indirectos
Uno de los hallazgos más relevantes del informe es el crecimiento de los ataques indirectos. En lugar de introducir instrucciones maliciosas de forma explícita, los ciberdelincuentes las ocultan en documentos, páginas web o contenidos externos que los agentes procesan como parte de su actividad habitual. Este enfoque requiere menos intentos para tener éxito y resulta más difícil de detectar, ya que el sistema interpreta el contenido como contexto legítimo.
Las técnicas más utilizadas incluyen escenarios hipotéticos, instrucciones camufladas, juegos de rol y marcos de autoridad falsos que inducen al modelo a actuar como si estuviera realizando pruebas internas o simulaciones. En muchos casos, ligeras variaciones en el lenguaje o el contexto bastan para provocar desviaciones en el comportamiento del agente.
El análisis también identifica ataques diseñados específicamente para sistemas con capacidades avanzadas: accesos no autorizados a repositorios internos, instrucciones ocultas en contenidos externos o fragmentos de texto con apariencia de scripts capaces de propagarse por flujos automatizados. Estas técnicas evidencian que los atacantes ya no buscan únicamente manipular respuestas, sino influir en todo el proceso de razonamiento y ejecución del agente.
“Estamos entrando en una etapa en la que la seguridad de la IA ya no puede centrarse únicamente en el contenido que genera el modelo”, advierte David Haber, CEO de Lakera. “Cuando un sistema empieza a leer documentos, consultar fuentes externas o ejecutar acciones, cada uno de esos pasos se convierte en una posible superficie de ataque”.
De cara a 2026, el informe subraya la necesidad de adoptar un enfoque preventivo e integral, que proteja no solo el modelo, sino también las fuentes externas, las herramientas conectadas y la forma en que se combinan los distintos contextos. Asimismo, destaca la importancia de alinearse con marcos internacionales como el OWASP Top 10 para aplicaciones basadas en modelos de lenguaje y de tratar los agentes de IA como componentes críticos dentro de la arquitectura digital de las organizaciones.