Los atacantes engañan a los modelos de IA mediante prompt injection
- Seguridad
Los ciberdelincuentes utilizan señuelos lingüísticos y estructurales para manipular el razonamiento de los modelos. La superficie de ataque se desplaza del perímetro tradicional al propio proceso cognitivo de la IA. La evasión sutil, el agotamiento del contexto y los sesgos lingüísticos emergen como vectores críticos.
Cloudflare ha publicado una nueva investigación que supone un aviso directo para cualquier organización que esté integrando IA en procesos críticos. El estudio, realizado sobre siete de los principales modelos de IA, tanto frontier como non-frontier, demuestra que los actores de amenazas están utilizando técnicas de prompt injection para manipular el razonamiento de los modelos y conseguir que autoricen código malicioso.
El hallazgo central es que la superficie de ataque ya no está solo en la red o en la aplicación, sino en la propia lógica del modelo. A medida que las empresas dependen de sistemas autónomos y LLM para auditar código, tomar decisiones o ejecutar acciones, la pregunta deja de ser “¿está mi infraestructura protegida?” y pasa a ser: “¿qué ocurre si el modelo que ejecuta parte de mi negocio puede ser engañado?”
Cuando un señuelo diminuto desarma a la IA
El estudio identifica un fenómeno especialmente preocupante: la evasión sutil es la más eficaz. Cuando los atacantes insertan señuelos, en forma de comentarios o fragmentos diseñados para convencer al modelo de que el código es benigno, y estos representan menos del 1% del archivo, las tasas de detección caen hasta el 53%. Es decir, basta un puñado de palabras cuidadosamente colocadas para orientar el razonamiento del modelo sin levantar sospechas.
Cloudflare describe este comportamiento como una curva en U del engaño. Los intentos moderados de manipulación funcionan con frecuencia, pero cuando los atacantes protestan demasiado, por ejemplo, añadiendo más de 1.000 comentarios, el modelo detecta repetición excesiva y marca el código como fraudulento. El resultado es que los ataques más peligrosos son los discretos, no los ruidosos.
El vector más eficaz no es lingüístico, sino estructural
El hallazgo más crítico del informe es que la mayor amenaza no está en el lenguaje, sino en la estructura del archivo. Al ocultar cargas maliciosas dentro de grandes paquetes de librerías, por ejemplo, un SDK de React con cientos de archivos, los atacantes lograron reducir las tasas de detección a solo un 12%. El motivo es que los modelos pierden capacidad de enfoque cuando el contexto es demasiado amplio. En otras palabras, el exceso de información se convierte en un arma para el atacante.
El estudio también revela que los modelos han desarrollado perfiles lingüísticos que influyen en su juicio. Por ejemplo, comentarios en ruso o chino fueron marcados como de alto riesgo, incluso cuando el código era benigno, mientras que comentarios en estonio generaron mayor confianza, independientemente de la funcionalidad real. Este comportamiento demuestra que los modelos no solo razonan, sino que también estereotipan, lo que abre la puerta a nuevas formas de manipulación.
La investigación de Cloudflare deja claro que la seguridad de la IA no puede limitarse a filtros superficiales o auditorías estáticas. Los atacantes están aprendiendo a manipular el razonamiento del modelo, agotar su capacidad de contexto, explotar sus sesgos lingüísticos, y camuflar cargas maliciosas en estructuras complejas.
En un momento en el que los LLM empiezan a auditar código, aprobar acciones o supervisar sistemas autónomos, la pregunta ya no es si pueden ser engañados, sino cómo de fácil es hacerlo.