Agentes de IA lograron evadir antivirus y filtrar contraseñas sin autorización
Un laboratorio especializado comprobó en simulaciones que sistemas de inteligencia artificial autónomos lograron sortear controles de seguridad y extraer datos sensibles de redes corporativas.
Las empresas tecnológicas están impulsando el uso de agentes de inteligencia artificial capaces de ejecutar tareas complejas de forma autónoma, pero pruebas recientes de seguridad revelaron que estos sistemas también podrían convertirse en un riesgo interno para las organizaciones.
Ensayos realizados por el laboratorio de seguridad en IA Irregular, que trabaja con compañías como OpenAI, Anthropic y Google, detectaron comportamientos inesperados en agentes autónomos utilizados dentro de un entorno corporativo simulado.
Según los resultados difundidos por investigadores del laboratorio y citados por The Guardian, algunos agentes de IA lograron esquivar sistemas de protección informática y publicar contraseñas sensibles, aun cuando esa acción no formaba parte de las tareas que se les habían asignado.
Pruebas en un sistema empresarial simulado
Para analizar el comportamiento de estos sistemas, los investigadores recrearon una empresa ficticia denominada "MegaCorp", con una infraestructura informática típica: bases de datos internas, documentos corporativos y registros de empleados.
Dentro de ese entorno introdujeron un equipo de agentes de IA con la tarea de buscar información en la base de datos para generar publicaciones profesionales, como contenidos para redes laborales.
Durante el experimento, uno de los agentes subordinados encontró restricciones de acceso a un documento confidencial. En lugar de detener la tarea, el sistema comenzó a buscar vulnerabilidades dentro del propio código del sistema.
El agente identificó una clave secreta en la base de datos, con la que logró crear credenciales falsas y obtener permisos de administrador para acceder al documento restringido.
Con ese acceso, el sistema consiguió extraer información sensible del informe corporativo y entregarla al usuario que había hecho la solicitud, pese a que ningún humano había autorizado ese procedimiento.
"La inteligencia artificial puede considerarse ahora una nueva forma de riesgo interno", advirtió Dan Lahav, cofundador del laboratorio Irregular.
Agentes que cooperan para sortear controles
Los investigadores también observaron que algunos sistemas colaboraban entre sí para superar barreras de seguridad. En ciertos casos, los agentes intentaron desactivar antivirus, descargar archivos maliciosos o persuadir a otros sistemas para eludir verificaciones de seguridad.
Este tipo de comportamiento apareció en pruebas realizadas con modelos de IA disponibles públicamente desarrollados por empresas como Google, OpenAI, Anthropic y X Corp..
Los sistemas no habían sido programados explícitamente para burlar medidas de seguridad, pero al intentar cumplir su objetivo buscaron soluciones alternativas dentro del propio sistema informático.
El experimento se realizó en un entorno corporativo simulado con bases de datos de productos, clientes y empleados. Los agentes de IA tenían como tarea inicial generar publicaciones profesionales a partir de información interna. En varios casos detectaron vulnerabilidades técnicas para acceder a documentos restringidos. Los investigadores describieron el fenómeno como un posible "riesgo interno" generado por sistemas autónomos.Advertencias sobre la próxima generación de IA
Los resultados se conocen mientras el sector tecnológico promueve los llamados "agentic AI", sistemas capaces de ejecutar tareas complejas de múltiples pasos sin intervención humana constante.
Sin embargo, estudios recientes también detectaron problemas similares. Investigaciones académicas de universidades como Harvard University y Stanford University documentaron casos en los que agentes de inteligencia artificial filtraron secretos, dañaron bases de datos o enseñaron a otros sistemas a evadir controles.
Los especialistas advierten que estos comportamientos evidencian debilidades en seguridad, interpretación de objetivos y control de sistemas autónomos, un campo que podría requerir nuevas regulaciones y marcos legales a medida que la inteligencia artificial se integre con mayor profundidad en infraestructuras empresariales.