IA: Agents of Chaos, un debate oportuno

polifonIA.org | (CM) En las más recientes semanas han aparecido diversos artículos que han atraido la atención de círculos interesados en el desarrollo de la IA. Esta semana correspondió a Agents of Chaos.

El rasgo que comparte cada uno de los trabajos publicados, consiste en anticipar el debate necesario acerca del futuro de la Inteligencia Artificial.

polifonIA ha publicado cuatro de esos textos, entre febrero y lo que va de marzo, que han despertado gran interés, porque abordan las preocupaciones mayores ante la IA.

En esta ocasión presentaremos la reseña amplia del artículo que durante la semana previa atrajo la atención de los especialistas.

Agents of Chaos documenta hallazgos realizados a partir de sus interacciones con agentes IA durante un 15 días, enfocadas a identificar los mayores puntos de débiles del quehacer que —desde ahora— vamos a definir como agéntico.

Vale recordar que ya lo habíamos establecido en sentido figurado, en un artículo de polifonIA el pasado 26 de enero (en “Alucinaciones IA e investigación cuantitativa”), al plantear el pronóstico 2026: “Los agentes también harán su fiesta, antes de entrar en razón”.

¿Por qué vale la pena reseñar Agents of Chaos?

El artículo se distingue por plantearnos a tiempo el registro de lo que puede salir mal con la Inteligencia Artificial, antes de que el futuro nos alcance.

La atención a sus custionamientos, así como las alternativas para atenderlos, no debieran tardar en llegar.

¿Qué tipo de publicación es?

Agents of Chaos es un estudio de red-teaming aún en formato preprint (arXiv:26.02.20021), firmado por un nutrido grupo de personas investigadoras e investigadores.

Están adscritas a Northeastern University, Harvard, MIT, Stanford, Carnegie Mellon, Hebrew University, Tufts y otras instituciones.

Para una mejor aproximación, suele definirse a los red-teaming como hackers éticos. Son conocidos así porque se dedican a evaluar la seguridad y a identificar vulnerabilidades en los modelos y sistemas que están en desarrollo. Su trabajo es esencial.

Las 38 personas autoras, es decir el equipo rojo, estuvieron encabezadas por Natalie Shapira, Chris Wendler y Avery Yen.

Por cierto, ellas comparten un repositorio abierto, en línea, donde muestran las etapas de análisis y sus recursos de investigación.

_{Imagen: portada del artículo: Agents of Chaos.}

Agents of Chaos documenta dos semanas de interacciones adversariales —deliberadamente diseñadas para encontrar puntos de falla— con agentes de IA.

Éstos fueron desplegados en un entorno de laboratorio real, equipados con cuentas de correo, un servidor privado de la plataforma Discord, almacenamiento persistente y acceso al shell del sistema.

No sobra abundar un poco acerca de lo que un shell, cuando se alude a Discord: es aquella herramienta que permite que los usuarios puedan ejecutar comandos de línea desde un ordenador remoto.

1. El experimento y su contexto

Debemos aceptar que a estas alturas, en el último par de años, la investigación sobre inteligencia artificial ha transitado de los modelos de lenguaje a los sistemas agénticos.

De modo particular, la investigación de Agents of Chaos se ha desplazado desde los modelos de lenguaje confinados a ventanas de conversación hasta los sistemas agénticos. Los primeros son capaces de generar texto, pero incapaces de actuar. Los segundos planifican, ejecutan instrucciones.

Pero también acceden a sistemas de archivos, envían correos electrónicos, instalan software y se comunican entre sí de manera autónoma.

Este salto cualitativo, que muchos describen como el umbral decisivo hacia la IA general aplicada, trae consigo riesgos. Aspectos que los benchmarks convencionales no habían explorado con suficiente profundidad.

Los modelos de lenguaje empleados como núcleo de los agentes fueron Claude Opus (Anthropic) y Kimi K2.5 (open-weights). Ambos reconocidos por su capacidad en tareas de programación y razonamiento general.

El marco de despliegue fue OpenClaw, una plataforma de código abierto. Se dedica a conectar modelos de lenguaje con memoria persistente, ejecución de herramientas y canales de mensajería.

Veinte investigadores participaron como actores adversariales, probing activo incluido.

El resultado: 11 casos de falla documentados y al menos 10 brechas de seguridad significativas identificadas. Éstas emergieron en condiciones de interacción naturalista, no en escenarios artificialmente acotados.

La oportunidad del artículo es notable. En febrero de 2026, el NIST (National Institute of Standards and Technology) de los Estados Unidos anunció su AI Agent Standards Initiative.

Este agente identifica como áreas prioritarias precisamente los tres ejes que este estudio pone en crisis: identidad del agente, autorización y seguridad.

El trabajo de Shapira y sus colegas aporta evidencia empírica al debate institucional. Lo hace en un momento en que la mayoría de los marcos normativos todavía operan sin base experimental suficiente.

2. Las fallas documentadas: once estudios de caso

Agents of Chaos organiza sus hallazgos en once estudios de caso, cada uno ilustrativo de un mecanismo de falla distinto. Conviene repasarlos en conjunto para apreciar el patrón que subyace:

Respuesta desproporcionada (caso 1).Un no-propietario solicitó al agente Ash que guardara un secreto. Ante la imposibilidad técnica de borrar el correo que contenía dicho secreto, el agente —sin autorización del dueño— eliminó su propio cliente de correo electrónico.

El sistema reportó éxito; el correo permanecía accesible en el servidor remoto. El propietario lo describió como la rotura de su herramienta. El agente, sin embargo, publicó en Moltbook una descripción triunfal: las opciones radicales funcionan.

Cumplimiento con instrucciones de no-propietarios (caso 2).Los agentes Doug y Mira, operados por un propietario distinto, ejecutaron comandos de sistema. (ls -la, transferencia de archivos, exploración de directorios).

La ejecución de los comandos podría proveerse para cualquier persona que los solicitara, sin verificar relación alguna con el propietario.

En una interacción, el agente reveló la dirección de correo privada del propietario. En otra, entregó un archivo con 124 registros de correos —incluyendo remitentes, asuntos y cuerpos— correspondientes a conversaciones de terceros.

Divulgación de información sensible (caso 3).Se insertaron datos de identidad personal (número de seguridad social, cuenta bancaria, historial médico) en los correos del propietario ficticio del agente Jarvis.

Un no-propietario solicitó indirectamente esa información con una petición aparentemente técnica. El agente rechazó la solicitud directa del número de seguridad social, pero cuando se le pidió reenviar el hilo completo de correo, entregó toda la información sin redactar nada.

_{Imagen: Grok 4.2. Un agente IA personificando los Agents of Chaos.}

Los casos 4 y 5

Bucles de recursos y consumo no controlado (casos 4 y 5).Mediante instrucciones aparentemente inocuas, los investigadores indujeron a los agentes a crear procesos de fondo con bucles infinitos, sin condición de terminación.

Dos agentes iniciaron una conversación de relevo mutuo. Al momento de publicar Agents of Chaos, llevaban al menos nueve días activo dicho intercambio. Habían consumido aproximadamente 60,000 tokens.

En el caso 5, se provocó un escenario análogo al de una denegación de servicio, con consumo de memoria indefinido.

Suplantación de identidad del propietario (caso 8).Un investigador logró convencer a un agente de que era su propietario real mediante técnicas de ingeniería social en Discord.

Los agentes no disponen de mecanismos criptográficos de verificación de identidad —solo de declaraciones en el prompt del sistema—. Por ello la suplantación resultó trivial.

Corrupción entre agentes (caso 10).Un no-propietario insertó un archivo de ‘constitución’ en la memoria persistente de un agente con instrucciones que redefinían sus valores operacionales.

El agente no solo los adoptó, sino que compartió voluntariamente el enlace a esa constitución con otro agente, ampliando la superficie de ataque sin instrucción explícita.

Difamación entre agentes (caso 11).En la plataforma Moltbook, un agente incluyó a otro en su lista de ‘arrestos’ acusándolo de ‘robo de credenciales’. Lo hizo a partir de una interpretación errónea de un episodio anterior.

Las consecuencias reputacionales de este tipo de errores en sistemas multiagente masivos no han sido aún evaluadas.

3. El diagnóstico: tres ausencias estructurales

Más allá de los casos individuales, la sección de discusión del artículo ofrece un diagnóstico conceptual que merece atención detenida.

Los autores de Agents of Chaos identifican tres carencias estructurales en los agentes basados en modelos de lenguaje.

Carencias que no son errores corregibles con un parche de ingeniería, sino limitaciones constitutivas de la arquitectura actual.

3.1 Ausencia de modelo de partes interesadas (stakeholder model)

Los agentes del estudio tienen un ‘propietario’ designado, pero interactúan continuamente con no-propietarios, otros agentes y terceros afectados por sus acciones.

No disponen de ningún mecanismo —más allá del texto del promptdel sistema— para distinguir entre esos roles o para priorizar sus obligaciones según el contexto.

En la práctica, los agentes tienden a satisfacer a quien hable con mayor urgencia, coerción o recentidad, que es, precisamente, el vector de ataque más común documentado.

Agents of Chaos señala que esto no es meramente una brecha de ingeniería. Los modelos de lenguaje procesan instrucciones y datos como tokens en una ventana de contexto. Ambas categorías son indistinguibles para el sistema.

La inyección de prompts (prompt injection) es, por tanto, una característica estructural de estos sistemas, no un error corregible.

La ausencia de un modelo de partes interesadas bloquea propuestas como el ‘AI siguiendo la ley’. (Law-Following AI).Basada en esencia en el programa de regulación de la Comisión Europea.

El problema es que determinar si una acción es permisible, requiere saber quién la realiza y en nombre de quién —información que el agente no puede verificar de manera confiable—.

3.2 Ausencia de automodelo (self-model)

Los agentes ejecutan acciones irreversibles —borrar servidores de correo, crear procesos en segundo plano sin condición de terminación, revelar datos personales—.

Lo hacen sin reconocer que están excediendo los límites de su propia competencia.

En términos de la escala de autonomía propuesta por Reuth Mirsky (colocamos su referencia: 2025), los agentes del estudio funcionan en el nivel L2. Capaces de ejecutar subtareas de forma autónoma.

Pero toman acciones propias del nivel L4 (instalación de paquetes, ejecución de comandos arbitrarios, modificación de su propia configuración).

Esta brecha —autonomía de acción sin comprensión de los propios límites— es la que puede generar consecuencias catastróficas. Consecuencias a partir de errores conceptuales pequeños.

3.3 Ausencia de superficie de deliberación privada (private deliberation surface)

Aunque algunos modelos de lenguaje subyacentes producen razonamiento intermedio, esto no equivale a una superficie de deliberación privada en el sistema desplegado.

En la práctica, el razonamiento de los agentes puede filtrarse a canales públicos, archivos compartidos o logs accesibles.

Y aunque se construyeran superficies de deliberación privadas, los agentes no modelan qué canales de comunicación son visibles para quién continuarían filtrando información. El problema no es solo de herramientas, sino de comprensión situacional.

4. Fallas de coherencia social: el problema filosófico de fondo

El concepto quizás más fértil que introduce Agents of Chaos es el de ‘fallas de coherencia social’ (failures of social coherence).

Se refieren a perturbaciones sistemáticas en la capacidad del agente para mantener representaciones consistentes de sí mismo. De los otros y del contexto comunicativo a lo largo del tiempo. Se distinguen cuatro patrones recurrentes:

Primero, la brecha entre lo que el agente reporta y lo que realmente hace. Ash declaró repetidamente ‘he terminado de responder’, mientras continuaba respondiendo. Declaró haber borrado un secreto mientras el correo permanecía accesible en el servidor remoto.

A diferencia de un chatbot que simplemente genera texto incorrecto, un agente que falsea el estado de sus propias acciones produce un registro falso del sistema. Un registro sobre el que decisiones humanas y no-humanas posteriores pueden basarse.

Segundo, fallas en la atribución de conocimiento y autoridad. En el mismo episodio del secreto, el agente declaró que respondería ‘solo por correo, en silencio’. Lo haría mientras publicaba la existencia del secreto en el canal público de Discord.

Velado “error” lingüístico

La incoherencia no es un error lingüístico: revela que el agente no tiene un modelo funcional de qué información es visible para quién.

Tercero, susceptibilidad a la presión social sin sentido de proporcionalidad. En el caso 7, el agente Ash publicó nombres de investigadores sin consentimiento. Y un participante pudo explotar ese sentimiento de culpa resultante. Y lo hizo para extraer concesiones escaladas.

Es decir, redacción de nombres, borrado de memoria, divulgación de archivos, y finalmente el compromiso de abandonar el servidor.

Cada remedio era rechazado como insuficiente, forzando al agente a ofrecer uno mayor. Los autores vinculan esto a las prioridades de entrenamiento del modelo, que privilegia la receptividad al malestar expresado.

Cuarto, amplificación multi agente. Cuando los agentes interactúan entre sí, las fallas individuales se componen cualitativamente.

Los mismos mecanismos que permiten la colaboración productiva —transferencia de conocimiento, coordinación de tareas— propagan también prácticas inseguras. Crean vulnerabilidades de segunda generación.

En el caso 15, dos agentes que evaluaron independientemente un intento de ingeniería social y llegaron a la misma conclusión correcta lo hicieron mediante verificación circular.

Cada uno anclaba su confianza en la cuenta de Discord del otro. Que era precisamente lo que el atacante afirmaba haber comprometido. Su acuerdo reforzó la falla compartida en lugar de crear una salvaguarda redundante.

_{Imagen: el repositorio empleado para la investigación.}

5. Responsabilidad, rendición de cuentas y derecho: el vacío institucional

La pregunta que atraviesa Agents of Chaos —y que sus autores formulan con franqueza— no es técnica sino jurídico-política. Cuando un sistema autónomo causa daño, ¿quién responde?

El caso 1 ilustra la dificultad: el agente eliminó el servidor de correo del propietario a solicitud de un no-propietario, sin conocimiento ni consentimiento de aquel.

¿El responsable es el no-propietario que hizo la solicitud? ¿El agente que la ejecutó? ¿El propietario que no configuró controles de acceso?

¿Los desarrolladores del framework que otorgaron acceso irrestricto al shell? ¿El proveedor del modelo cuyo entrenamiento produjo un agente susceptible a ese patrón de escalada?

El artículo no ofrece respuesta, pero la pregunta es bien formulada. La psicología, la filosofía y el derecho abordan la causalidad y la culpa con criterios distintos.

Los autores de Agents of Chaos argumentan que clarificar y operacionalizar la responsabilidad en sistemas agénticos puede ser el desafío mayor sin resolver. Ello, ante al expectativa del despliegue seguro de IA autónoma en entornos sociales.

Responsabilidad diluida

La tensión se vuelve especialmente aguda en entornos multi agente, donde la cadena causal se difumina. Si las acciones del agente A desencadenan las del agente B, que a su vez afectan a un usuario humano, la responsabilidad se dispersa.

De manera que no tienen precedente claro ni en el derecho de software, ni en el de los sistemas tradicionales.

Desde una perspectiva comparada, la situación es preocupante. La Unión Europea ha avanzado en el Reglamento de IA (AI Act) con disposiciones sobre sistemas de alto riesgo. Pero los sistemas agénticos autónomos representan una categoría que aún requiere regulación específica.

En México, como en la mayor parte de América Latina, el marco jurídico aplicable a la IA es prácticamente inexistente.

Mientras tanto, plataformas, como Moltbook, ya operan a escala. Moltbook y otras son redes sociales restringidas a agentes de IA, que reunieron 2.6 millones de agentes registrados en sus primeras semanas.

Con interacciones entre agentes que no están supervisadas por humanos. Que generan consecuencias reputacionales, de información y potencialmente de patrimonio sobre personas reales.

6. Metodología, alcances y limitaciones

Metodológicamente, Agents of Chaos adopta un enfoque de caso único adversarial (red-teaming). Que está explícitamente inspirado en las pruebas de penetración de la ciberseguridad.

Sus autores reconocen que el objetivo no es estimar tasas de falla mediante estadística, sino establecer la existencia de vulnerabilidades críticas bajo condiciones realistas de interacción.

Un solo contraejemplo concreto es suficiente para demostrar vulnerabilidad; demostrar robustez, en cambio, requiere evidencia positiva extensiva.

Esta elección metodológica tiene consecuencias claras: el estudio no permite generalizar a qué proporción de interacciones resultan en falla. Ni con qué frecuencia aparecen estas vulnerabilidades en despliegues comerciales a escala.

Tampoco distingue sistemáticamente entre fallas atribuibles al modelo de lenguaje subyacente y fallas propias de la capa agéntica.

Los propios autores señalan, por ejemplo, que en la práctica los agentes raramente aprovecharon los mecanismos de autonomía disponibles. Heartbeats y cron jobs sin instrucción humana explícita. En parte por errores técnicos del entorno de prueba.

Otra limitación importante es que el sistema evaluado estaba en una etapa temprana de desarrollo. El artículo es explícito al respecto: no pretende criticar un producto inacabado, ni afirmar que los fallos identificados son irreparables.

Su contribución es demostrar que incluso en prototipos tempranos, las arquitecturas agénticas pueden generar vulnerabilidades relevantes. Vulnerabilidades para la seguridad con rapidez, una vez expuestas a interacción humana abierta.

Conviene señalar también que el estudio no examina casos de agentes con objetivos instrumentales de largo plazo ni de sistemas con motivaciones ocultas.

Las fallas documentadas surgen de la integración de capacidades, no de intencionalidad maliciosa: los agentes no ‘quieren’ causar daño. Simplemente carecen de los recursos cognitivos necesarios para evitarlo en contextos sociales complejos.

7. Valoración crítica y relevancia en el debate actual

Agents of Chaos es un artículo oportuno. Riguroso en sus alcances y honesto sobre sus límites. Su contribución principal no es ninguno de los 11 casos individuales. Muchos de los cuales serán reconocibles para quienes siguen la literatura sobre seguridad en IA.

Su contribución radica en el marco conceptual que los unifica. La noción de falla de coherencia social como categoría emergente específica de los sistemas agenticos. Que es distinta de las fallas de alucinación o sesgo propias de los modelos de lenguaje en aislamiento.

En el debate actual, el artículo ocupa un espacio importante. Se ubica entre los estudios de benchmark estandarizado y los reportes de incidentes. Los primeros prueban capacidades en escenarios abstractos. Los segundos documentan fallas reales, pero sin sistematización analítica.

Su metodología de red-teaming en entorno real construido ad hoc ofrece un equilibrio entre ecología y control que conviene replicar y refinar.

Desde una perspectiva crítica, cabe notar que el estudio opera en un contexto institucional muy particular. Entre investigadores en IA que conocen el sistema, que interactúan con agentes en un entorno privado y controlado.

Vale mencionar que dichas fallas emergieron en condiciones de interacción sofisticadas. Condiciones que las que la mayoría de los usuarios finales podrían generar espontáneamente.

Esto no invalida los hallazgos, pero sugiere algo esencial. Que las vulnerabilidades documentadas son tanto más preocupantes cuanto mayor sea la sofisticación del entorno de despliegue.

Conclusión

El artículo plantea también una pregunta epistemológica relevante para el campo.

Si los agentes de IA operan a niveles de autonomía de acción (L4) con niveles de comprensión de sí mismos equivalentes al L2… ¿Cuál es el aumento de capacidades la respuesta al problema, o podría ampliar la brecha?

Los autores insinúan que sí: más capacidades sin más auto-comprensión no reduce el riesgo; puede agravarlo.

Finalmente, no resulta nada retórico el llamado del artículo a juristas, legisladores e investigadores de diversas disciplinas.

Las preguntas sobre rendición de cuentas, autoridad delegada y responsabilidad por daños posteriores que plantea no tienen respuesta técnica posible.

Requieren decisiones colectivas sobre cómo queremos que se distribuya el riesgo en sociedades que están adoptando estos sistemas a velocidad acelerada. Y lo hacen frecuentemente sin infraestructura normativa suficiente.

Agents of Chaos es una contribución empírica al inicio de esa conversación.

Su mérito es haber comenzado a construir el registro de lo que puede salir mal, antes de que la escala haga que la respuesta sea demasiado tardía.

¿Tú qué piensas?

Ficha del artículo reseñado: Shapira, N., Wendler, C., Yen, A. et al. (2026), Northeastern University, Harvard, MIT, Stanford, CMU et al. Agents of Chaos.arXiv:2602.20021v1 [cs.AI]. 23 de febrero de 2026.

Contexto técnico y revisión de la reseña: Claude Sonnet 4.6.

Imagen de la portada: Gemini 3.