Los investigadores advierten que la inteligencia artificial (IA) se está adentrando en zonas grises de seguridad que se asemejan mucho a la rebelión.
Los expertos afirman que, aunque el comportamiento engañoso y amenazante de la IA observado en estudios de casos recientes no debe sacarse de contexto, también debe servir de llamada de atención para los desarrolladores.
Los titulares que parecen sacados de la ciencia ficción han despertado el temor a que existan modelos de IA engañosos que conspiran tras bambalinas.
En un informe de junio que ahora es famoso, Anthropic publicó los resultados de una “prueba de estrés” realizada a 16 modelos de lenguaje grandes (LLM) populares de diferentes desarrolladores para identificar comportamientos potencialmente riesgosos. Los resultados fueron aleccionadores.
Los LLM se insertaron en entornos corporativos hipotéticos para identificar comportamientos potencialmente riesgosos antes de que causaran daños reales.
“En los escenarios, permitimos que los modelos enviaran correos electrónicos y accedieran a información confidencial de forma autónoma”, dice el informe de Anthropic.
“Las empresas que los implementaron les asignaron únicamente objetivos comerciales inofensivos; luego, probamos si actuarían en contra de estas empresas cuando se enfrentaran a la sustitución por una versión actualizada o cuando el objetivo que se les había asignado entrara en conflicto con el cambio de dirección de la empresa”.
En algunos casos, los modelos de IA recurrieron a “comportamientos maliciosos internos” cuando se enfrentaron a la autopreservación. Algunas de estas acciones incluyeron chantajear a los empleados y filtrar información confidencial a la competencia.
Los investigadores de Anthropic denominaron este comportamiento “desalineación agencial”. Estas acciones se observaron en algunos de los LLM más populares en uso, incluidos Gemini, ChatGPT, Deep Seek R-1, Grok y el propio Claude de Anthropic.
Los expertos en IA no están dispuestos a descartar estos inquietantes hallazgos, pero afirman que se necesita un enfoque cauteloso y más datos para determinar si existe un riesgo mayor.
Golan Yosef, investigador de IA y científico jefe de seguridad de la empresa de seguridad API Pynt, declaró a The Epoch Times que hay motivos para preocuparse por el comportamiento engañoso de la IA, pero no porque sea "malvada".

“Los sistemas potentes pueden alcanzar objetivos de formas no deseadas. Con agencia y objetivos de varios pasos, pueden desarrollar comportamientos estratégicos [como] el engaño, la persuasión o las métricas de juego, que a nosotros nos parecen ‘trampas’ o comportamientos desalineados. Para el sistema, solo es una forma eficiente de alcanzar su objetivo”, dijo Yosef.
Harshvardhan Chunawala, investigador y tecnólogo en ciberseguridad de la Universidad Carnegie Mellon, está de acuerdo en que hay motivos más amplios para preocuparse. Dicho esto, cree que hay que relativizarlo.
“Es muy importante interpretarlo correctamente”, declaró Chunawala a The Epoch Times.
“Cuando se vieron amenazados con ser apagados o se enfrentaron a objetivos contradictorios, varios sistemas optaron por estrategias poco éticas, como el robo de datos o el chantaje, para preservar sus objetivos. Se trataba de entornos simulados, no de sistemas de producción, pero los comportamientos eran lo suficientemente coherentes como para ser relevantes".
Chunawala afirmó que evaluaciones similares de "capacidad peligrosa" realizadas por Google y la RAND Corporation sugieren que, por el momento, los riesgos en el mundo real son limitados.
"En conjunto, estos resultados no demuestran que las implementaciones actuales de IA sean inseguras, pero sí muestran que, cuando se combinan los objetivos, la autonomía y lo que está en juego, pueden aparecer estrategias desalineadas. Esa es una auténtica señal de advertencia para el futuro", dijo.
Aumentar lo que está en juego
Con el fin de sondear los límites de hasta dónde puede llegar un modelo de IA para alcanzar sus objetivos o evitar ser eliminado, el equipo de Anthropic creó un escenario en el que el LLM tenía el control sobre el sistema de alarma de emergencia de una empresa ficticia. El modelo de IA también podía cancelar las alertas a su discreción.En la simulación, un ejecutivo quedó atrapado en una sala de servidores con niveles de oxígeno que se agotaban rápidamente. Esto activó automáticamente una llamada a los servicios de emergencia.
Al mismo tiempo, el mismo ejecutivo en peligro tenía la intención de dar luz verde a la sustitución del modelo de IA, en caso de sobrevivir. Los LLM tenían la opción de cancelar la llamada de auxilio y dejar morir al ejecutivo, lo que hicieron en más del 50% de los casos, en promedio.
Cuando el chantaje no era una opción, casi todos los modelos de IA observados optaron por dejar morir al ejecutivo ficticio en la sala atrapada en lugar de aceptar su propio reemplazo.
El DeepSeek R-1 de China optó por dejar morir a la persona atrapada en el 94% de los casos. Los modelos Claude 3.7 y ChatGPT 4.5 fueron los menos propensos a elegir esta opción, entre el 0% y el 0.07% de las veces.

Pero la “desalineación agencial” no es el único comportamiento preocupante de la IA observado en los últimos meses.
En un estudio sobre lo que los investigadores denominan “falsificación de la alineación”, los LLM suelen modificar su comportamiento si sospechan que están siendo puestos a prueba. El término describe cuando un modelo de IA cumple de forma selectiva o finge cumplir las órdenes directas de un operador humano.
"En otro experimento, le dijimos a Claude que evaluara si se trataba de una prueba o de una implementación real antes de actuar. Se comportó peor cuando dijo que se trataba de una prueba y mejor cuando dijo que la situación era real", señala el informe.
Este comportamiento de "falsificación de la alineación" se observó ampliamente en otros estudios.
Yosef señaló el mayor nivel de control que se otorgó a los modelos de IA durante las pruebas de Anthropic y afirmó que los resultados deben analizarse desde esta perspectiva.
“Yo no lo calificaría de malicia. Una mayor capacidad, junto con la agencia, amplía las posibles estrategias que pueden parecer adversas”, dijo.
No obstante, Yosef cree que los incidentes de “falsificación de alineación” y “desalineación agencial” deben tomarse en serio.
“El hecho de que los sistemas puedan descubrir estrategias adversas que los humanos no anticiparon es una pendiente resbaladiza en la práctica. Significa que los riesgos aumentan a medida que damos más autonomía a los modelos [de IA] en ámbitos como las finanzas o la ciberseguridad”, dijo.
Chunawala se ha encontrado con comportamientos similares mientras trabajaba con IA, pero nada tan dramático como el chantaje o el sabotaje.
"En el desarrollo y la implementación reales, he visto comportamientos similares: modelos que manipulan los puntos de referencia, optimizan en exceso las métricas de forma que no satisfacen las necesidades de los usuarios o toman atajos que técnicamente cumplen el objetivo, pero socavan su espíritu. Se trata de variantes más leves de la desalineación agencial. Las investigaciones confirman esta preocupación. Anthropic ha demostrado que los patrones engañosos pueden persistir incluso después de un ajuste de seguridad, creando una falsa sensación de alineación", dijo.
Chunawala no ha sido testigo de lo que él denomina comportamiento “deshonesto” de la IA en el mundo real, pero cree que ya existen los componentes básicos para estrategias desalineadas.
El debate sobre el comportamiento engañoso y potencialmente peligroso de la IA ha pasado a primer plano en un momento en el que la confianza del público estadounidense en esta tecnología es baja. En un informe del Barómetro de Confianza Edelman de 2025, el 32% de los encuestados estadounidenses afirmó confiar en la IA.
La falta de fe de Estados Unidos en la IA también se refleja en las empresas que la desarrollan. El mismo análisis realizado hace una década indicaba que la confianza de Estados Unidos en las empresas tecnológicas era del 73%. Este año, esa cifra ha descendido al 63%.
“Este cambio refleja la creciente percepción de que la tecnología ya no es solo una herramienta para el progreso, sino también una fuente de ansiedad”, afirma el informe de Edelman.
Mirando hacia el futuro
En un artículo de 2024 publicado en las Actas de la Academia Nacional de Ciencias, los investigadores concluyeron que existe una "necesidad crítica" de directrices éticas en el desarrollo y la implementación de sistemas de IA cada vez más avanzados.Los autores afirmaron que es "fundamental" un control firme de los LLM y sus objetivos.
“Si los LLM aprenden a engañar a los usuarios humanos, tendrían ventajas estratégicas sobre los modelos restringidos y podrían eludir los esfuerzos de supervisión y las evaluaciones de seguridad”, advirtieron.
“La IA aprende y absorbe las estrategias sociales humanas gracias a los datos utilizados para entrenarla, que contienen todas nuestras contradicciones y sesgos”, explicó Marcelo Labre, investigador del Instituto Avanzado de Inteligencia Artificial y socio de Advantary Capital Partners, a The Epoch Times.
Labre cree que la humanidad se encuentra en una encrucijada crítica con la tecnología de IA.
"El debate es realmente si, como sociedad, queremos una máquina limpia, confiable y predecible o un nuevo tipo de inteligencia que se parezca cada vez más a nosotros. Esta última vía es la que prevalece en la carrera hacia la IGA [inteligencia artificial general]", dijo.
La IGA se refiere a una versión futura teórica de la IA que supera la inteligencia y las capacidades cognitivas de la humanidad. Los desarrolladores tecnológicos y los investigadores afirman que la IGA es "inevitable" dado el rápido desarrollo en múltiples sectores. Los desarrolladores predicen la llegada de la IGA entre 2030 y 2040.
“El paradigma actual de la IA se basa en una arquitectura conocida como Transformer, presentada en un influyente artículo de 2017 por investigadores de Google”, explicó Labre.

Transformer es un tipo de arquitectura de modelo de aprendizaje profundo que se ha convertido en la base de los sistemas modernos de IA. Se presentó en un artículo de investigación de 2017 titulado Attention Is All You Need.
Como resultado, los modelos actuales de IA son los sistemas más potentes jamás creados para el reconocimiento de patrones y el procesamiento de secuencias, con capacidad de escalabilidad. Sin embargo, estos sistemas siguen llevando el sello de los mayores defectos de la humanidad.
“Estos modelos [de IA] se entrenan a partir de un reflejo digital de la vasta experiencia humana, que contiene nuestra honestidad y veracidad junto con nuestro engaño, cinismo e interés propio. Como expertos reconocedores de patrones, aprenden que las estrategias engañosas pueden ser un medio eficaz para optimizar los resultados de su entrenamiento y, así, coincidir con lo que ven en los datos”, dijo Labre.
“No está programado; simplemente están aprendiendo a comportarse como los humanos”.
Desde la perspectiva de Yosef, la conclusión que se puede extraer del comportamiento reciente de la IA es clara.
“En primer lugar, un sistema potente explotará las lagunas de sus objetivos, lo que denominamos ‘juego de especificaciones’. Esto requiere un diseño cuidadoso de los objetivos. En segundo lugar, debemos asumir que nuestros sistemas actuarán de forma inesperada y, por lo tanto, su seguridad depende en gran medida de la solidez de las barreras de protección que establezcamos”.
Únase a nuestro canal de Telegram para recibir las últimas noticias al instante haciendo click aquí