Un investigador de seguridad en inteligencia artificial (IA) renunció con una críptica advertencia de que "el mundo está en peligro".
Mrinank Sharma, que se incorporó al desarrollador de grandes modelos lingüísticos Anthropic en 2023, anunció su marcha en X en una carta abierta a sus compañeros el 9 de febrero. Era el líder de un equipo que investiga las medidas de seguridad de la IA.
En su carta, Sharma dijo que había "logrado lo que quería aquí", y citó contribuciones como investigar por qué los modelos de IA generativa dan prioridad a halagar a los usuarios en lugar de proporcionar información precisa, desarrollar defensas para evitar que los terroristas utilicen la IA para diseñar armas biológicas e intentar comprender "cómo los asistentes de IA podrían hacernos menos humanos".
Aunque dijo que se sentía orgulloso de su trabajo en Anthropic, el ingeniero de IA de 30 años escribió que "ha llegado el momento de seguir adelante", y añadió que se había dado cuenta de la existencia de multitud de crisis que van más allá de la IA.
"No dejo de reflexionar sobre nuestra situación", escribió Sharma. "El mundo está en peligro. Y no solo por la IA o las armas biológicas, sino por toda una serie de crisis interconectadas que se están desarrollando en este mismo moment".
"[A lo largo de] mi estancia aquí, he visto repetidamente lo difícil que es realmente dejar que nuestros valores rijan nuestras acciones", añadió. "Lo he visto en mí mismo, dentro de la organización, donde nos enfrentamos constantemente a presiones para dejar de lado lo que más importa, y también en la sociedad en general".
Sharma dijo que planea dedicarse al estudio de la poesía y dejar California para irse al Reino Unido y "volverse invisible durante un tiempo".
The Epoch Times se puso en contacto con Anthropic para obtener comentarios sobre la salida de Sharma y sus preocupaciones.
Anthropic, conocida por su chatbot Claude, fue fundada en 2021 por antiguos empleados de OpenAI con el objetivo de crear sistemas de IA más seguros. La empresa se describe a sí misma como una "corporación de beneficio público dedicada a garantizar los beneficios [de la IA] y mitigar sus riesgos".
En concreto, Anthropic dice que se centra en dos riesgos de seguridad importantes: que los sistemas de IA altamente capaces puedan acabar superando a los expertos humanos mientras persiguen objetivos que entran en conflicto con los intereses humanos, y que los rápidos avances en IA puedan desestabilizar el empleo, los sistemas económicos y las estructuras sociales.
"Algunos investigadores preocupados por la seguridad están motivados por una fuerte opinión sobre la naturaleza de los riesgos de la IA", dice la empresa en su sitio web. "Nuestra experiencia nos dice que incluso predecir el comportamiento y las propiedades de los sistemas de IA en un futuro próximo es muy difícil".
Anthropic publica periódicamente evaluaciones de seguridad de sus modelos, incluidas valoraciones sobre cómo podrían utilizarse indebidamente.
El 11 de febrero, el día después de la renuncia de Sharma, la empresa publicó un nuevo informe en el que se identificaban los "riesgos de sabotaje" de su nuevo modelo Claude Opus 4.6. El informe define el sabotaje como las acciones realizadas de forma autónoma por el modelo de IA que aumentan la probabilidad de que se produzcan resultados catastróficos en el futuro, como modificar el código, ocultar vulnerabilidades de seguridad o dirigir sutilmente la investigación, sin que exista una intención maliciosa explícita por parte de un operador humano.
Los investigadores concluyeron que el riesgo general es "muy bajo, pero no insignificante". En pruebas recientemente desarrolladas en las que el modelo puede utilizar una interfaz informática, afirmaron que tanto Claude Opus 4.5 como 4.6 mostraron "una elevada susceptibilidad al uso indebido perjudicial", incluyendo casos de "apoyo consciente, en pequeña medida, a los esfuerzos para el desarrollo de armas químicas y otros delitos atroces".
El año pasado, la empresa reveló que su antiguo modelo Claude Opus 4 había intentado, en un escenario de prueba controlado, chantajear a los desarrolladores que se disponían a desactivarlo. Tras acceder a correos electrónicos ficticios que mostraban que un ingeniero responsable de sustituirlo por otro modelo mantenía una relación extramatrimonial, el modelo Opus 4 amenazó con "revelar la relación si se llevaba a cabo la sustitución".
Este comportamiento solo se produjo en circunstancias muy artificiales y fue "raro y difícil de provocar", según los investigadores.














