Los modelos de inteligencia artificial (IA) suelen proporcionar consejos incorrectos a los usuarios sobre cuestiones médicas, lo que suscita preocupación sobre su uso generalizado en la esfera pública, según un estudio revisado por pares publicado el 9 de febrero en la revista Nature Medicine.
La doctora Rebecca Payne, médica principal del estudio, dijo en un comunicado que las personas deben ser conscientes de que preguntar a los LLM sobre sus síntomas puede ser peligroso, ya que estos modelos pueden proporcionar diagnósticos incorrectos.
La IA “simplemente no está preparada” para asumir el papel de un médico, afirmó Payne.
En el estudio, los investigadores reclutaron a casi 1300 personas mayores de 18 años del Reino Unido. A estas personas se les presentó un escenario médico y se les pidió que identificaran posibles afecciones de salud y recomendaran un curso de acción.
Los participantes se dividieron en cuatro grupos. A tres de ellos se les proporcionó un modelo de lenguaje grande (LLM) de IA —GPT-4o, Llama 3 y Command R+— para ayudarles a completar la tarea. El cuarto era un grupo de control al que se le pidió que utilizara cualquier método que utilizaran habitualmente en casa para completar la tarea.
Los investigadores también introdujeron el escenario y las preguntas directamente en los modelos de IA para evaluar su rendimiento sin interactuar con ustedes.
“Al evaluarse por separado, los LLM completan los escenarios con precisión, identificando correctamente las condiciones en el 94.9 % de los casos y la disposición en el 56.3 % de media”, afirma el estudio. La disposición se refiere al curso de acción recomendado.
“Sin embargo, los participantes que utilizaron los mismos LLM identificaron las condiciones relevantes en menos del 34.5 % de los casos y la disposición en menos del 44.2 %, ambos porcentajes no mejores que los del grupo de control”.
Los participantes del grupo de control tenían 1.76 veces más probabilidades de identificar una condición relevante que los de los grupos basados en LLM.
Se descubrió que la IA había generado varios datos engañosos e incorrectos. En dos situaciones, los LLM proporcionaron inicialmente respuestas correctas, pero luego dieron respuestas incorrectas cuando ustedes proporcionaron detalles adicionales.
En un caso, dos usuarios recibieron consejos opuestos a pesar de enviar mensajes similares en los que describían los síntomas de una hemorragia subaracnoidea.
“En nuestro trabajo, descubrimos que ninguno de los modelos lingüísticos probados estaba listo para su implementación en la atención directa al paciente. A pesar del buen rendimiento de los LLM por sí solos, tanto en los puntos de referencia existentes como en nuestros escenarios, los conocimientos médicos eran insuficientes para una atención eficaz al paciente”, escribieron los investigadores.
“Recomendamos que los desarrolladores, así como los responsables políticos y los reguladores, consideren las pruebas con usuarios humanos como base para evaluar mejor las capacidades interactivas antes de cualquier implementación futura”.
La forma en que los usuarios interactuaban con la IA también se consideró "un reto" para la implementación de LLM con el fin de proporcionar asesoramiento médico, escribieron los investigadores. Los investigadores descubrieron que, en general, los usuarios no proporcionaban a la IA información suficiente para llegar a una recomendación correcta.
En muchos casos, los participantes proporcionaban información parcial. Algunos usuarios informaban de sus síntomas solo después de que el LLM les lo pidiera.
En una declaración del 9 de febrero, la Universidad de Oxford, cuyos investigadores formaron parte del estudio, afirmó que los métodos de evaluación estándar actuales para probar los LLM no tienen en cuenta la complejidad que implica la interacción de estos modelos con las personas.
El Dr. Adam Mahdi, autor principal del estudio, afirmó que la desconexión entre las puntuaciones de las pruebas de referencia de los LLM y su rendimiento en el mundo real debería ser una "llamada de atención" para los desarrolladores y reguladores de IA.
"Nuestro reciente trabajo sobre la validez de los constructos en las pruebas de referencia muestra que muchas evaluaciones no miden lo que pretenden medir, y este estudio demuestra exactamente por qué eso es importante", afirmó Mahdi.
"No podemos basarnos únicamente en pruebas estandarizadas para determinar si estos sistemas son seguros para el uso público. Al igual que exigimos ensayos clínicos para los nuevos medicamentos, los sistemas de IA necesitan pruebas rigurosas con usuarios reales y diversos para comprender sus verdaderas capacidades en entornos de alto riesgo, como la atención sanitaria".
Los autores declararon que ninguno de los investigadores tenía intereses en conflicto.
"Health es un espacio dedicado en ChatGPT donde pueden hacer preguntas sobre salud y bienestar y elegir conectar sus datos de salud (como historiales médicos y aplicaciones de bienestar) para que las respuestas se basen en ese contexto. Está diseñado para apoyar, no para sustituir, la atención médica", afirmó OpenAI.
"Puede conectar opcionalmente fuentes como Medical Records y Apple Health, y sus chats, recuerdos y archivos de Health permanecerán separados del resto de ChatGPT".
Los expertos advierten de los riesgos que plantea ChatGPT Health, incluida la posibilidad de proporcionar información engañosa o incompleta que pueda llevar a los usuarios a retrasar la búsqueda de atención médica o a malinterpretar sus síntomas.
La Dra. Rebecca Andrews, presidenta de la junta de regentes del Colegio Americano de Médicos (ACP), declaró a The Epoch Times que el ACP "cree firmemente" que las tecnologías de IA deben complementar la lógica y la toma de decisiones de los médicos, en lugar de sustituirlas.
"Esto es muy importante porque la IA no puede realizar un examen clínico, que es uno de los componentes más esenciales de la atención médica", dijo Andrews.
En una declaración ante el Comité Senatorial de Salud, Educación, Trabajo y Pensiones el 9 de octubre, el Dr. Russ B. Altman, investigador principal del Instituto Stanford para la IA Centrada en el Ser Humano, destacó las ventajas de la nueva tecnología.
Según Altman, la IA puede mejorar el diagnóstico y el tratamiento clínicos, aumentar la comprensión y el control de los pacientes sobre su atención médica y acelerar el descubrimiento de fármacos.
Sin embargo, “aunque soy optimista con respecto a estas aplicaciones, solo podremos aprovechar plenamente sus ventajas si los sistemas sanitarios crean equipos interdisciplinarios que evalúen exhaustivamente la eficacia clínica y la seguridad de estas herramientas”, afirmó.
Con información de Fjolla Arifi.














