PUBLICADO: Jul. 22, 2024 - 11:57 am

Inteligencia artificial y diagnósticos médicos: estudio demuestra falencias críticas en los chatbots para hospitales

Compartir noticia:

Escucha esta noticia

Cargando audio...

En la era digital actual, la inteligencia artificial (IA) está transformando muchos sectores, incluido el de la salud. Sin embargo, un reciente estudio realizado por un equipo interdisciplinario de la Universidad Técnica de Múnich (TUM) ha puesto en tela de juicio la viabilidad de utilizar chatbots de IA en la práctica clínica diaria, específicamente en la realización de diagnósticos médicos.

A pesar de los avances y el potencial de esta tecnología, los resultados sugieren que aún estamos lejos de poder confiar plenamente en los modelos de lenguaje de gran tamaño para decisiones médicas críticas.

Los grandes modelos de lenguaje: ¿una revolución en la medicina?

Los grandes modelos de lenguaje, como ChatGPT, son programas informáticos entrenados con vastas cantidades de texto. Estas variantes especializadas pueden resolver exámenes médicos con gran precisión, lo que ha llevado a preguntarse si podrían asumir tareas más complejas, como el diagnóstico y tratamiento de pacientes en una sala de urgencias.

El equipo dirigido por el profesor Daniel Rückert, especialista en Inteligencia Artificial en Salud y Medicina en la TUM, investigó por primera vez de manera sistemática si esta tecnología podría ser adecuada para la práctica clínica diaria. Publicado en la revista Nature Medicine, el estudio evaluó el éxito de diferentes variantes del modelo de lenguaje de código abierto Llama 2 en la realización de diagnósticos médicos.

Para llevar a cabo esta investigación, los científicos utilizaron datos anónimos de pacientes de una clínica en Estados Unidos, seleccionando 2.400 casos de pacientes que acudieron a urgencias con dolor abdominal. Cada caso incluía un diagnóstico final y un plan de tratamiento basado en una variedad de datos médicos, desde el historial clínico hasta los resultados de imágenes.

Simulación del entorno clínico

Los investigadores prepararon los datos de manera que los algoritmos pudieran simular los procedimientos y procesos de toma de decisiones en un hospital real. Esto incluía decidir qué exámenes solicitar, interpretar los resultados y, finalmente, formular un diagnóstico y un plan de tratamiento.

Sin embargo, los resultados fueron preocupantes. Ninguno de los modelos lingüísticos evaluados solicitó de manera sistemática todos los exámenes necesarios, y los diagnósticos se volvían menos precisos cuanta más información se proporcionaba. Además, los chatbots a menudo no seguían las pautas de tratamiento y, en algunos casos, solicitaban exámenes que podrían haber tenido graves consecuencias para la salud de los pacientes.

Comparación de modelos de inteligencia artificial con médicos humanos

En una segunda fase del estudio, los investigadores compararon los diagnósticos de los modelos de IA con los de cuatro médicos. Mientras que los médicos acertaron en el 89% de los diagnósticos, el mejor modelo de lenguaje alcanzó solo el 73%. Además, algunos modelos mostraron una notable falta de robustez, con resultados que variaban según el orden de la información recibida y las sutilezas lingüísticas en las solicitudes de diagnóstico.

Limitaciones, retos y un futuro prometedor

El estudio también destacó la importancia de utilizar modelos de código abierto para aplicaciones en el sector sanitario. Los investigadores no probaron los modelos comerciales de OpenAI (ChatGPT) y Google debido a restricciones de protección de datos y la recomendación de utilizar software de código abierto para garantizar la seguridad de los pacientes. Según Paul Hager, uno de los autores principales del estudio, “los hospitales deben tener control y conocimiento suficientes para garantizar la seguridad de los pacientes, lo cual es posible con modelos de código abierto”.

A pesar de las deficiencias actuales, los investigadores ven un gran potencial en esta tecnología. “Es muy posible que en un futuro próximo un modelo de lenguaje de gran tamaño sea más adecuado para llegar a un diagnóstico a partir de la historia clínica y los resultados de las pruebas”, afirma el profesor Daniel Rückert. Por ello, el equipo de TUM ha puesto a disposición de la comunidad científica su método para probar la fiabilidad de los futuros chatbots médicos en un contexto clínico.

Rückert destaca que, en el futuro, estos modelos podrían convertirse en herramientas importantes para los médicos, ayudando a analizar casos y proporcionar una segunda opinión. Sin embargo, es crucial ser conscientes de las limitaciones y peculiaridades de esta tecnología y tenerlas en cuenta al desarrollar aplicaciones clínicas.

Compartir noticia:

Tatiana Asprilla

Comunicadora Social, Periodista y Diseñadora Gráfica, especialista en Diseño Comunicacional, con experiencia en el cubrimiento de noticias en el ámbito de la salud. Apasionada por la escritura, la literatura, la cultura y el cine.

Ver más del autor