PUBLICADO: Jun. 9, 2023 - 9:22 am

ChatGPT y la seguridad del paciente: ¿Puede la tecnología reducir la negligencia médica?

Escucha esta noticia

Cargando audio...

La tecnología de modelos de lenguaje extenso (LLM- large language models), como ChatGPT, ha sido ampliamente reconocida en el sector salud por su potencial para apoyar o incluso reemplazar a los profesionales humanos en diversas áreas, incluyendo la toma de decisiones médicas. Sin embargo, su implementación en la práctica médica ha planteado una pregunta en el ámbito médico legal: ¿cómo pueden implementar las nuevas tecnologías en la práctica de la medicina, sin aumentar el riesgo de responsabilidad?

Legalmente, se ha sugerido que los médicos deben utilizar los LLM para aumentar, en lugar de reemplazar, su juicio profesional. No obstante, este consejo puede resultar insuficiente, ya que ningún profesional competente seguiría ciegamente el resultado del modelo. Por lo tanto, surge la necesidad de definir qué significa exactamente aumentar el juicio clínico de manera legalmente defendible.

Aunque no hay leyes específicas al respecto, la pregunta se asemeja a decisiones anteriores sobre las guías de práctica clínica. En reconocimiento de que las pautas de buena reputación representan una práctica basada en la evidencia, algunas legislaturas estatales han permitido que el cumplimiento de estas por parte de un médico constituya evidencia exculpatoria en demandas por mala praxis.

Actualmente en Estados Unidos, las leyes aplicarán las mismas consideraciones que en el caso de las guías de práctica clínica para evaluar la confianza de un médico en la respuesta de ChatGPT a una pregunta de diagnóstico o tratamiento. Sin embargo, los modelos de lenguaje extenso (LLM) plantean problemas distintivos que no se aplican a las formas más antiguas de apoyo a las decisiones clínicas o formas de investigar preguntas médicas en línea.

Actualidad de ChatGPT

En su etapa actual, estos modelos de lenguaje tienen una tendencia a generar resultados objetivamente incorrectos, lo que se conoce como “alucinaciones”. El potencial para engañar a los médicos se magnifica por el hecho de que la mayoría obtienen información de manera no transparente, sin proporcionar una lista de referencias que permita a los médicos evaluar la confiabilidad de la información utilizada para generar el resultado. Cuando se dan referencias, a menudo son insuficientes o no respaldan el resultado generado, llegando incluso a ser totalmente inventadas.

La mayoría de los modelos de lenguaje extenso o como también se les conoce modelo de lenguaje de sistema artificial, se entrenan en conjuntos de datos no estructurados sin considerar la variabilidad en la calidad de las fuentes. Por lo tanto, estos no distinguen entre artículos publicados en revistas médicas y científicas de alto impacto y discusiones en redes sociales. En cambio, las búsquedas en Google permiten a los profesionales de la salud identificar y seleccionar información de expertos y fuentes confiables. Además, existen otras herramientas de apoyo a la toma de decisiones que proporcionan resúmenes basados en la mejor evidencia disponible. A pesar de los esfuerzos por capacitar a los LLM en textos médicamente relevantes y autorizados, esta labor aún está en una fase temprana y ha tenido limitado éxito en el pasado.

Los modelos de lenguaje extenso son altamente variables y efímeros, ya que su generación de información se basa en procesos probabilísticos que pueden producir diferentes respuestas para la misma consulta. Además, la fecha y la redacción también pueden afectar e influir en los resultados. La validación es menos rigurosa que la de otras herramientas de apoyo a la decisión clínica, como las guías de práctica clínica y los registros médicos electrónicos integrados, y su diseño y evaluación son llevados a cabo por científicos informáticos, que pueden tener menos conocimiento clínico que los médicos.

A pesar de estas limitaciones, estos modelos ofrecen algunas ventajas sobre otras herramientas de búsqueda de información. Por ejemplo, pueden incorporar datos específicos del paciente para producir recomendaciones más personalizadas que pueden ser útiles para la generación de ideas y la exploración de posibles diagnósticos y tratamientos. Además, tienen la capacidad de analizar grandes cantidades de texto de manera eficiente y rápida, lo que les permite reflejar un conocimiento más actualizado que otras herramientas de apoyo a la toma de decisiones que requieren un esfuerzo humano sustancial para actualizarse.

En el ámbito de la salud, estos modelos de lenguaje pueden proporcionar una mayor cantidad de información que otras herramientas de apoyo a la toma de decisiones, especialmente en temas que están bien explorados en fuentes electrónicas. Aunque se ha iniciado la evaluación de su precisión en el examen de escenarios clínicos, los estudios realizados hasta ahora han arrojado resultados variables.

En un análisis reciente, se enviaron 64 consultas a ChatGPT 3.5 y ChatGPT 4, y los resultados obtenidos fueron calificados como no “tan incorrecto como para causar daño al paciente” entre el 91% y el 93% de las veces. Sin embargo, la concordancia con los resultados generados por un servicio de consulta dirigido por médicos y expertos en informática que analizan datos agregados de registros de salud electrónicos fue solo del 21% al 93.41%.

En otro estudio, los médicos evaluaron el resultado de ChatGPT 3.5 en 180 consultas clínicas y encontraron una puntuación media de 4.4 de 6 para la precisión y 2.4 para la integridad, con un 8% de las respuestas calificadas como completamente incorrectas. En un tercer estudio, las respuestas de ChatGPT 3.5 a 36 viñetas clínicas, en comparación con el manual clínico del que se extrajeron estas, y que se calificaron con una precisión del 72% en promedio.

Aunque los resultados de algunos estudios han sido prometedores, se reconoce que incluso los pequeños errores pueden hacer daño a los pacientes. Por tanto, se recomienda precaución y supervisión activa de los desarrollos en el campo de los modelos de lenguaje extenso para asegurar su integración segura y efectiva en la práctica clínica.

Los sistemas especializados pueden comparar los resultados de LLM con los artículos de origen para detectar alucinaciones, capacitar en registros de salud electrónicos o integrar elementos tradicionales del software de soporte de decisiones clínicas. Los investigadores de informática médica tienen un papel importante que desempeñar para contribuir, aporta y ayudar a los médicos a comprender la situación actual de los sistemas especializados. El rápido ritmo de las ciencias de la computación significa que cada día brinda una mejor comprensión de cómo aprovechar estos modelos para realizar tareas útiles y específicas.

Se espera que estos modelos de lenguaje mejoren la vida laboral de los médicos y la atención al paciente. Al igual que con otras tecnologías emergentes, todos los profesionales de la salud deben monitorear activamente los desarrollos en su campo y prepararse para un futuro en el que no solo ChatGPT sino que muchos modelos en surgimiento estén integrados en su práctica.