Hasta ahora, los chatbots con inteligencia artificial (IA) empleados en el cuidado de la salud normalmente sólo desempeñan tareas muy sencillas y reiterativas. Sin embargo, de acuerdo con el estudio Use of Artificial Intelligence Chatbots in Interpretation of Pathology Reports, conducido por los investigadores neoyorquinos Eric Steimetz, Jeremy Minkowitz y Elmer C. Gabutan, podría ser viable emplear la IA para simplificar informes médicos. Los resultados se publicaron en mayo pasado en la revista médica JAMA Network Open.
Los investigadores se centraron específicamente en reportes de patología. Su objetivo fue determinar si los chatbots podrían trasladarlos a un lenguaje accesible a los pacientes pero sin perder precisión en la información médica.
Hoy es común que los pacientes puedan acceder en línea a los resultados de sus análisis. Empero, no siempre comprenden lo que dicen, pues están dirigidos primordialmente a los médicos. Ante este panorama, los investigadores determinaron alimentar 1,134 informes de patología a dos de los chatbots de IA generativa más populares: Bard (rebautizado como Gemini), de Google, y GPT-4, de OpenAI. A continuación, les pidieron interpretarlos y explicarlos en lenguaje sencillo.
Los informes, escritos entre el 1° de enero de 2018 y el 31 de mayo de 2023, tenían diversa longitud y complejidad. Además, fueron creados por diferentes patólogos, quienes reportaban un amplio abanico de resultados en procedimientos muy variados. Aunque fueron debidamente anonimizados, se evitó editarlos y se conservaron las notas, comentarios y apéndices adjuntos.
Legibilidad medida
Antes de entregarlos a los robots, tres patólogos expertos catalogaron los informes en varias categorías: normales; benignos; atípicos o sospechosos; precancerosos; malignos, o sin diagnóstico. A continuación, cada robot recibió la información y un conjunto de tareas a realizar: clasificarlos, determinar el estadio patológico de cualquier tumor y poner sus hallazgos en lenguaje asequible. Para evitar sesgos, a cada expediente se le asignó una conversación individual.
Los patólogos midieron el rendimiento de la IA para simplificar informes médicos con las escalas de legibilidad Flesch Reading Ease (FRE) y Flesch-Kincaid Grade Level (FKGL). Dichas escalas se obtienen al factorizar el número de sílabas, palabras y oraciones en un texto de acuerdo con una fórmula desarrollada por Rudolph Flesch en 1956 y mejorada por J. Peter Kincaid en 1975. En 1959 el pedagogo hispano José Fernández Huerta adaptó escala original al idioma español.
En la escala FRE el resultado se expresa en una calificación numérica de cero a 100, en la que un valor más alto indica mayor facilidad de lectura. De acuerdo con los criterios usuales, se considera que un texto comprensible para el público en general debe superar los 60 puntos.
En contraparte, en la escala FKGL el puntaje va de cero a 18 y, mientras más bajo sea el número, mayor es la legibilidad del texto. De hecho, se considera que un escrito con calificación de 0 a 3 puede ser comprendido por un niño de kínder; en cambio, otro con calificación de entre 15 y 18 se dirige a estudiantes de posgrado.
Viable, emplear la IA para simplificar informes médicos
Los reportes originales tenían en promedio una calificación de 13.19 en la escala FKGL (comprensibles por personas con estudios universitarios). Conforme a lo esperado por los investigadores, hubo buenos resultados para el uso de ambos. Bard (Gemini) obtuvo en promedio una calificación de 8.17 (asequible para un preparatoriano). Por su parte, GPT-4 fue más allá, al alcanzar 7.45.
Al emplear la escala FRE se corroboró la capacidad de ambas IA para simplificar informes médicos. A partir de textos con un promedio de 10.32 puntos entregaron informes con calificaciones de 70.80 (GPT-4) y 61.32 (Bard).
Por supuesto, la revisión del trabajo hecho por los robots no se limitó al lenguaje. También se calificaron sus interpretaciones de acuerdo con tres categorías: médicamente correctas, parcialmente correctas o médicamente incorrectas. Adicionalmente, se señalaron puntualmente las alucinaciones de cada robot.
Conforme a estos criterios, Bard interpretó correctamente el 87.57% de los informes, mientras que en el 8.99% lo hizo de forma parcialmente correcta y en el 3.44% restante lo hizo de forma incorrecta. En cuanto a alucinaciones, las tuvo en el 2.82% de los informes.
Por su parte, GPT-4 obtuvo mejores resultados. Interpretó correctamente el 97.44% de los informes, el 2.12% de forma parcialmente correcta y el 0.44% incorrectamente. También alucinó menos: lo hizo tan sólo en el 0.26% de los expedientes.
Los resultados obtenidos al emplear la IA para simplificar informes médicos parecen alentadores, pero los autores del estudio recomiendan tener cautela. La razón es simple. La IA generativa dista mucho de empatar las habilidades de un buen patólogo al interpretar los datos clínicos en contexto. Es por ello que recomiendan que en todos los casos en los que se utilice la IA para simplificar informes médicos éstos sean revisados por un especialista antes de proporcionarlos a los pacientes.