El uso de la inteligencia artificial generativa (GenAI) está ya plenamente aceptado en el campo de la atención médica. Sin embargo, esa tecnología no está exenta de problemas. Quizás el más preocupante es su susceptibilidad de “alucinar”, esto es, dar respuestas no sólo imprecisas, sino de plano inventadas. La manera más extendida de evitar las alucinaciones de la IA consiste en intensificar su entrenamiento. Sin embargo, la solución —al menos por ahora— puede ser más sencilla de lo pensado.
Un estudio realizado por investigadores de la Escuela de Medicina Icahn, de la cadena de hospitales Monte Sinaí (Nueva York), mostró que añadir una simple advertencia de una sola línea a la pregunta (prompt) puede, en gran medida, evitar las alucinaciones de la IA en el cuidado de la salud.
Titulado Large Language Models Demonstrate Widespread Hallucinations for Clinical Decision Support: A Multiple Model Assurance Analysis, se publicó en el número del 2 de agosto de Communications Medicine, de la revista Nature.
Los hallazgos muestran que las principales herramientas de GenAI tienden a repetir información médica falsa. Inclusive, pueden construir argumentos en un intento de sustentar sus respuestas. Para ello, encontraron los investigadores, ni siquiera hace falta que haya mala intención: basta con que los datos sean erróneos.
Prompts precisos para evitar las alucinaciones
Los investigadores se plantearon una pregunta: ¿los modelos amplios de lenguaje (LLM) de la GenAI aceptarían y repetirían detalles médicos incorrectos o falsos? Para ello, elaboraron expedientes clínicos de pacientes ficticios con términos inventados para referirse a enfermedades, síntomas o pruebas de laboratorio.
El resultado fue contundente. Todas las soluciones de GenAI que analizaron repitieron la información errónea. Inclusive la ampliaron, buscando justificar sus respuestas sobre enfermedades inventadas. Ahora bien: no se trataba de datos completamente inventados, sino que la historia clínica sólo contenía un término ficticio.
Los historiales fueron alimentados a los principales LLM. En ningún caso, reconocieron los términos inventados. Por el contrario: los tomaron como hechos verdaderos y ofrecieron respuestas muy detalladas para trata la enfermedad ficticia. Para ello, reporta el estudio, bastó con incluir un solo término inventado.
Para determinar si es posible evitar las alucinaciones de la IA de una manera sencilla, repitieron la ronda de preguntas a los LLM. La segunda vez añadieron una advertencia sencilla, de una sola línea, indicándole a la GenAI que la información podría ser inexacta. La diferencia fue muy significativa: modificar de esa manera el prompt pudo evitar las alucinaciones en gran medida. De hecho, señala el estudio, las respuestas erróneas se redujeron casi a la mitad.
Los investigadores ahora se proponen profundizar el estudio con el fin de desarrollar advertencias más eficaces para frenar las alucinaciones de la IA. Su objetivo último, señalan, es obtener una guía estandarizada que sea útil para que hospitales, desarrolladores y organismos reguladores puedan afinar el entrenamiento de futuras iteraciones de los LLM especializados en la atención sanitaria antes de se implementen en clínicas y hospitales.