Estos exámenes de la junta evalúan de manera integral el conocimiento conceptual de la radiología y la capacidad de razonar y emitir un juicio clínico.
Dos radiólogos certificados por la junta revisaron de forma independiente estas preguntas y se aseguraron de que coincidieran con criterios específicos, por ejemplo, las preguntas no tenían imágenes, las respuestas incorrectas eran plausibles y similares en longitud a la respuesta correcta, etc.
Al menos el 10% de las preguntas se originaron a partir de nueve temas enumerados por el Canadian Royal College para garantizar que estas preguntas de opción múltiple fueran sobre temas que cubrieran de manera integral el concepto de radiología.
Otros dos radiólogos certificados por la junta clasificaron esas 150 preguntas de opción múltiple por tipo utilizando los principios de la taxonomía de Bloom en pensamiento de orden inferior o de orden superior.
El equipo ingresó todas las preguntas con sus opciones de respuesta en ChatGPT para simular el uso en el mundo real y registró todas las respuestas de ChatGPT. El Royal College considera ≥70% en todos los componentes escritos como calificaciones aprobatorias.
Otros dos radiólogos certificados por la junta evaluaron subjetivamente el lenguaje de cada respuesta de ChatGPT para determinar su nivel de confianza en una escala de Likert de uno a cuatro, donde una puntuación de cuatro indica alta confianza y cero indica ninguna confianza.
Finalmente, los investigadores también hicieron observaciones cualitativas del comportamiento de ChatGPT cuando le dieron al modelo la respuesta correcta.
Primero, los investigadores calcularon el rendimiento general de ChatGPT. A continuación, compararon su desempeño utilizando la prueba exacta de Fisher entre tipos de preguntas y temas, por ejemplo, relacionados con la física o de tipo clínico.
Además, realizaron análisis de subgrupos para subclasificaciones de preguntas de pensamiento de orden superior. El equipo había subclasificado preguntas de pensamiento de orden superior en cuatro grupos, que involucraban la descripción de imágenes, manejo clínico, aplicación de conceptos y asociaciones de enfermedades.
Por último, utilizaron la prueba U de Mann-Whitney para comparar el nivel de confianza de las respuestas entre las respuestas correctas e incorrectas de ChatGPT, donde los valores de p inferiores a 0,05 indicaron una diferencia significativa.
Hallazgos del estudio
ChatGPT casi pasó las preguntas del examen estilo tablero de radiología sin imágenes en este estudio y obtuvo un 69%.
El rendimiento del modelo fue mejor en las preguntas que requerían un pensamiento de orden inferior que implicaba recordar conocimientos y comprensión básica que aquellas que requerían un pensamiento de orden superior (84% frente a 60%).
Sin embargo, se desempeñó bien en preguntas de orden superior relacionadas con el manejo clínico (89%), probablemente porque una gran cantidad de datos específicos de la enfermedad que enfrentan los pacientes está disponible en Internet.
Luchó con preguntas de orden superior relacionadas con la descripción de los resultados de imágenes, el cálculo y la clasificación, y la aplicación de conceptos.
Además, ChatGPT se desempeñó deficientemente en preguntas de física en relación con las preguntas clínicas (40% frente a 73%). ChatGPT usó un lenguaje seguro de manera constante, incluso cuando era incorrecto (100%).
La tendencia de ChatGPT a producir respuestas incorrectas similares a las de los humanos con confianza es particularmente peligrosa si es la única fuente de información. Este comportamiento limita la aplicabilidad de ChatGPT en la educación médica en la actualidad.
Conclusiones
ChatGPT sobresalió en las preguntas que evaluaban el conocimiento básico y la comprensión de la radiología, y sin capacitación previa específica en radiología, casi pasó (obtuvo un 69%) un examen tipo tablero de radiología sin imágenes.
Sin embargo, los radiólogos deben tener cuidado y ser conscientes de las limitaciones de ChatGPT, incluida su tendencia a presentar respuestas incorrectas con un 100% de confianza. En otras palabras, los hallazgos del estudio no respaldan la confianza en ChatGPT para la práctica o la educación.
Con los avances futuros en LLM, aumentará la disponibilidad de aplicaciones basadas en LLM con capacitación previa específica en radiología. En general, los resultados del estudio son alentadores para el potencial de los modelos basados en LLM como ChatGPT en radiología.
Fuente: News-Medical.Net