Artificial intelligence (AI) and large language models (LLMs) are being progressively integrated into medical practice. This study aimed to evaluate 7 different LLMs by testing their responses to cardiology-related questions based on European Society of Cardiology (ESC) guidelines.
MethodsCardiology-related questions were formulated using 6 ESC guidelines documents. Multiple-choice questions (MCQs) were created to assess the model's accuracy. The questions were repeated across 3 separate rounds. We also compared general LLM scores with 3 cardiology residents preparing for the ESC European Exam in Core Cardiology.
ResultsA total of 1096 MCQs were generated. Grok emerged as the top-performing model with a mean accuracy of 85.27%, significantly outperforming Gemini (81.77%; P<.001), Le Chat (81.60%; P=.016), Perplexity (82.17%; P=.034), ChatGPT (82.86%; P=.018) and DeepSeek (84.13%; P=.032). All models showed consistent improvement over time, with Grok and Le Chat showing faster performance enhancement (Friedman test, P<.001). LLM accuracy was comparable to that of the 3 cardiology residents across all topic groups, with no statistically significant differences (P=.853, P=.691, P=.061).
ConclusionsAll LLMs exhibit promising accuracy and continuous improvement when answering cardiology-related questions with performances like senior cardiology residents, highlighting their potential for real-world integration in medical practice although. Overall, Grok performed better than the other LLMs. As physicians increasingly incorporate LLMs into clinical decision-making, attention must be paid to the models’ limitations, particularly their lack of self-awareness.
La inteligencia artificial (IA) y los grandes modelos de lenguaje (LLM) se están integrando progresivamente en la práctica médica. El objetivo de este estudio fue evaluar 7 LLM diferentes mediante la comprobación de sus respuestas a preguntas relacionadas con la cardiología basadas en las directrices guías de práctica clínica de la Sociedad Europea de Cardiología (ESC).
MétodosSe formularon preguntas relacionadas con la cardiología utilizando 6 documentos de directrices guías de la ESC. Se crearon preguntas de opción múltiple (POM) para evaluar la precisión del modelo. Las preguntas se repitieron en 3 rondas separadas. También se compararon las puntuaciones generales de los LLM con las de 3 residentes de cardiología que se preparaban para el European Exam in Core Cardiology de la ESC.
ResultadosSe generaron 1.096 POM. Grok se reveló como el modelo con mejor rendimiento, con una precisión media del 85,27%, superando significativamente a Gemini (81,77%; p<0,001), Le Chat (81,60%; p=0,016), Perplexity (82,17%; p=0,034), ChatGPT (82,86%; p=0,018) y DeepSeek (84,13%; p=0,032). Todos los modelos mostraron una mejora constante a lo largo del tiempo, Grok y Le Chat fueron los que mejoraron más rápidamente su rendimiento (prueba de Friedman, p<0,001). La precisión de los LLM fue comparable a la de los 3 residentes de cardiología en todos los grupos temáticos, sin diferencias estadísticamente significativas (p=0,853, p=0,691, p=0,061).
ConclusionesTodos los LLM muestran una precisión prometedora y una mejora continua al responder preguntas relacionadas con la cardiología, con un rendimiento similar al de los residentes sénior de la especialidad, lo que destaca su potencial para la integración en la práctica médica real. En general, Grok obtuvo mejores resultados que los demás LLM. A medida que los médicos incorporen cada vez más los LLM en la toma de decisiones clínicas, se debe prestar atención a las limitaciones de los modelos, en particular a su falta de autoconciencia.
Artículo
REC: CardioClinics
Use datos de acceso a SEC en el menú Acceder.
Si es socio de la Sociedad Española de Cardiología y no puede acceder con sus claves, escriba a rec@cardioclinics.org.
Use the Society's website login and password here.
If you are member of SEC and you have some problems with your login data, please contact with rec@cardioclinics.org.
Si ya tiene sus datos de acceso, clique aquí.
Si olvidó su clave de acceso puede recuperarla seleccionando la opción "He olvidado mi contraseña".Comprando el artículo el PDF del mismo podrá ser descargado
Precio 19,34 €
Comprar ahora




