Sugerencias
Idioma
metricas
Publique en esta revista
Guía para autores
Buscador
Información de la revista
Compartir
Descargar PDF
Más opciones de artículo
Visitas
1781
Original article
Disponible online el 13 de abril de 2026
Artificial intelligence in cardiology education: A performance comparison analysis of large language models
La inteligencia artificial en la formación en cardiología: análisis comparativo del rendimiento de grandes modelos de lenguaje
Visitas
1781
Filipa Gerardoa, Pedro Custódiob, Daniel Fariac,
Autor para correspondencia
danielfaria8@gmail.com

Corresponding author.
a Cardiology Department, Hospital Professor Doutor Fernando Fonseca, Unidade Local de Saúde Amadora/Sintra, Amadora, Portugal
b Cardiology Department, Hospital Vila Franca de Xira, Unidade Local de Said Estuário do Tejo, Vila Franca de Xira, Portugal
c Interventional Cardiology Unit, Hospital de Faro, Unidade Local de Saúde do Algarve, Faro, Portugal
Este artículo ha recibido
Información del artículo
Resumen
Texto completo
Bibliografía
Descargar PDF
Estadísticas
Abstract
Introduction and objectives

Artificial intelligence (AI) and large language models (LLMs) are being progressively integrated into medical practice. This study aimed to evaluate 7 different LLMs by testing their responses to cardiology-related questions based on European Society of Cardiology (ESC) guidelines.

Methods

Cardiology-related questions were formulated using 6 ESC guidelines documents. Multiple-choice questions (MCQs) were created to assess the model's accuracy. The questions were repeated across 3 separate rounds. We also compared general LLM scores with 3 cardiology residents preparing for the ESC European Exam in Core Cardiology.

Results

A total of 1096 MCQs were generated. Grok emerged as the top-performing model with a mean accuracy of 85.27%, significantly outperforming Gemini (81.77%; P<.001), Le Chat (81.60%; P=.016), Perplexity (82.17%; P=.034), ChatGPT (82.86%; P=.018) and DeepSeek (84.13%; P=.032). All models showed consistent improvement over time, with Grok and Le Chat showing faster performance enhancement (Friedman test, P<.001). LLM accuracy was comparable to that of the 3 cardiology residents across all topic groups, with no statistically significant differences (P=.853, P=.691, P=.061).

Conclusions

All LLMs exhibit promising accuracy and continuous improvement when answering cardiology-related questions with performances like senior cardiology residents, highlighting their potential for real-world integration in medical practice although. Overall, Grok performed better than the other LLMs. As physicians increasingly incorporate LLMs into clinical decision-making, attention must be paid to the models’ limitations, particularly their lack of self-awareness.

Keywords:
Artificial intelligence
DeepSeek
ChatGPT
Grok
Gemini
Mistral
Perplexity
Claude
ESC guidelines
Abbreviations:
AI
ESC
GPT
LLM
MCQs
Resumen
Introducción y objetivos

La inteligencia artificial (IA) y los grandes modelos de lenguaje (LLM) se están integrando progresivamente en la práctica médica. El objetivo de este estudio fue evaluar 7 LLM diferentes mediante la comprobación de sus respuestas a preguntas relacionadas con la cardiología basadas en las directrices guías de práctica clínica de la Sociedad Europea de Cardiología (ESC).

Métodos

Se formularon preguntas relacionadas con la cardiología utilizando 6 documentos de directrices guías de la ESC. Se crearon preguntas de opción múltiple (POM) para evaluar la precisión del modelo. Las preguntas se repitieron en 3 rondas separadas. También se compararon las puntuaciones generales de los LLM con las de 3 residentes de cardiología que se preparaban para el European Exam in Core Cardiology de la ESC.

Resultados

Se generaron 1.096 POM. Grok se reveló como el modelo con mejor rendimiento, con una precisión media del 85,27%, superando significativamente a Gemini (81,77%; p<0,001), Le Chat (81,60%; p=0,016), Perplexity (82,17%; p=0,034), ChatGPT (82,86%; p=0,018) y DeepSeek (84,13%; p=0,032). Todos los modelos mostraron una mejora constante a lo largo del tiempo, Grok y Le Chat fueron los que mejoraron más rápidamente su rendimiento (prueba de Friedman, p<0,001). La precisión de los LLM fue comparable a la de los 3 residentes de cardiología en todos los grupos temáticos, sin diferencias estadísticamente significativas (p=0,853, p=0,691, p=0,061).

Conclusiones

Todos los LLM muestran una precisión prometedora y una mejora continua al responder preguntas relacionadas con la cardiología, con un rendimiento similar al de los residentes sénior de la especialidad, lo que destaca su potencial para la integración en la práctica médica real. En general, Grok obtuvo mejores resultados que los demás LLM. A medida que los médicos incorporen cada vez más los LLM en la toma de decisiones clínicas, se debe prestar atención a las limitaciones de los modelos, en particular a su falta de autoconciencia.

Palabras clave:
Inteligencia artificial
DeepSeek
ChatGPT
Grok
Gemini
Mistral
Perplexity
Claude
Guías de la ESC

Artículo

Opciones para acceder a los textos completos de la publicación
REC: CardioClinics
Socio
Socios SEC
Use datos de acceso a SEC en el menú Acceder.
Si es socio de la Sociedad Española de Cardiología y no puede acceder con sus claves, escriba a rec@cardioclinics.org.
Members of SEC
Use the Society's website login and password here.
If you are member of SEC and you have some problems with your login data, please contact with rec@cardioclinics.org.
Suscriptor
Suscriptor de la revista

Si ya tiene sus datos de acceso, clique aquí.

Si olvidó su clave de acceso puede recuperarla seleccionando la opción "He olvidado mi contraseña".
Suscribirse
Suscribirse a:
REC: CardioClinics
Comprar
Comprar acceso al artículo

Comprando el artículo el PDF del mismo podrá ser descargado

Precio 19,34 €

Comprar ahora
Contactar
Teléfono para suscripciones e incidencias
De lunes a viernes de 9 h a 18 h (GMT+1) excepto los meses de julio y agosto, en los que el horario es de 9 h a 15 h.
Llamadas desde España
932 415 960
Llamadas desde fuera de España
+34 932 415 960
Email
Idiomas
REC: CardioClinics
Opciones de artículo
Herramientas
Material adicional