Suggestions
Idioma
metricas
Publish in this journal
Guide for authors
Searcher
Journal Information
Share
Download PDF
More article options
Visits
1780
Original article
Available online 13 April 2026
Artificial intelligence in cardiology education: A performance comparison analysis of large language models
La inteligencia artificial en la formación en cardiología: análisis comparativo del rendimiento de grandes modelos de lenguaje
Visits
1780
Filipa Gerardoa, Pedro Custódiob, Daniel Fariac,
Corresponding author
danielfaria8@gmail.com

Corresponding author.
a Cardiology Department, Hospital Professor Doutor Fernando Fonseca, Unidade Local de Saúde Amadora/Sintra, Amadora, Portugal
b Cardiology Department, Hospital Vila Franca de Xira, Unidade Local de Said Estuário do Tejo, Vila Franca de Xira, Portugal
c Interventional Cardiology Unit, Hospital de Faro, Unidade Local de Saúde do Algarve, Faro, Portugal
This item has received
Article information
Abstract
Full Text
Bibliography
Download PDF
Statistics
Abstract
Introduction and objectives

Artificial intelligence (AI) and large language models (LLMs) are being progressively integrated into medical practice. This study aimed to evaluate 7 different LLMs by testing their responses to cardiology-related questions based on European Society of Cardiology (ESC) guidelines.

Methods

Cardiology-related questions were formulated using 6 ESC guidelines documents. Multiple-choice questions (MCQs) were created to assess the model's accuracy. The questions were repeated across 3 separate rounds. We also compared general LLM scores with 3 cardiology residents preparing for the ESC European Exam in Core Cardiology.

Results

A total of 1096 MCQs were generated. Grok emerged as the top-performing model with a mean accuracy of 85.27%, significantly outperforming Gemini (81.77%; P<.001), Le Chat (81.60%; P=.016), Perplexity (82.17%; P=.034), ChatGPT (82.86%; P=.018) and DeepSeek (84.13%; P=.032). All models showed consistent improvement over time, with Grok and Le Chat showing faster performance enhancement (Friedman test, P<.001). LLM accuracy was comparable to that of the 3 cardiology residents across all topic groups, with no statistically significant differences (P=.853, P=.691, P=.061).

Conclusions

All LLMs exhibit promising accuracy and continuous improvement when answering cardiology-related questions with performances like senior cardiology residents, highlighting their potential for real-world integration in medical practice although. Overall, Grok performed better than the other LLMs. As physicians increasingly incorporate LLMs into clinical decision-making, attention must be paid to the models’ limitations, particularly their lack of self-awareness.

Keywords:
Artificial intelligence
DeepSeek
ChatGPT
Grok
Gemini
Mistral
Perplexity
Claude
ESC guidelines
Abbreviations:
AI
ESC
GPT
LLM
MCQs
Resumen
Introducción y objetivos

La inteligencia artificial (IA) y los grandes modelos de lenguaje (LLM) se están integrando progresivamente en la práctica médica. El objetivo de este estudio fue evaluar 7 LLM diferentes mediante la comprobación de sus respuestas a preguntas relacionadas con la cardiología basadas en las directrices guías de práctica clínica de la Sociedad Europea de Cardiología (ESC).

Métodos

Se formularon preguntas relacionadas con la cardiología utilizando 6 documentos de directrices guías de la ESC. Se crearon preguntas de opción múltiple (POM) para evaluar la precisión del modelo. Las preguntas se repitieron en 3 rondas separadas. También se compararon las puntuaciones generales de los LLM con las de 3 residentes de cardiología que se preparaban para el European Exam in Core Cardiology de la ESC.

Resultados

Se generaron 1.096 POM. Grok se reveló como el modelo con mejor rendimiento, con una precisión media del 85,27%, superando significativamente a Gemini (81,77%; p<0,001), Le Chat (81,60%; p=0,016), Perplexity (82,17%; p=0,034), ChatGPT (82,86%; p=0,018) y DeepSeek (84,13%; p=0,032). Todos los modelos mostraron una mejora constante a lo largo del tiempo, Grok y Le Chat fueron los que mejoraron más rápidamente su rendimiento (prueba de Friedman, p<0,001). La precisión de los LLM fue comparable a la de los 3 residentes de cardiología en todos los grupos temáticos, sin diferencias estadísticamente significativas (p=0,853, p=0,691, p=0,061).

Conclusiones

Todos los LLM muestran una precisión prometedora y una mejora continua al responder preguntas relacionadas con la cardiología, con un rendimiento similar al de los residentes sénior de la especialidad, lo que destaca su potencial para la integración en la práctica médica real. En general, Grok obtuvo mejores resultados que los demás LLM. A medida que los médicos incorporen cada vez más los LLM en la toma de decisiones clínicas, se debe prestar atención a las limitaciones de los modelos, en particular a su falta de autoconciencia.

Palabras clave:
Inteligencia artificial
DeepSeek
ChatGPT
Grok
Gemini
Mistral
Perplexity
Claude
Guías de la ESC

Article

These are the options to access the full texts of the publication REC: CardioClinics
Member
Socios SEC
Use datos de acceso a SEC en el menú Acceder.
Si es socio de la Sociedad Española de Cardiología y no puede acceder con sus claves, escriba a rec@cardioclinics.org.
Members of SEC
Use the Society's website login and password here.
If you are member of SEC and you have some problems with your login data, please contact with rec@cardioclinics.org.
Subscriber
Subscriber

If you already have your login data, please click here .

If you have forgotten your password you can you can recover it by clicking here and selecting the option “I have forgotten my password”
Subscribe
Subscribe to
REC: CardioClinics
Purchase
Purchase article

Purchasing article the PDF version will be downloaded

Price 19.34 €

Purchase now
Contact
Phone for subscriptions and reporting of errors
From Monday to Friday from 9 a.m. to 6 p.m. (GMT + 1) except for the months of July and August which will be from 9 a.m. to 3 p.m.
Calls from Spain
932 415 960
Calls from outside Spain
+34 932 415 960
Email
Idiomas
REC: CardioClinics
Article options
Tools
Supplemental materials