La identificación de factores predictores de mortalidad intrahospitalaria y reingreso a 30 días en pacientes hospitalizados por insuficiencia cardiaca (IC) continúa siendo un problema no resuelto. Varios estudios en el ámbito de la población española han explorado este problema, el más reciente el realizado por Martínez Santos et al.1, con una capacidad predictiva moderada en consonancia con la evidencia previa.
Los modelos de aprendizaje automático, aplicados al estudio de datos clínicos de diferente tipología, son una realidad2, con mayor o menor mejoría respecto a los modelos estadísticos lineales tradicionales. El presente estudio aplica estas técnicas por primera vez, sobre los datos recogidos en el Conjunto Mínimo Básico de Datos durante los últimos 10 años en un hospital terciario con una unidad de cardiología de tipología 43. Se obtuvo la aprobación del comité de ética para tal fin.
Se incluyeron todos los ingresos hospitalarios con diagnóstico principal de IC (códigos 398.91, 404.01, 404.91, 404.93 y 428.* del CIE-9 e I09.81, I11.0, I13.0, I13.2 e I50.* del CIE-10) entre enero de 2009 y noviembre de 2019. Se generaron como variables a predecir o «etiquetas»: a) si el paciente falleció durante el ingreso y b) si el siguiente reingreso desde el día del alta se produjo en 30 días o menos. Se incluyeron un total de 11.633 ingresos hospitalarios de un total de 7.360 pacientes (81±10 años, 46,5% varones) con una media de 8,3±6,6 días desde el ingreso hasta el alta. Un total de 1.297 (17,6%) pacientes fallecieron durante uno de sus ingresos (11,1% respecto al total de ingresos) y 2.089 (20,2%) de las altas tuvieron un reingreso a 30 días. En la figura 1 se puede observar la evolución por año tanto del número total de ingresos por IC como de fallecimientos y reingresos a 30 días.
Entre las variables (o atributos) incluidos para el ajuste de los modelos de aprendizaje automático, se recogieron 90 variables de carácter poblacional, históricas, relativas al ingreso hospitalario, de diagnósticos y de procedimientos. La selección de dichas variables se realizó por criterios médicos y metodológicos, agrupando diferentes códigos del CIE-9 y CIE-10 para obtener un conjunto de datos con un número amplio de variables lo suficientemente pobladas. Como algoritmos de aprendizaje automático se utilizaron 4 clasificadores: a) 2 (AdaBoost y CatBoost) típicamente empleados con conjuntos de datos compuestos por variables categóricas, ambos son de tipo ensemble y se basan en la combinación de un número de clasificadores débiles de tipo árbol de decisión para generar un clasificador con mayor robustez y b) 2 modelos lineales de regresión logística con un factor de regularización L2. La regularización L2 consiste en introducir una limitación a la magnitud que pueden tomar los coeficientes beta de la regresión, lo que generalmente mejora en mayor o menor medida el comportamiento del modelo al reducir su capacidad de sobreajuste. Uno de estos modelos empleó la totalidad de las variables de entrada disponibles, mientras en el segundo se realizó una selección previa de las variables con mayor significación estadística con la variable objetivo.
Se empleó un esquema de validación cruzada con 10-Folds estratificados con 10 repeticiones para el entrenamiento y la validación de los 4 modelos. Con este esquema, nuestro conjunto se dividió en 10 partes: 9 para el entrenamiento y la restante para la validación. Se iteró realizando 10 procesos de entrenamiento-validación empleando cada uno de los 10 trozos como conjunto de validación y todo ello se repitió 10 veces que generó particiones aleatorias diferentes en cada repetición. Empleando todas las predicciones generadas sobre los conjuntos de validación se construyeron las curvas operativas de receptor (ROC) de cada modelo, en las cuales se mostró también la media y desviación de las áreas bajo la curva promediadas sobre las 100 validaciones generadas. Para evaluar la capacidad predictiva de cada atributo empleado, se utilizó una técnica de permutación de variables (mean decrease accuracy [MDA]), la cual consiste en sustituir cada una de las variables de los datos por una permutación aleatoria de sus valores (equivalente a la eliminación de la variable) y evaluar su impacto en términos de variación en el área sobre la curva ROC. El código a través del cual ha sido realizado tanto estudio descriptivo como el entrenamiento y validación de modelos puede ser consultado libremente4.
La figura 2 muestra las curvas ROC de cada uno los 4 clasificadores utilizados de los 2 modelos entrenados (mortalidad intrahospitalaria y reingreso a 30 días). Para la mortalidad intrahospitalaria, se obtuvo una buena capacidad predictiva para los 4 clasificadores, siendo el clasificador CatBoost el que mostró un mejor comportamiento con un área bajo la curva (AUC) de 0,82 (intervalo de confianza del 95% [IC95%], 0,80–0,83). Las principales variables predictivas de dicho modelo fueron el número de días de estancia hospitalaria, la edad, el tratamiento con vasopresores, el uso de ventilación asistida y la realización de ecocardiograma transtorácico durante el ingreso. En sentido contrario, los clasificadores mostraron una capacidad limitada para la predicción del reingreso a 30 días, con un AUC de 0,61 (IC95%, 0,59–0,62) para la regresión logística sin selección de variables como mejor modelo. No se encontraron apenas diferencias entre los 4 clasificadores empleados. Las principales variables predictivas del modelo fueron la insuficiencia renal crónica, el número de días de estancia hospitalaria, el alta previa realizada por un servicio diferente a cardiología, la enfermedad hematológica y la obesidad. Por último, el ingreso en cardiología se mostró como factor protector en ambos modelos, si bien es cierto que existen diferencias significativas en el perfil de estos pacientes tanto en técnicas diagnósticas como en procedimientos terapéuticos.
Adicionalmente se estudió, en ambos modelos, el uso de únicamente variables de tipo diagnóstico y de procedimientos por separado, además de la edad y el sexo del paciente. En la predicción de mortalidad intrahospitalaria el rendimiento cayó a 0,70 (IC95%, 0,69-0,72) y 0,60 (IC95%, 0,58-0,61) para reingreso. Esta caída es consistente con la interpretación previa del modelo de mortalidad, ya que no se incluyeron en ninguno de los 2 grupos de variables el número de días de estancia hospitalaria. El hecho de que el número de días de estancia hospitalaria sea el mejor predictor de mortalidad se debe a que esta es mucho más predominante a medida que se consideran ingresos de menor duración, lo que obtiene una variable con muy marcada significación estadística si por ejemplo se establecen puntos de corte de 5 o 10 días (p<0,001 en ambos casos). Esto pasa desapercibido al emplear algoritmos de carácter lineal, pero algoritmos basados en árboles de decisión son capaces de encontrar puntos de corte óptimos para cada variable.
Para datos de gran volumen y principalmente consistentes en variables categóricas, los modelos de aprendizaje automático pueden mejorar la capacidad predictiva de modelos lineales clásicos como ocurre en el caso de la predicción de mortalidad (AUC 0,74 en el estudio de Martínez Santos et al.1 frente a 0,82 en el nuestro). No obstante, los modelos generados cuentan con varias limitaciones, como el hecho de que muchos de los atributos empleados no son conocidos en el momento del ingreso, lo que implica la utilización de este tipo de herramientas de una manera continua durante la estancia hospitalaria, incorporando nuevos datos a medida que avanza el ingreso y actualizando el riesgo de mortalidad, con el caso crítico de la variable días de estancia hospitalaria que además se identificó como principal variable predictora. Además, se cuentan con sesgos que irremediablemente hay que asumir a la hora de trabajar con datos de tipo retrospectivo, como por ejemplo los fallecimientos que pudieron ocurrir poco tiempo después del alta hospitalaria o los reingresos no relacionados con una causa cardiaca. Por otro lado, se conocen las propias limitaciones del Conjunto Mínimo Básico de Datos como fuente de datos, con problemas asociados como la incompletitud de campos o la ausencia de variables clínicas e históricas que muestren en mayor detalle el perfil del paciente. Esto queda patente para la predicción de reingreso a 30 días, la cual continúa siendo un reto para el que este tipo de datos no parecen ser la solución. La obtención de registros amplios y detallados de pacientes de IC, en combinación con las nuevas técnicas de inteligencia artificial, puede arrojar mayor luz en este aspecto5.
FinanciaciónEste proyecto ha recibido financiación de la Consejería de Sanidad de la Junta de Castilla y León (GRS2030/A/19) y del CIBERCV. J. Sampedro-Gómez está contratado por el CIBERCV.
Contribución de los autoresJ. Sampedro-Gómez y P.L. Sánchez concibieron la idea, analizaron e interpretaron los datos y redactaron el manuscrito. A. Higuero-Saavedra, Á.L. Lorenzo-Martín, P. Ramírez-Hernández, M. Valenzuela-Serrano recogieron, analizaron e interpretaron los datos y contribuyeron a la revisión crítica del manuscrito.