Un modelo de aprendizaje profundo de efectos mixtos para diagnosticar COVID-19 a partir de imágenes de tomografía computarizada
La infección por coronavirus 2 del síndrome respiratorio agudo severo (SARS-CoV-2) generalmente se diagnostica mediante PCR de transcripción inversa o RT-PCR, pero este método está lejos de ser perfecto. Según una revisión, la RT-PCR tiene una sensibilidad real de alrededor del 70 % y una especificidad del 95 %, aunque los resultados negativos no necesariamente indican un diagnóstico negativo.
Además, un análisis sistemático de los datos de pacientes individuales encontró que la RT-PCR con frecuencia pasa por alto el SARS-CoV-2 y que el muestreo temprano puede reducir los falsos negativos. De acuerdo, estas pruebas a menudo son más útiles para descartar COVID-19 que para descartarlo.
En los casos en que una prueba de RT-PCR sea negativa, pero un paciente presente síntomas de COVID-19, pueden ser necesarias pruebas adicionales.
Dado el aumento exponencial en el número de casos de COVID-19 en todo el mundo y la creciente presión sobre los recursos médicos, los métodos de diagnóstico automatizados pueden reducir de manera efectiva la carga de los radiólogos.
Las imágenes de TC (tomografía computarizada) se componen de muchos cortes, lo que crea un efecto tridimensional (3D). Una limitación fundamental de las medidas informadas anteriormente que utilizan métodos basados en imágenes de tomografía computarizada es la necesidad de la misma cantidad de cortes que sus entradas, lo que no es viable en diferentes volúmenes de tomografía computarizada.
Tres limitaciones comunes de tales modelos son la falta de métodos adecuadamente documentados para la reproducibilidad, el incumplimiento de los protocolos regulatorios estándar para desarrollar modelos de aprendizaje profundo y la ausencia de estudios de validación externos para validar el programa en la población del mundo real.
Los investigadores se han propuesto abordar los problemas mencionados anteriormente en un estudio reciente publicado en la medRxiv* servidor de preimpresión.
Usando pautas de mejores prácticas, desarrollaron un modelo de aprendizaje profundo de efectos mixtos para clasificar imágenes como saludables o COVID-19 con precisión. Además, un objetivo secundario era demostrar cómo los algoritmos de aprendizaje profundo podrían satisfacer las pautas de mejores prácticas actuales para crear modelos reproducibles y menos sesgados.
Detalles del estudio
El modelo de efectos mixtos propuesto se desarrolló utilizando datos de Rusia y China retrospectivamente. Los datos en Rusia se recopilaron entre el 1 de marzo de 2020 y el 25 de abril de 2020. El China Consortium of Chest CT Image Investigation (CC-CCII) proporcionó datos entre el 25 de enero de 2020 y el 27 de marzo de 2020. El estudio involucró datos de 1110 y 796 pacientes con COVID-19 o volúmenes de TC sanos de Rusia y China, respectivamente.
Diagrama del marco general. Se eligen veinte cortes de un volumen de TC. Cada segmento se alimenta a una CNN con pesos compartidos, que genera un vector de características de longitud 2048 para cada imagen. Los vectores de características forman una matriz de efectos fijos de 20 por 2048, X, para el modelo GMM con una matriz de efectos aleatorios, Z, que consta de una matriz de identidad. Se utiliza un modelo de efectos mixtos para modelar la relación entre sectores. Finalmente, una capa completamente conectada y la activación sigmoidea devuelven una posibilidad de diagnóstico.
El método propuesto utilizó un extractor de características y un modelo de efectos mixtos lineales generalizados (GLMM) de dos etapas, utilizando retropropagación. Los modelos de efectos mixtos son modelos estadísticos que consisten en una parte de efectos fijos y una parte de efectos aleatorios. La parte de efectos fijos se usa para modelar la relación dentro del corte CT, y la parte de efectos aleatorios luego modela la correlación espacial entre cortes CT dentro de la misma imagen.
Imágenes de ejemplo que muestran (a) pulmones sanos y (b) COVID-19 tomados del conjunto de datos de Mosmed.
En primer lugar, se introdujo en el modelo una serie de cortes de TC que formaban un volumen de TC. Este paso fue seguido por una capa de efectos mixtos que concatena los vectores de características en un solo vector. Finalmente, una capa completamente conectada seguida de una activación sigmoidea dio la posibilidad de COVID-19 para todo el volumen. Los efectos mixtos y la capa totalmente conectada con activación sigmoidea eran análogos a un GLMM lineal en las estadísticas tradicionales.
Para el extractor de funciones, los investigadores utilizaron InceptionV3, una red neuronal complicada (CNN). Después de seleccionar la red neuronal, los investigadores utilizaron una capa de agrupación promedio global para reducir cada imagen a un vector de características para cada segmento, con una caída de 0,6 para mejorar la generalización a imágenes no vistas. Luego, los vectores de características se transformaron en una matriz de 20 x 2048. La novedad de este proceso radica en que los investigadores usaron una capa de efectos mixtos que anteriormente solo se usaba en cálculos estadísticos duros para modelar la relación entre cortes.
Los investigadores utilizaron un conjunto de datos de validación interna para entrenar el modelo propuesto. El modelo mostró un AUROC (área bajo la curva operativa del receptor) de 0,936 (IC del 95 %: 0,910, 0,961). Con un punto de corte óptimo de 0,740, la sensibilidad, la especificidad, el valor predictivo negativo (VPN) y el valor predictivo positivo (VPP) fueron 0,807 (0,761, 0,853), 0,953 (0,908, 0,853), 0,983 (0,966, 1,0) , y 0,596 (0,513, 0,678), respectivamente.
Al validar el modelo externamente, alcanzó un AUROC de 0,930 (0,914, 0,947). Con un punto de corte óptimo de 0,878, la sensibilidad, la especificidad, el VPN y el VPP fueron 0,758 (0,722, 0,793), 0,963 (0,939, 0,987), 0,979 (0,965, 0,993) y 0,636 (0,587, 0,685), respectivamente. . .
Cuando faltaba el 20% de las imágenes de tomografía computarizada en el conjunto de datos de validación, hubo una reducción estadísticamente significativa en el rendimiento predictivo del modelo. Aunque, incluso con un 50 % de falta de datos, el modelo siguió funcionando relativamente bien, con un AUROC de 0,890 (IC del 95 %: 0,868, 0,912), lo que destaca su solidez.
Implicación
Este estudio es otro indicador del aprovechamiento del poder del aprendizaje profundo para la detección y el seguimiento de la COVID-19 en un entorno clínico. Sin embargo, la validación en el entorno previsto es vital y los modelos no deben adoptarse sin ella. Este estudio también destacó la importancia de la validación externa en el desarrollo de un modelo sólido para la predicción de enfermedades.
*Noticia importante
medRxiv publica informes científicos preliminares que no son revisados por pares y, por lo tanto, no deben considerarse concluyentes, guiar la práctica clínica/el comportamiento relacionado con la salud ni tratarse como información establecida.
«Solucionador de problemas profesional. Sutilmente encantador aficionado al tocino. Jugador. Ávido nerd del alcohol. Pionero de la música».