Por qué la IA no estuvo a la altura de su potencial durante la pandemia

La pandemia podría haber sido el momento en que la IA aprovechó su prometedor potencial. Hubo una convergencia sin precedentes entre la necesidad de tomar decisiones rápidas y basadas en pruebas y de resolver problemas a gran escala, con conjuntos de datos que se extendían por todos los países del mundo. En cambio, la IA falló de innumerables formas específicas que subrayan los puntos en los que esta tecnología aún es débil: los conjuntos de datos incorrectos, los sesgos y la discriminación incrustados, la susceptibilidad a los errores humanos y un contexto global complejo y desigual provocaron fracasos críticos. Sin embargo, estos fracasos también ofrecen lecciones sobre cómo podemos mejorar la IA: 1) necesitamos encontrar nuevas formas de recopilar conjuntos de datos completos y combinar datos de varias fuentes, 2) tiene que haber más diversidad en las fuentes de datos, 3) los incentivos deben estar alineados para garantizar una mayor cooperación entre los equipos y sistemas, y 4) necesitamos normas internacionales para compartir datos.

•••

La pandemia de la COVID-19 fue el momento perfecto para que la IA, literalmente, salvara el mundo. Hubo una convergencia sin precedentes entre la necesidad de tomar decisiones rápidas y basadas en pruebas y de resolver problemas a gran escala, con conjuntos de datos que se extendían por todos los países del mundo. Para los sistemas de salud que se enfrentaban a una enfermedad nueva y que se propagaba rápidamente, la IA era, en teoría, la herramienta ideal. La IA podría desplegarse para hacer predicciones, mejorar la eficiencia y liberar personal mediante la automatización; podría ayudar a procesar rápidamente enormes cantidades de información y a tomar decisiones que salven vidas.

O, al menos, esa era la idea. Pero lo que realmente pasó es que la IA falló en su mayoría.

Hubo éxitos dispersos, sin duda. La adopción de la automatización se intensificó en los almacenes minoristas y los aeropuertos; los chatbots se apoderaron del servicio de atención al cliente cuando los trabajadores estaban confinados; las decisiones ayudadas por la IA ayudaron a reducir la selección de sitios paraensayos de vacunas o ayudó a acelerar los cruces fronterizos enGrecia.

Sin embargo, en general, al diagnosticar la Covid, predecir su curso en una población y gestionar la atención de las personas con síntomas, las herramientas de decisión basadas en la IA no lo lograron. Ahora que parte de la confusión de los primeros días de la pandemia se ha resuelto, es hora de reflexionar sobre el rendimiento de la IA en su propia «prueba de Covid». Si bien fue una oportunidad perdida, la experiencia proporciona pistas sobre cómo deben evolucionar los sistemas de IA para cumplir con las elevadas expectativas de lo que fuede lo que más se habla tecnología del año pasado.

Dónde falló la IA

Al principio, las cosas parecían prometedoras. Las máquinas golpean a los humanos al lanzar la alerta temprana sobre un nuevo y misterioso virus en Wuhan (China). Hospital de Niños de BostonSistema HealthMap, que busca señales tempranas de enfermedades en las noticias de Internet y las redes sociales, junto con un recopilador de noticias de salud canadiense, Punto azul, captó las señales de advertencia. El algoritmo de BlueDot incluso pronosticó las ciudades con mayor riesgo si las personas infectadas viajaran, todos los días antes de que la OMS y semanas antes de que el resto del mundo se pusiera al día.

Cuando el mundo se bloqueó oficialmente en 2020, quedó claro que la contribución revolucionaria de la IA consistiría en la predicción rápida: el diagnóstico, el pronóstico y la previsión de la propagación de una enfermedad emergente desconocida, conno es una forma fácil de hacer la prueba por ello en el momento oportuno.

Numerosos equipos con IA se movilizaron para aprovechar la oportunidad. En el hospital Mount Sinai de Nueva York, por ejemplo, un equipodiseñó un sistema de IA para diagnosticar rápidamente la COVID-19 mediante algoritmos basados en datos de tomografías computarizadas pulmonares de China. Otro grupoen el MIT creó un diagnóstico mediante algoritmos entrenados en los sonidos de la tos. Un tercer equipo, unLa NYU y el chino colaboración, utilizó herramientas de IA para predecir qué pacientes con COVID-19 desarrollarían una enfermedad respiratoria grave. Llevábamos años escuchando hablar del potencial transformador de la IA y, de repente, tuvimos la oportunidad de verla en acción.

Entonces, ¿cómo funcionaron estos predictores de Covid impulsados por la IA? Dicho sin rodeos, aterrizaron con un ruido sordo. UNrevisión sistemática en El BMJ de las herramientas para el diagnóstico y el pronóstico de la COVID-19 descubrió que el rendimiento predictivo era débil en los entornos clínicos del mundo real. Otro estudio en la Universidad de Cambridgede más de 400 herramientas que utilizan modelos de aprendizaje profundo para diagnosticar la COVID-19 aplicado a las radiografías de tórax y los datos de las tomografías computarizadas los encontraron totalmente inutilizables. UNtercer estudio publicado en el diario, Naturaleza , consideró una amplia gama de aplicaciones, incluidas las predicciones, la detección de brotes, la supervisión en tiempo real del cumplimiento de las recomendaciones de salud pública y la respuesta a los tratamientos, y descubrió que tenían poca utilidad práctica.

Sin embargo, podemos aprender de estas decepciones a medida que nos preparamos para volver a construir una IA mejor. Hay cuatro puntos en los que aparecieron las líneas divisorias: conjuntos de datos incorrectos, discriminación automática, errores humanos y un contexto global complejo. Si bien se refieren a las decisiones sobre la COVID-19, las lecciones son ampliamente aplicables.

El peligro de los conjuntos de datos incorrectos

Las herramientas de toma de decisiones de la IA solo son tan buenas como los datos que se utilizan para entrenar los algoritmos subyacentes. Si los conjuntos de datos son incorrectos, los algoritmos toman malas decisiones. En el contexto de la Covid, existen muchos obstáculos para reunir conjuntos de datos «buenos».

En primer lugar, la magnitud de los síntomas de la Covid puso de relieve el desafío de reunir conjuntos de datos completos. Los datos se tuvieron que extraer devarios historiales médicos electrónicos dispares, que normalmente estaban encerrados en diferentes sistemas institucionales y sus correspondientes silos. No solo cada sistema era independiente, sino que también tenían diferentes estándares de gobierno de datos con políticas de consentimiento y confidencialidad incompatibles. Estos problemas se vieron amplificados por los sistemas de salud que abarcaban diferentes países, con normas incompatibles sobre la privacidad de los pacientes, la gobernanza de los datos y la localización que limitaban la combinación masiva de dichos conjuntos de datos.

El impacto final de unos datos tan incompletos y de mala calidad fue que se tradujeron en malas predicciones, lo que hizo que las herramientas de toma de decisiones de la IA fueran poco fiables y poco fiables.

Un segundo problema se debió a la forma en que se recopilaban y almacenaban los datos en los entornos clínicos. Los recuentos agregados de casos son más fáciles de reunir, pero pueden omitir detalles clave sobre el historial del paciente y otros atributos demográficos, personales y sociales. Para predecir la forma en que el virus podría propagarse es importante obtener detalles aún más sutiles sobre cuándo el paciente estuvo expuesto, mostró síntomas y se hizo la prueba, la naturaleza de los síntomas, la variante con la que se había infectado, las intervenciones médicas y sus resultados, etc. Para agravar los problemas, se juntaron algunos conjuntos de datos de varias fuentes, lo que introdujo inconsistencias y redundancias.

En tercer lugar, un conjunto de datos completo con pistas sobre los síntomas de la Covid, cómo se puede propagar la enfermedad, quién es más o menos susceptible y cómo gestionar la enfermedad debería provenir de varias fuentes, dada su novedad. Además de los datos de los entornos de atención médica formales, hay otras fuentes de información, conjuntos de datos y análisis críticos que son importantes para predecir las vías de una enfermedad nueva y emergente. Estos datos adicionales pueden extraerse de varios repositorios, lo que aprovecha de forma eficaz las experiencias de las personas que se enfrentan a la enfermedad. Estos repositorios podrían incluir Twitter, foros de mensajes profesionales, análisis realizados por profesionales y aficionados en plataformas de «código abierto», revistas médicas, blogs y medios de comunicación. Por supuesto, una vez que se tienen en cuenta tantas fuentes dispares de datos relevantes, el proceso de integración, la corrección de información errónea o errónea, la corrección de las inconsistencias y el entrenamiento de los algoritmos aumentaron la complejidad de crear un conjunto de datos completo.

Discriminación automática

Incluso cuando había datos disponibles, las predicciones y decisiones recomendadas por los algoritmos de gestión de la atención médica conducían a decisiones potencialmente altamente discriminatorias, yle preocupa que algunos pacientes hayan recibido peores cuidados. Esto se debe a que los conjuntos de datos utilizados para entrenar los algoritmos reflejaban un registro de anomalías e inequidades históricas: niveles más bajos de acceso a una atención médica de calidad, registros incorrectos e incompletos y una profunda desconfianza en el sistema de salud, que llevó a algunos grupos a evitarla.

Existe una gran preocupación por los impactos negativos del sesgo de la IA, pero durante la pandemia, las consecuencias de ese sesgo fueron graves. Por ejemplo, considere un estudio anterior a la COVID enCiencia que descubrió que un algoritmo asignaba a los pacientes negros el mismo nivel de riesgo que a los pacientes blancos, a pesar de que estos últimos no estaban tan enfermos, lo que provocaba una atención médica inadecuada para los pacientes negros. De cara al futuro, dado que los pacientes negros e hispanos con COVID-19 sufrieron tasas de mortalidad más altas que los pacientes blancos, los algoritmos se basaron en esos datospodría recomendarlo que los hospitales redirijan sus escasos recursos a los pacientes negros e hispanos.

El impacto final de esta discriminación automatizada es aún más distorsionador si tenemos en cuenta que estos grupos desfavorecidos también se han visto afectados de manera desproporcionada por los casos más graves de la COVID-19: en los EE. UU., los negros, los hispanos y los nativos americanos fueron aproximadamenteel doble de probabilidades morir a causa de la enfermedad como pacientes blancos.

Error humano

La calidad de cualquier sistema de IA no puede disociarse de la de las personas y las organizaciones. Los comportamientos, desde la elección de las aplicaciones y los conjuntos de datos que se utilizan hasta la interpretación de las decisiones, dependen de los incentivos y los contextos organizacionales.

Los incentivos incorrectos pueden ser un gran problema. Los directores que supervisan los sistemas de salud solían tener pocos incentivos para compartir los datos de los pacientes; los datos podían haber estado vinculados a los ingresos o compartirlos podía generar dudas sobre la confidencialidad de los pacientes. Para los investigadores, las recompensas solían consistir en compartir datos con algunas partes seleccionadas, pero no con todo el mundo. Además, habíapocos incentivos profesionales para validar los resultados existentes, ya que hay más gloria en producir nuevos hallazgos que en replicar o validar otros estudios. Esto significa que es posible que los resultados del estudio no se hayan aplicado en una variedad de entornos lo suficientemente amplia, lo que los hace poco fiables o inutilizables y hace que los cuidadores duden en utilizar herramientas que no se han demostrado en varios entornos. Es particularmente arriesgado experimentar con la salud humana.

Luego, está el tema de los errores de entrada de datos. Gran parte de los datos acumulados sobre la COVID-19 se referían a entornos en los que los trabajadores de la salud trabajaban bajo presión y a un número de casos extraordinariamente elevado. Esto puede haber contribuido a que los conjuntos de datos estén mal etiquetados e incompletos, y los errores aparecen incluso encertificados de defunción. En muchos países, los sistemas de salud eran subregistro Casos de covid-19, ya sea porque las autoridades los alentaron a hacerlo, por directrices poco claras o simplemente porque el personal estaba abrumado.

Incluso con las herramientas de IA disponibles, los humanos responsables de la toma de decisiones a menudo carecían de capacidades interpretativas fundamentales, desde el lenguaje hasta el conocimiento del contexto o la capacidad de detectar sesgos y errores. Todavía no existe un código ético aceptado de manera uniforme, ni una lista de verificación, que dé a los cuidadores una idea de cuándo aplicar las herramientas de IA en lugar de mitigar los daños mediante el juicio. Esto podría provocar un uso o un uso indebido de las herramientas de IA y, finalmente, socavar la confianza en ellas.

Contexto global complejo y desigual

Una pandemia, por definición, afecta a diferentes sistemas políticos, económicos y socioculturales. Esto complica el proceso de recopilar un conjunto de datos completo que agrupe diferentes países con lecciones ampliamente aplicables. La pandemia puso de relieve el desafío de obtener herramientas de decisión de aplicación universal para gestionar la salud humana en todos los entornos de atención médica, independientemente de la ubicación geográfica. Las intervenciones médicas adecuadas dependen de muchos factores, desde la biología hasta las fuerzas institucionales, sociopolíticas y culturales y el entorno local. Aunque muchas facetas de la biología humana son comunes en todo el mundo, los demás factores varían mucho.

Por un lado, hay diferencias entre los países en cuanto a sus políticas en relación congobierno de datos. Muchos países tienen leyes de localización de datos que impiden que los datos se transporten a través de las fronteras. No hay un consenso internacional sobre cómo deben compartirse los datos de atención médica. Si bien la red internacional preexistente para compartir los datos de la secuencia del genoma de la gripe se amplió para incluir el intercambio de secuencias de la COVID-19, una colaboración más profunda entre los países para compartir datos podría haber ayudado a seguir gestionando la enfermedad. La ausencia de acuerdos de intercambio y gobernanza más amplios era un obstáculo fundamental.

En segundo lugar, había diferencias entre los países desarrollados y en desarrollo en lo que respecta al intercambio de datos de atención médica. Algunos investigadoresargumentan que las secuencias del genoma deben compartirse en bases de datos abiertas para permitir análisis a gran escala.Otros se preocupan sobre la explotación; les preocupa que a los investigadores e instituciones de los países más pobres no se les dé el crédito adecuado y que los beneficios del intercambio de datos se limiten a los países ricos.

En tercer lugar, la historia y los contextos sociopolíticos de los países y sus marcos éticos para el intercambio de datos, incluso entre sus propios ciudadanos, son diferentes, lo que provoca diferencias en la voluntad de recopilar, analizar y compartir datos personales para uso público. Tenga en cuenta las diversas experiencias con las aplicaciones de identificación de la exposición y rastreo de contactos con ayuda de la IA.

Corea del Sur presentó un ejemplo extremo de recopilación de datos intrusiva. El paísimplementó tecnología de rastreo de contactos junto conpruebas generalizadas. Es aplicaciones de rastreo se combinaron con imágenes de CCTV, historiales médicos y de viajes e información sobre transacciones con tarjetas de crédito. La voluntad de los coreanos de tolerar este nivel de intrusión se remonta a la historia del país. La administración anterior teníaestropeó su respuesta al brote de MERS de 2015, cuando no compartió información sobre los hospitales visitados por ciudadanos infectados. Esto llevó al apoyo público a la legislación que otorgaba a las autoridades sanitariasacceso a los datos sobre los ciudadanos infectados y el derecho a emitir alertas. Por el contrario, la aplicación de rastreo de contactos del gobierno alemán fue rechazada por el público una vezcarta abierta muy crítica de los expertos hizo temer a la vigilancia estatal. Como resultado, Alemaniaabandonó el modelo centralizado para unalternativa descentralizada. Una vez más, la historia da una explicación. Los alemanes han vivido dos regímenes de vigilancia famosos: el Gestapo durante la era nazi y elStasi durante la Guerra Fría. La recopilación de datos estatales controlada centralmente no estaba destinada a ser popular.

Por último, los datos de los pacientes de un país pueden no ser buenos predictores en otros países. Otros factores, como la raza, la demografía, las circunstancias socioeconómicas, la calidad de la atención médica, los niveles de inmunidad, las comorbilidades, etc., marcan la diferencia.

Qué hacer ahora

Hay varias lecciones que aprender que pueden ayudar a mejorar los futuros sistemas de IA que deberán estar preparados para la próxima pandemia.

1) Encuentre mejores formas de reunir conjuntos de datos completos y combinar datos de varias fuentes.

Ayudaría tener conjuntos de datos de atención médica en formatos estandarizados junto con mecanismos para crear repositorios de datos centralizados. También deberían tenerse en cuenta nuevas técnicas de procesamiento de datos. Los ejemplos incluyen la asignación paraprivacidad diferencial o usandodatos sintéticos en lugar de datos reales a medida que las tecnologías que facilitan esas innovaciones mejoran. Además, el problema no son solo los datos fragmentados o incompletos, sino también el exceso de datos. La transmisibilidad del virus, el hecho de que mute constantemente, el movimiento de personas a través de las fronteras y el uso generalizado de la secuenciación genómica hacen que los sistemas de IA deban gestionar una avalancha de datos. Debe haber sistemas que puedan gestionar conjuntos de datos tan grandes y etiquetarlos y organizarlos adecuadamente.

2) Tiene que haber una diversidad de fuentes de datos.

Se pueden aprender algunas lecciones del ejemplo deCiencia abierta de Nightingale, que ha acumulado 40 terabytes de imágenes médicas de una amplia gama de afecciones y tratamientos, junto con una diversidad de datos y resultados de los pacientes. Se utilizarán para entrenar los algoritmos para predecir las afecciones médicas antes, realizar una clasificación y salvar vidas de manera imparcial. Intentan trabajar con los sistemas de salud de todo el mundo, específicamente con los que no tienen recursos suficientes, para mitigar las posibilidades de infrarrepresentación y evitar la discriminación automática.

3) Los incentivos deben alinearse para garantizar una mayor cooperación entre los equipos y sistemas.

Los equipos de IA también deberían tener oportunidades e incentivos para colaborar con los médicos y otras personas que conozcan las cuestiones prácticas. También es esencial planificar la participación de diversos grupos de partes interesadas en el establecimiento de marcos éticos y listas de control para los profesionales que utilizan la IA en entornos de misión crítica, junto con procesos claros de gobernanza y responsabilidad. Estos grupos deberían incluir ingenieros y tecnólogos, expertos en áreas funcionales clave, así como especialistas en ética que puedan guiar el uso de los sistemas de IA y su alineación con los juicios de valor.

Apelar a las comunidades de código abierto es otra forma de reunir datos de varias fuentes de forma cooperativa. ElGrupo de trabajo abierto sobre datos sobre la COVID-19, el Red MIDAS, y otros esfuerzos de colaboración local proporcionar modelos que otros puedan replicar. Habilitar formas de colaboración interdisciplinaria puede ser clave para lograr avances. Por ejemplo, BioNTech, la empresa biotecnológica alemana que fue pionera en la tecnología del ARN mensajero detrás delVacuna Pfizer contra la COVID-19, se ha asociado con una empresa de IA con sede en Londres En Deep para crear un«sistema de alerta temprana» para detectar nuevas variantes del coronavirus.

4) Redacte normas internacionales para el intercambio de datos.

Para que los datos de salud se compartan entre los países, necesitamos convenciones internacionales que faciliten la puesta en común de esa información crítica y acuerdos sobre el intercambio de datos, al tiempo que preservamos la privacidad y la confidencialidad. Los equipos de IA deben estar capacitados para reconocer las diferencias en los entornos de atención médica globales, de modo que puedan colocar los datos de diferentes partes del mundo en el contexto adecuado.

A medida que la pandemia se haga endémica y nos preparemos para la próxima, la IA tendrá muchas oportunidades de dejar su huella. Tras las tan promocionadas tendencias de la gripe de Googleperdido Con la magnitud de la temporada de gripe de 2013, Covid ofrecía una enorme oportunidad de redimirse para la IA como herramienta de predicción. Pero dentro de los fracasos actuales se encuentran las semillas de los sistemas de IA que pueden prosperar en el futuro.