Un estudio reciente sugiere que denegar a los responsables de la IA el acceso a datos confidenciales en realidad aumenta el riesgo de resultados discriminatorios. Esto se debe a que la IA extrae conclusiones incompletas de los datos o las sustituye parcialmente mediante la identificación de los proxies. Proporcionar datos confidenciales eliminaría este problema, pero es problemático hacerlo en determinadas jurisdicciones. Los autores presentan soluciones alternativas que pueden responder al problema en algunos países.

•••

Las decisiones sobre a quién entrevistar para un trabajo, a quién prestar atención médica o a quién conceder un préstamo las tomaban antes personas, pero cada vez con más frecuencia las toman algoritmos de aprendizaje automático (ML), y ocho de cada 10 empresas tienen previsto invertir en algún tipo de aprendizaje automático en 2023según New Vantage. ¿Cuál es el objetivo principal de estas inversiones? Impulsar el crecimiento empresarial con los datos.

Si bien los datos pueden adoptar muchas formas, cuando se centra en generar crecimiento empresarial, la empresa suele interesarse por los datos individuales, que pueden pertenecer a clientes, empleados, clientes potenciales o a casi cualquier persona sobre la que la organización pueda recopilar datos legalmente. Los datos se introducen en los algoritmos de aprendizaje automático que encuentran patrones en los datos o generan predicciones; estos resultados se utilizan luego para tomar decisiones empresariales, generalmente sobre en quién o en qué centrar los esfuerzos empresariales.

Si bien la inversión en algoritmos de aprendizaje automático sigue creciendo e impulsando una mayor eficiencia empresarial, un 30% o más, segúnun informe reciente de McKinsey — el uso de modelos de aprendizaje automático y datos individuales conlleva algunos riesgos, éticos para ser específicos. El Foro Económico Mundial cita el desempleo, la desigualdad, la dependencia humana y la seguridad entre sus principales riesgos al utilizar la inteligencia artificial y el aprendizaje automático, pero con diferenciael mayor riesgo ético en la práctica es la discriminación.

El mayor riesgo

Sin duda, siempre ha existido una discriminación injustificada por parte de las empresas. La discriminación de los grupos históricamente desfavorecidos ha llevado a la formulación de varias leyes antidiscriminación, incluidas la Ley de Vivienda Justa de 1968 y la Ley de Igualdad de Oportunidades Crediticias de 1974 en los Estados Unidos, y la Directiva de género de la Unión Europea. El espacio crediticio, en particular, ha sido motivo de trato discriminatorio, hasta el punto de quediscriminación en los préstamos hipotecarios ha sido visto como uno de los temas de derechos civiles más controvertidos.

Históricamente, con la esperanza de evitar decisiones discriminatorias, los datos confidenciales, como la raza, el género y la edad individuales, se han excluido de las decisiones individuales importantes, como el acceso a los préstamos, la admisión a la universidad y la contratación. Ya sea que se hayan excluido los datos confidenciales de conformidad con las leyes antidiscriminación (como la exclusión de los datos de raza y género de las solicitudes de préstamos no hipotecarios de los consumidores en los Estados Unidos debido a la Ley de Igualdad de Oportunidades Crediticias) o con las prácticas de gestión de riesgos de la empresa, el resultado final es el mismo: las empresas rara vez tienen acceso a datos confidenciales o los utilizan para tomar decisiones que afectan a las personas, ya sea que utilicen el aprendizaje automático o personas que toman las decisiones.

A primera vista, esto tiene sentido; excluya los datos confidenciales individuales y no podrá discriminar a esos grupos. Tenga en cuenta cómo funciona esto a la hora de determinar a quién entrevistar para un trabajo, primero con una toma de decisiones basada en las personas. Un experto en recursos humanos eliminaría los nombres y los géneros de los candidatos de los currículums antes de analizar las credenciales de los candidatos para tratar de evitar la discriminación a la hora de determinar a quién entrevistar. Ahora, considere esta misma práctica de exclusión de datos cuando la decisión se toma con un algoritmo de aprendizaje automático; se eliminarían los nombres y los géneros de los datos de entrenamiento antes de incorporarlos al algoritmo de aprendizaje automático, que luego utilizaría estos datos para predecir alguna variable objetivo, como el rendimiento laboral esperado, para decidir a quién entrevistar.

Sin embargo, si bien esta práctica de exclusión de datos ha reducido la discriminación en la toma de decisiones basada en las personas, puede crear discriminación cuando se aplica a la toma de decisiones basada en la ML, especialmente cuando existe un desequilibrio significativo entre los grupos de población. Si la población que se está considerando para un proceso empresarial en particular ya está sesgada (como ocurre con las solicitudes y aprobaciones de crédito), el aprendizaje automático no podrá resolver el problema simplemente sustituyendo a la persona que toma las decisiones. Esto se hizo evidente en 2019, cuando la Apple Card fue acusada de discriminación de género a pesar de no haber utilizado datos de género en el desarrollo de sus algoritmos de aprendizaje automático. Paradójicamente, esa resultó ser la razón dela desigualdad de trato a los clientes.

El fenómeno no se limita al espacio crediticio. Considere unproceso de toma de decisiones de contratación en Amazon cuyo objetivo era utilizar un algoritmo de aprendizaje automático. Un equipo de científicos de datos entrenó un algoritmo de aprendizaje automático con los datos del currículum para predecir el desempeño laboral de los solicitantes con la esperanza de agilizar el proceso de selección de las personas a las que entrevistar. El algoritmo se basó en los currículums de los empleados actuales (datos individuales), suprimiendo el género y los nombres, con la esperanza de evitar la discriminación, según las prácticas humanas de toma de decisiones. El resultado fue exactamente lo contrario: el algoritmo discriminó a las mujeres al predecir que tendrían un desempeño laboral significativamente inferior al de los hombres con habilidades similares. Amazon, por suerte, detectó esta discriminación antes de que el modelo se utilizara con solicitantes reales, pero solo porque tenían acceso al género del solicitante, a pesar de no haberlo utilizado para entrenar el algoritmo de aprendizaje automático, con el que medir la discriminación.

Argumentos a favor de incluir datos confidenciales

Enun estudio reciente publicado en Gestión de operaciones de fabricación y servicios Pensemos en un prestamista de tecnología financiera que utiliza un algoritmo de aprendizaje automático para decidir a quién conceder un préstamo. El prestamista utiliza los datos individuales de los anteriores prestatarios para entrenar un algoritmo de aprendizaje automático y generar predicciones sobre si un solicitante de préstamo no cumplirá o no si se le concede un préstamo. Según la jurisdicción legal y las prácticas de gestión de riesgos del prestamista, es posible que el prestamista haya recopilado o no datos de atributos confidenciales, como el sexo o la raza, o que pueda utilizarlos para entrenar el algoritmo de aprendizaje automático. (Aunque nuestra investigación se centra en el género, esto no debería disminuir la importancia de investigar otros tipos de discriminación algorítmica. En nuestro estudio, el género se indicó como mujer u hombre; reconocemos que el género no es binario, pero nuestro conjunto de datos lo restringe.)

La práctica habitual, como hemos mencionado anteriormente, ya sea por motivos legales o de gestión de riesgos, es que el prestamista no utilice datos confidenciales, como el género. Pero, en vez de eso, nos preguntamos qué pasaría si se incluyera el género. Si bien esta idea puede sorprender a algunos, es una práctica común en muchos países recopilar información de género (por ejemplo, Canadá y los países de la Unión Europea) e incluso utilizarla en algoritmos de aprendizaje automático (por ejemplo, Singapur).

Incluir el género reduce significativamente la discriminación, un factor de 2,8 veces. Sin acceso al género, el algoritmo de aprendizaje automático predice en exceso que las mujeres dejarán de pagar en comparación con su tasa real de morosidad, mientras que la tasa de los hombres es precisa. Añadir el género al algoritmo de aprendizaje automático corrige este problema y la brecha en la precisión de las predicciones para los hombres y las mujeres que no cumplen con los requisitos disminuye. Además, el uso del género en el algoritmo de aprendizaje automático también aumenta la rentabilidad de media un 8%.

La propiedad clave de los datos de género en este caso es que proporcionan poder predictivo al algoritmo de aprendizaje automático.

Dado esto, si se excluye el género, pueden ocurrir tres cosas: 1) se pierde cierta cantidad de información predictiva directamente relacionada con el género, 2) la discriminación de género injusta que se pueda introducir en el proceso no se puede controlar ni corregir de manera eficiente y 3) una parte de esa información se estima mediante proxies, variables que están altamente correlacionadas con otra, de modo que cuando se elimina una variable, como el género, una serie de otras variables pueden triangular esa variable..

Descubrimos que los indicadores (como la profesión o la relación entre la experiencia laboral y la edad) pueden predecir el género con una precisión del 91% en nuestros datos, por lo que, aunque se elimina el género, el algoritmo estima gran parte de la información de género a través de proxies. Pero estos poderes favorecen a los hombres. Sin acceso a los datos de género reales, el algoritmo de aprendizaje automático no es capaz de recuperar tanta información para las mujeres en comparación con los hombres, y las predicciones para las mujeres se ven afectadas, lo que resulta en discriminación.

Los proxies también eranfactor clave en la discriminación en el algoritmo de aprendizaje automático de contratación de Amazon, que no tenía acceso al género, pero sí a varios poderes de género, como universidades y clubes. El algoritmo de aprendizaje automático penalizaba los currículums de las personas con términos como «capitana de un club de ajedrez femenino» y rebajaba la calificación de las graduadas de universidades exclusivamente femeninas porque se formó con una muestra de empleados actuales de ingeniería de software, que resulta que eran principalmente hombres y ningún hombre pertenecía a estos clubes ni asistía a estas universidades.

No se trata solo de un problema de discriminación de género. Si bien nuestra investigación se centra en el género como atributo de interés sensible, podría producirse un efecto similar si se excluyera de un algoritmo de aprendizaje automático cualquier dato confidencial con valor predictivo, como la raza o la edad. Esto se debe a que los algoritmos de aprendizaje automático aprenden de la asimetría histórica de los datos y la discriminación podría aumentar aún más si la categoría de datos confidenciales incluye grupos minoritarios más pequeños, por ejemplo, personas no binarias en la categoría de género, o si tenemos en cuenta los riesgos de discriminación interseccional (por ejemplo, la combinación de género y raza, o edad y orientación sexual).

Nuestro estudio muestra que, siempre que es posible, el acceso a datos de atributos confidenciales puede reducir sustancialmente la discriminación y, a veces, también aumentar la rentabilidad.

Para entender cómo funciona esto, consulte la situación crediticia que estudiamos. En general, las mujeres solicitan mejores préstamos que los hombres y las personas con más experiencia laboral son mejores prestatarias que las que tienen menos. Pero las mujeres también tienen menos experiencia laboral, de media, y representan una minoría de los anteriores prestatarios (en los que se entrenan los algoritmos de aprendizaje automático).

Bien, por el bien de este estilizado ejemplo, imagine que una mujer con tres años de experiencia laboral es lo suficientemente solvente y un hombre no. Al tener acceso a los datos de género, el algoritmo lo predeciría correctamente, lo que se traduciría en la emisión de préstamos a mujeres con tres años de experiencia, pero se los negaría a los hombres.

Pero cuando el algoritmo no tiene acceso a los datos de género, descubre que una persona con tres años de experiencia se parece más a un hombre y, por lo tanto, predice que esa persona será un mal prestatario y deniega los préstamos a todos los solicitantes con tres años de experiencia. Esto no solo reduce el número de préstamos rentables emitidos (lo que perjudica a la rentabilidad), sino que esa reducción se debe únicamente a la denegación de préstamos a mujeres (lo que aumenta la discriminación).

Qué pueden hacer las empresas

Obviamente, el simple hecho de incluir el género mejorará el número de préstamos concedidos a mujeres y la rentabilidad de las empresas. Pero muchas empresas no pueden simplemente hacer eso. Para ellos, hay algo de luz al final del túnel, y en los próximos años se promulgarán varios reglamentos nuevos de inteligencia artificial, incluida la de la ciudad de Nueva YorkLey de herramientas automatizadas de toma de decisiones laborales, y el Ley de Inteligencia Artificial de la Unión Europea.

Estas leyes parecen evitar las prohibiciones estrictas de datos y modelos, sino que optan por auditorías basadas en el riesgo y se centran en los resultados de los algoritmos, lo que probablemente permita la recopilación y el uso de datos confidenciales en la mayoría de los algoritmos. Este tipo de regulación de la IA centrada en los resultados no es del todo nueva, y se proponen directrices similares en elPrincipios para promover la equidad, la ética, la responsabilidad y la transparencia de la Autoridad Monetaria de Singapur.

En este contexto, hay tres formas en las que las empresas podrían incluir los datos de género en la toma de decisiones de aprendizaje automático en el futuro. Pueden 1) preprocesar los datos antes de entrenar un algoritmo de aprendizaje automático (por ejemplo, reducir el muestreo de los hombres o aumentar el muestreo de las mujeres) para que el modelo se entrene con datos más equilibrados, 2) imputar el género a partir de otras variables (por ejemplo, las profesiones o una relación entre la experiencia laboral y el número de hijos) y 3) ajustar los hiperparámetros del modelo con el género y, a continuación, eliminar el género para estimar los parámetros del modelo.

Descubrimos que estos enfoques reducían significativamente la discriminación y tenían un impacto menor en la rentabilidad. El primer enfoque reduce la discriminación entre un 4,5 y un 24%, a costa de una pequeña reducción en la rentabilidad general de los préstamos, del 1,5 al 4,5%. La segunda reduce la discriminación en casi un 70% y aumenta la rentabilidad un 0,15%, respectivamente, y la tercera reduce la discriminación en un 37%, con un coste de alrededor del 4,4% en términos de reducción de la rentabilidad. (Consultenuestro periódico para obtener más información.)

En algunos casos, y si estas otras estrategias no son eficaces, es mejor que las empresas simplemente devuelvan el derecho a tomar decisiones de las personas. De hecho, esto es lo que hizo Amazon tras revisar los problemas de discriminación con la contratación de software de IA.

Por lo tanto, animamos a las empresas a que participen activamente en las conversaciones con los organismos reguladores que están elaborando directrices en este ámbito y a que consideren la recopilación responsable de datos confidenciales dentro de los límites de sus reglamentos pertinentes, de modo que puedan, como mínimo, medir la discriminación en los resultados de sus algoritmos de aprendizaje automático e, idealmente, utilizar los datos confidenciales para reducirla. Es posible que a algunas empresas se les permita utilizar los datos para el entrenamiento inicial de los algoritmos de aprendizaje automático, al tiempo que los excluyen de las decisiones individuales.

Este punto medio es mejor que no utilizar los datos confidenciales en absoluto, ya que los métodos antes mencionados pueden ayudar a reducir la discriminación con un impacto menor y, a veces, incluso un aumento en la rentabilidad. Con el tiempo, y a medida que surjan más pruebas de que los datos confidenciales se pueden recopilar y utilizar de forma responsable, debemos esperar que surja un marco que permita su uso.