La ética de la gestión de los datos de las personas

Durante los últimos años, la Unión Europea ha multado a empresas más de 1400 veces, hasta un total de casi 3 000 millones de euros, por infringir el Reglamento General de Protección de Datos (GDPR). Casi todas las semanas aparecen historias sobre cómo las decisiones impulsadas por la IA provocan discriminación contra las mujeres o los miembros de minorías en la contratación de puestos de trabajo, la aprobación de créditos, los diagnósticos médicos o las sentencias penales. Estas historias están avivando la inquietud por la forma en que se recopilan, utilizan y analizan los datos. Según los autores, los directores que examinan proyectos que implican la recopilación de datos proporcionados por humanos o el uso de las bases de datos existentes deben centrarse en cinco cuestiones fundamentales: procedencia de los datos, los propósito para lo que se utilizará, cómo será protegido, cómo el privacidad de los proveedores de datos se puede garantizar y cómo están los datos preparado para su uso. Empiezan con un breve resumen de los requisitos organizativos para un proceso de revisión ética sólido.

•••

Resumen de la idea

El problema

A medida que las empresas buscan una ventaja competitiva en la era digital, se las penaliza cada vez más por el abuso de datos. En 2018, solo el escándalo de Cambridge Analytica borró 36 000 millones de dólares del valor de mercado de Facebook y se tradujo en multas de casi 6 000 millones de dólares para Meta, la empresa matriz de Facebook.

Por qué ocurre

La mayoría de los problemas se deben a (1) errores éticos en la obtención de datos, (2) el uso de los datos para fines distintos de los comunicados inicialmente, (3) la falta de seguridad al almacenarlos, (4) la forma en que se anonimizan y (5) la forma en que se preparan para su uso.

La solución

Las empresas deberían crear una unidad especial para revisar los proyectos que incluyan datos de personas. En sus reseñas, esta unidad debería tener en cuenta detenidamente las cinco P de la seguridad de los datos: procedencia, finalidad, protección, privacidad, y preparación.

La capacidad de codificar, almacenar, analizar y compartir datos crea enormes oportunidades para las empresas, por lo que invierten con entusiasmo en inteligencia artificial, incluso en un momento de incertidumbre económica. ¿Qué clientes es probable que compren qué productos y cuándo? ¿Qué competidores es probable que avancen o se queden atrás? ¿Cómo crearán los mercados y economías enteras ventajas o amenazas comerciales? Los datos y los análisis ofrecen a las empresas respuestas mejor informadas y con mayor probabilidad a esas y muchas otras preguntas.

Pero la necesidad de datos abre la puerta al abuso. Durante los últimos años, la UE ha multado a empresas más de 1400 veces, hasta un total de casi 3 000 millones de euros, por infringir el Reglamento General de Protección de Datos (GDPR). En 2018, solo el escándalo de Cambridge Analytica borró 36 000 millones de dólares del valor de mercado de Facebook y se tradujo en multas de casi 6 000 millones de dólares para Meta, la compañía madre de Facebook. Y abundan las historias sobre cómo las decisiones impulsadas por la IA discriminan a las mujeres y a los miembros de minorías en la contratación de puestos de trabajo, la aprobación de créditos, los diagnósticos de atención médica e incluso las sentencias penales, lo que aviva el malestar por la forma en que se recopilan, utilizan y analizan los datos. Esos temores no harán más que intensificarse con el uso de chatbots como ChatGPT, Bing AI y GPT-4, que adquieren su «inteligencia» a partir de los datos que les proporcionan sus creadores y usuarios. Lo que hacen con esa información puede dar miedo. Un chatbot de Bing incluso declaró en un intercambio que priorizaría su propia supervivencia por encima de la del humano con el que interactuaba.

Al examinar nuevos proyectos que implicarán datos proporcionados por humanos o que aprovecharán las bases de datos existentes, las empresas deben centrarse en cinco cuestiones fundamentales: la procedencia de los datos, los propósito para lo que se utilizará, cómo es protegido, cómo el privacidad de los proveedores de datos está garantizado y cómo están los datos preparado para su uso. A estos temas los llamamos las cinco P (consulte la exposición «Las cinco P del manejo ético de los datos»). En las páginas siguientes analizaremos cada una de ellas y analizaremos cómo las tecnologías de IA aumentan el riesgo de abuso de datos. Pero primero ofreceremos un breve resumen de los requisitos organizativos para un proceso de revisión ética sólido.

Organizar la supervisión de los datos

En el mundo académico, la adquisición de datos de seres humanos suele ser supervisada por una junta de revisión institucional (IRB) interna, cuya aprobación deben tener los investigadores para obtener acceso a las personas involucradas, a los fondos de investigación o al permiso de publicación. Los IRB están compuestos por académicos versados en la investigación y la ética en torno a la adquisición y el uso de la información. Aparecieron por primera vez en el campo de la investigación médica, pero ahora las organizaciones académicas las utilizan casi de manera universal para cualquier investigación con seres humanos.

Algunas grandes empresas también han creado IRB, normalmente bajo la dirección de un especialista en ética digital, contratando a expertos en tecnología externos para que formen parte del personal de los consejos de administración de forma ad hoc y asignando ejecutivos internos de las unidades de cumplimiento y de negocio según sea necesario. Pero eso sigue siendo poco frecuente: incluso en Europa, que ha estado a la vanguardia de la regulación de datos, la mayoría de las empresas siguen asignando la responsabilidad del cumplimiento del GDPR a un gerente de cumplimiento de nivel medio o superior, que a menudo tiene alguna formación en ingeniería legal o informática, pero no una formación ética exhaustiva y rara vez tiene un conocimiento sólido de las tecnologías digitales emergentes. Aunque un director de cumplimiento sin duda debería formar parte de un IRB corporativo, probablemente no debería dirigirlo. De hecho, el Consejo Europeo de Protección de Datos anunció en marzo de 2023 que estaba preocupado por este tema y que se enviarían cuestionarios a los oficiales de protección de datos para determinar si sus funciones corporativas son adecuadas para garantizar el cumplimiento.

Puede encontrar un buen resumen de cómo las empresas podrían establecer un proceso tipo IRB en»Por qué necesita un comité de ética de la IA», de Reid Blackman (HBR, julio-agosto de 2022). Nuestra experiencia confirma la mayoría de sus puntos principales. Un IRB corporativo debe tener de cuatro a siete miembros, según la frecuencia, la importancia y el tamaño de los proyectos digitales de la empresa. Los miembros deben incluir un especialista en cumplimiento, un científico de datos, un ejecutivo de negocios familiarizado con el área funcional de los proyectos digitales (como los recursos humanos, el marketing o las finanzas) y uno o más profesionales sénior con las credenciales académicas adecuadas. No se necesitará la pensión completa para cada revisión. La Escuela de Economía de Londres, por ejemplo, utiliza su junta completa solo para supervisar los proyectos más complicados. Los más simples se pueden evaluar en menos de una semana mediante un cuestionario en línea y con la participación de un solo miembro de la junta.

Cualquier proyecto nuevo que implique la recopilación, el almacenamiento y el procesamiento de datos sobre personas debe ser aprobado por el IRB corporativo antes de recibir el visto bueno. No debería haber excepciones a esta regla, por pequeño que sea el proyecto. Además, la mayoría de las empresas ya han recopilado grandes almacenes de datos humanos y siguen generándolos a partir de sus operaciones; el IRB corporativo también debería examinar esos proyectos.

Una revisión del IRB comienza con nuestra primera P: explorar cómo un proyecto recopilará (o recopiló) los datos: de dónde provienen, si se recopilaron con el conocimiento y el consentimiento de los sujetos de la investigación y si su recopilación implicó o implicará alguna coacción o subterfugio.

1. Procedencia

Para entender qué puede fallar en la obtención de datos, consideremos el caso de Clearview AI, una empresa de reconocimiento facial que recibió mucha atención en 2021 por recopilar fotos de personas, utilizarlas para entrenar algoritmos de reconocimiento facial y, luego, vender el acceso a su base de datos de fotos a los organismos encargados de hacer cumplir la ley. Según un informe de la BBC, «un oficial de policía que quiera identificar a un sospechoso [puede] subir una foto de un rostro y encontrar coincidencias en una base de datos de miles de millones de imágenes que ha recopilado en Internet y las redes sociales».

La agencia reguladora australiana se opuso al método de recopilación de Clearview y consideró que infringía la Ley de Privacidad de Australia al obtener información personal y confidencial sin consentimiento ni notificación, por medios injustos y sin siquiera garantizar que la información fuera precisa. Tras esa conclusión, el gobierno ordenó a Clearview dejar de recopilar y eliminar las fotos existentes tomadas en Australia. En Francia, la Commission Nationale de l’Informatique et des Libertés (CNIL) también ordenó a la empresa dejar de recopilar, procesar y almacenar datos faciales. Ese caso puede ser una de las razones por las que Facebook anunció que abandonaría su sistema de reconocimiento facial y eliminaría los datos de escaneo facial de más de mil millones de usuarios.

Incluso cuando los motivos de la recopilación de datos son transparentes, los métodos utilizados para recopilarlos pueden no ser éticos, como ilustra el siguiente ejemplo compuesto, extraído de nuestra investigación. Una empresa de contratación comprometida con la promoción de la diversidad y la inclusión en la fuerza laboral descubrió que los candidatos que publicaban en su plataforma sospechaban que estaban siendo discriminados por su perfil demográfico. La empresa quería asegurarles que los algoritmos que hacían coincidir las ofertas de trabajo con los candidatos se basaban en las habilidades y eran neutrales desde el punto de vista demográfico y que cualquier discriminación se producía en las empresas de contratación, no en la plataforma.

La empresa acudió a una conocida escuela de negocios y encontró a un profesor que estaba dispuesto a realizar una investigación para comprobar la posible discriminación por parte de las empresas de contratación. El investigador propuso replicar un estudio realizado unos años antes que había creado varios currículums estándar, pero que variaba la raza y el sexo de los solicitantes. Se enviarían miles de solicitudes de empleo falsas a las empresas de la zona y se rastrearían y analizarían las respuestas. Si hubiera alguna discriminación activa, los resultados mostrarían diferentes tasas de aceptación en función de las variables demográficas integradas.

A los directores de marketing y ventas de la empresa les gustó la propuesta y les ofrecieron un contrato. Como la escuela de negocios exigía una evaluación ética, la propuesta se presentó al IRB, que la rechazó con el argumento de que el profesor proponía recopilar datos de las empresas mediante subterfugios. Estaría mintiendo a los posibles usuarios corporativos de la plataforma y pidiéndoles que trabajaran para el cliente de la escuela sin que ellos lo sepan y sin ningún beneficio para ellos. (De hecho, las empresas podrían verse perjudicadas por la participación si se pudiera identificar que utilizan procesos de contratación discriminatorios).

La lección de esta historia es que las buenas intenciones no bastan para que la recopilación de datos sea ética.

Las empresas deben tener en cuenta la procedencia no solo de los datos que tienen previsto obtener, sino también de los datos que ya poseen. Muchos de ellos recopilan de forma rutinaria los llamados datos oscuros que rara vez se utilizan, a menudo se olvidan y, a veces, incluso se desconocen. Los ejemplos incluyen datos de clientes ignorados o no compartidos, registros de visitas, fotos, documentos de presentación archivados pero sin catalogar, correos electrónicos, informes de servicio de atención al cliente o transcripciones grabadas, registros de uso o mantenimiento generados por máquinas y reacciones en las redes sociales a las publicaciones corporativas. Aunque estos datos suelen estar desestructurados y, por lo tanto, son difíciles de integrar, su valor potencial es enorme, por lo que muchos desarrolladores de software están creando productos para ayudar a las empresas a encontrar y utilizar sus datos oscuros. Esto nos lleva a la segunda P.

2. Propósito

En el contexto corporativo, los datos recopilados para un propósito específico con el consentimiento de personas se utilizan a menudo posteriormente para algún otro propósito que no se comunica a los proveedores. Por lo tanto, al revisar la explotación de los datos existentes, la empresa debe determinar si se requiere un consentimiento adicional.

Por ejemplo, un gran banco de Francia quería poner a prueba la hipótesis de que la intimidación o el acoso sexual de sus compañeros y subordinados podrían identificarse examinando los correos electrónicos corporativos. El director de diversidad del departamento de recursos humanos creía que detectar pronto un posible acoso permitiría a la empresa intervenir de manera oportuna y, tal vez, incluso evitar por completo una situación de acoso al capacitar a las personas para que estuvieran atentas a las señales de advertencia.

El banco lanzó un estudio de prueba y encontró pruebas contundentes de que las comunicaciones por correo electrónico podían pronosticar un acoso posterior. A pesar de esa conclusión, una revisión ad hoc de los resultados por parte de varios altos directivos llevó a la empresa a archivar el proyecto porque, como señalaron los directores, los datos que se recopilaban (es decir, los correos electrónicos) se diseñaron originalmente para comunicar información relacionada con el trabajo. Las personas que los enviaron no habrían considerado que su propósito era predecir o detectar actividades ilegales.

Justyna Stasik

En lo que respecta a los datos de los clientes, las empresas suelen ser mucho menos escrupulosas. Muchos lo ven como una fuente de ingresos y lo venden a terceros o agentes de direcciones comerciales. Pero las actitudes en contra de eso se están endureciendo. En 2019, el gobierno austriaco impuso al servicio postal austriaco una multa de 18 millones de euros por vender los nombres, direcciones, edades y afiliaciones políticas (cuando estén disponibles) de sus clientes. La agencia reguladora nacional descubrió que los datos postales recopilados con un propósito (entregar cartas y paquetes) se estaban reutilizando de manera inapropiada para su marketing dirigido a los clientes, lo que podía combinarlos con datos públicos de fácil acceso (como estimaciones del valor de la vivienda, tasas de propietarios de viviendas, densidad residencial, número de unidades de alquiler y denuncias de delitos callejeros) para encontrar clientes potenciales. Entre los compradores de los datos había partidos políticos que intentaban influir en los posibles votantes. La multa se anuló en apelación, pero la turbidez de la reutilización (o el uso indebido) de los datos de los clientes sigue siendo un problema importante para las empresas y los gobiernos.

La mayoría de las empresas utilizan sus bases de datos de clientes para vender a sus clientes otros servicios, pero eso también les puede traer problemas. En 2021, la Oficina del Comisionado de Información, una autoridad británica independiente que promueve la privacidad de los datos, acusó a Virgin Media de infringir los derechos de privacidad de sus clientes. Virgin Media había enviado 1.964.562 correos electrónicos anunciando que congelaría sus precios de suscripción. Era bastante razonable, pero Virgin también había utilizado los correos electrónicos para hacer marketing con esos clientes. Como 450 000 suscriptores de la lista habían optado por no recibir promociones de marketing, el regulador impuso una multa de 50 000 libras a Virgin por infringir ese acuerdo.

La posibilidad de que las bases de datos de las empresas puedan reutilizarse sin el consentimiento de los proveedores de datos nos lleva a la tercera P.

3. Protección

Según el Centro de Recursos sobre Robo de Identidad, en 2021 se produjeron casi 2000 filtraciones de datos en los Estados Unidos. Incluso las empresas de tecnología más grandes y sofisticadas han sufrido enormes infracciones, con los datos personales de más de varios miles de millones de personas expuestos. La situación en Europa, a pesar de algunas de las leyes más protectoras del mundo, no es mucho mejor. Virgin Media dejó los datos personales de 900 000 suscriptores sin protección y accesibles en sus servidores durante 10 meses debido a un error de configuración, y al menos una persona no autorizada accedió a esos archivos durante ese período.

La práctica común de archivar los datos en manos de terceros expertos no ofrece necesariamente una mejor protección. Doctolib, una aplicación francesa de citas médicas, fue llevada ante los tribunales porque almacenaba datos en Amazon Web Services, donde Amazon y muchas otras organizaciones, incluidas las agencias de inteligencia estadounidenses, podían acceder a ellos. Aunque los datos estaban cifrados, llegaron al servidor de Amazon sin anonimizarlos, lo que significaba que podían vincularse a registros digitales del comportamiento en Internet para desarrollar perfiles personales muy precisos con fines comerciales o políticos.

Un consejo de revisión institucional necesita claridad sobre dónde residirán los datos de la empresa, quién puede tener acceso a ellos, si se anonimizarán (y cuándo) y cuándo se destruirán. Por lo tanto, muchas empresas tendrán que cambiar sus protocolos y acuerdos actuales, lo que podría resultar caro: desde que una violación de datos en 2014 en JPMorgan Chase puso en peligro a 76 millones de personas y 7 millones de empresas, el banco ha tenido que gastar 250 millones de dólares anuales en la protección de datos.

La cuarta P está estrechamente relacionada con la protección.

4. Privacidad

El dilema al que se enfrentan muchas empresas es hacer el equilibrio entre muy poca o demasiada anonimización. Muy poco es inaceptable según la mayoría de los reglamentos gubernamentales sin el consentimiento informado de las personas involucradas. Demasiados pueden hacer que los datos sean inútiles para fines de marketing.

Existen muchas técnicas de anonimización. Van desde simplemente agregar los datos (de modo que solo estén disponibles los resúmenes o promedios), hasta aproximarlos (por ejemplo, utilizando un rango de edad en lugar de la edad exacta de una persona), hacer que los valores de las variables sean ligeramente diferentes (por ejemplo, añadiendo el mismo valor pequeño a cada uno), hasta seudonimizar los datos para que un valor aleatorio y no repetido sustituya a la variable de identificación.

En principio, estas técnicas deberían proteger la identidad de una persona. Pero los investigadores han podido identificar a las personas en un conjunto de datos utilizando tan solo su sexo, fecha de nacimiento y código postal. Se puede utilizar información aún menos específica, cuando se combina con otros conjuntos de datos, para identificar a las personas. Netflix publicó un conjunto de datos que incluía 100 millones de registros de las puntuaciones de películas de sus clientes y ofrecía 1 millón de dólares a cualquier científico de datos que pudiera crear un algoritmo de recomendación de películas mejor para la empresa. Los datos no contenían identificadores directos de sus clientes e incluían solo una muestra de las valoraciones de cada cliente. Los investigadores pudieron identificar al 84% de las personas comparando sus puntuaciones y fechas de valoración con un conjunto de datos de terceros publicado por IMDb, otra plataforma en la que muchos clientes de Netflix también publican las puntuaciones de las películas. Por lo tanto, al evaluar los problemas de privacidad relacionados con los datos humanos, los IRB corporativos deben evaluar como mínimo la eficacia de la anonimización de un firewall, especialmente dado el poder del análisis de datos para romper el anonimato. Una técnica llamada privacidad diferencial puede ofrecer un nivel de protección adicional. El software ofrecido por Sarus, una empresa emergente financiada por Y Combinator, aplica esta técnica, que impide que los algoritmos creados para publicar datos agregados divulguen información sobre un registro específico, lo que reduce las probabilidades de que los datos se filtren como resultado de credenciales comprometidas, empleados deshonestos o errores humanos.

Pero se puede infringir la privacidad incluso con datos anonimizados de manera efectiva debido a la forma en que se recopilan y procesan los datos. Se produjo una infracción involuntaria en la empresa de mapas MaxMind, que ofrece servicios de geolocalización que permiten a las empresas llamar la atención de los clientes sobre los productos y servicios cercanos. La geolocalización también ayuda a las búsquedas en Internet y puede ayudar si un servicio que necesita su dirección IP (como un sitio de streaming de entretenimiento) no funciona correctamente. Pero un mapeo preciso permite a cualquier persona que tenga su dirección IP encontrar su vecindario e incluso su casa. Combinar su dirección con la de Zillow o alguna otra base de datos inmobiliaria puede proporcionar información sobre su patrimonio junto con fotos de su casa por dentro y por fuera.

Incluso cuando los motivos de la recopilación de datos son transparentes, los métodos utilizados para recopilarlos pueden no ser éticos. ¿Implicarán algún tipo de coacción o subterfugio?

Lamentablemente, el mapeo de IP no es una ciencia exacta y puede resultar difícil vincular con precisión una dirección IP a una dirección física. Un cartógrafo puede asignarlo al edificio más cercano o simplemente a una localidad, como un estado, utilizando las coordenadas centrales de esa localidad como dirección específica. Puede que suene razonable, pero las consecuencias para una familia que alquilaba una granja remota en Potwin (Kansas) fueron terribles.

La dirección IP de la familia aparecía en las coordenadas del mapa de la granja, que casualmente coincidían con las coordenadas del centro exacto de los Estados Unidos. El problema era que MaxMind asignó más de 600 millones de direcciones IP más que no podían mapearse de ningún otro modo a las mismas coordenadas. Esa decisión provocó años de dolor para la familia de la granja. Según Kashmir Hill, el periodista que dio a conocer la noticia, «Se les ha acusado de ladrones de identidad, emisores de spam, estafadores y defraudadores. Han recibido la visita de agentes del FBI, alguaciles federales, recaudadores del IRS, ambulancias que buscan a veteranos suicidas y oficiales de policía que buscan a niños fugitivos. Han encontrado gente merodeando por su granero. Los inquilinos han sido engañados y los vigilantes han publicado sus nombres y direcciones en Internet».

Hill contactó con un cofundador de MaxMind, quien finalmente elaboró una larga lista de direcciones físicas con muchas direcciones IP asignadas y le confesó que cuando se creó la empresa, su equipo no se le había ocurrido que «la gente utilizaría la base de datos para intentar localizar a las personas a nivel familiar». Dijo: «Siempre hemos anunciado que la base de datos determina la ubicación a nivel de ciudad o código postal». La conclusión es que las decisiones bien intencionadas e inocuas que toman los científicos de datos y los administradores de bases de datos pueden tener un impacto real y muy negativo en la privacidad de terceros inocentes. Eso nos lleva a la quinta P.

5. Preparación

¿Cómo se preparan los datos para su análisis? ¿Cómo se verifica o corrige su precisión? ¿Cómo se gestionan los conjuntos de datos incompletos y las variables que faltan? Los datos faltantes, erróneos y periféricos pueden afectar significativamente a la calidad del análisis estadístico. Pero la calidad de los datos suele ser mala. Experian, una firma de servicios de crédito, informa que, de media, sus clientes estadounidenses creen que el 27% de sus ingresos se desperdician debido a datos inexactos e incompletos de clientes o clientes potenciales.

Limpiar los datos, especialmente cuando se recopilan de diferentes períodos, unidades de negocio o países, puede resultar especialmente difícil. En un caso, nos pusimos en contacto con una gran empresa internacional de gestión del talento y aprendizaje en línea para que nos ayudara a investigar si las mujeres y los hombres obtenían por igual los beneficios profesionales de la formación. La empresa estuvo de acuerdo en que la pregunta era relevante tanto para sus clientes como para el público en general y, por lo tanto, extrajo los datos que tenía en sus servidores. Para garantizar la privacidad, los datos se anonimizaron para que no se pudiera identificar a los empleados individuales ni a sus empleadores. Debido al tamaño del conjunto de datos y a su estructura interna, se extrajeron cuatro conjuntos de datos individuales.

Lo normal es abrir las bases de datos y buscar un archivo de hoja de cálculo que muestre las características que caracterizan a cada persona, como el género. Una mujer podría identificarse como «mujer» o «mujer» o simplemente «F.» Los valores pueden estar mal escritos («mujer») o aparecer en varios idiomas ( woman o señora), o utilice mayúsculas y minúsculas (f o F). Si la hoja de cálculo es pequeña (por ejemplo, 1000 filas), corregir esas inconsistencias debería ser sencillo. Pero nuestros datos contenían más de mil millones de observaciones (demasiadas, obviamente, para una hoja de cálculo normal), por lo que hubo que programar y probar un procedimiento de limpieza.

Uno de los principales desafíos era comprobar cuántos valores se habían utilizado para identificar las variables. Como los datos procedían de las filiales extranjeras de firmas multinacionales, se habían registrado en varios idiomas, lo que significaba que varias variables tenían un gran número de valores (94 solo para el género). Escribimos un código de programación para estandarizar todos esos valores, reduciendo el género, por ejemplo, a tres: femenino, masculino y desconocido. Las fechas de inicio y finalización del empleo eran especialmente problemáticas debido a los diferentes formatos de fechas.

Según Tableau, una plataforma de análisis de datos, limpiar los datos consta de cinco pasos básicos: (1) eliminar las observaciones duplicadas o irrelevantes; (2) corregir los errores estructurales (como el uso de valores variables); (3) eliminar los valores atípicos no deseados; (4) gestionar los datos que faltan, quizás sustituyendo cada valor faltante por una media del conjunto de datos; y (5) validar y cuestionar los datos y los resultados analíticos. ¿Las cifras parecen razonables?

Es muy posible que no. Uno de nuestros conjuntos de datos, que registraba el número de pasos que daban los estudiantes del MBA del HEC Paris cada día, contenía una gran sorpresa. De media, los estudiantes daban unos 7.500 pasos al día, pero algunos valores atípicos daban más de un millón de pasos al día. Esos valores atípicos se debieron a un error en el software de procesamiento de datos y se eliminaron. Obviamente, si no hubiéramos examinado física y estadísticamente el conjunto de datos, nuestro análisis final habría sido totalmente erróneo.

Cómo la IA aumenta las apuestas

La ética puede parecer un lujo caro para las empresas con una fuerte competencia. Por ejemplo, según se informa, Microsoft despidió a todo el equipo de ética por su proyecto de IA de Bing porque, según informes de prensa y blogs, Google estaba a punto de lanzar su propia aplicación basada en la IA, por lo que el tiempo apremia.

Pero tratar la ética de los datos como algo bueno conlleva riesgos en lo que respecta a la IA. Durante una entrevista reciente, el director de tecnología de OpenAI, la empresa que desarrolló ChatGPT, observó: «Cada vez que se crea algo tan poderoso con el que se pueden obtener muchas cosas buenas… y por eso… estamos intentando averiguar cómo desplegar estos sistemas de manera responsable».

Muy poca anonimización es inaceptable según la mayoría de los reglamentos gubernamentales. Demasiados pueden hacer que los datos sean inútiles para el marketing.

Gracias a la IA, los científicos de datos pueden desarrollar perfiles psicológicos y personales de las personas extraordinariamente precisos a partir de los pocos residuos digitales que dejan las visitas a las plataformas sociales. Los investigadores Michal Kosinski, David Stillwell y Thore Graepel de la Universidad de Cambridgedemostrado la facilidad con la que los me gusta de Facebook pueden «predecir con precisión una serie de atributos personales muy sensibles, como la orientación sexual, el origen étnico, las opiniones religiosas y políticas, los rasgos de personalidad, la inteligencia, la felicidad, el consumo de sustancias adictivas, la separación de los padres, la edad y el género». (De hecho, esta investigación sirvió de inspiración para el uso de los datos de Facebook por parte de Cambridge Analytica).

Posteriormenteinvestigación de Youyou Wu, Michal Kosinski y David Stillwell reforzaron esos hallazgos al demostrar que los juicios de personalidad basados en ordenador pueden ser más precisos que los humanos. Las predicciones informáticas de las características de la personalidad (apertura, amabilidad, extraversión, escrupulosidad, neuroticismo, conocidas como las cinco grandes) utilizando los me gusta de Facebook eran casi tan precisas como las evaluaciones del cónyuge de una persona. No hay que ignorar las implicaciones de eso. ¿Cómo se sentiría si su gobierno quisiera catalogar sus ideas y acciones privadas?

El problema también puede tener su origen no en los datos analizados sino en los datos que se pasan por alto. Las máquinas solo pueden «aprender» de lo que se les alimenta; no pueden identificar variables para las que no están programadas. Esto se conoce como sesgo de variable omitida. El ejemplo más conocido es el desarrollo por parte de Target de un algoritmo para identificar a las clientas embarazadas.

El científico de datos de la empresa, un estadístico llamado Andrew Pole, creó una puntuación de «predicción del embarazo» basada en la compra de unos 25 productos, como lociones sin perfume y suplementos de calcio. Eso permitió a Target promocionar sus productos antes que sus competidores, con la esperanza de ganarse clientes leales que compraran todos sus productos relacionados con bebés en Target. La variable omitida era la edad del cliente objetivo y el accidente de espera se produjo cuando el padre de una joven de 17 años encontró anuncios relacionados con el embarazo en su buzón. Sin saber que su hija estaba embarazada, contactó con Target para preguntarle por qué promocionaba las relaciones sexuales prematrimoniales entre menores.

Incluso para los estándares de la época, espiar a menores con el objetivo de identificar información médica personal e íntima se consideraba poco ético. Pole admitió durante una entrevista posterior que pensaba que recibir un catálogo promocional iba a hacer que algunas personas se sintieran incómodas. Pero cualquier preocupación que pudiera haber expresado en ese momento hizo poco para retrasar el lanzamiento del programa y, según un periodista, consiguió un ascenso. Finalmente, Target publicó una declaración en la que afirmaba que cumplía «con todas las leyes federales y estatales, incluidas las relacionadas con la información de salud protegida».

El problema para los consejos de administración y la alta dirección es que utilizar la IA para enganchar a los clientes, determinar la idoneidad para una entrevista de trabajo o aprobar una solicitud de préstamo puede tener efectos desastrosos. Las predicciones de la IA sobre el comportamiento humano pueden ser extremadamente precisas, pero están contextualizadas de manera inapropiada. También pueden llevar a predicciones erróneas evidentes que son simplemente tontas o incluso moralmente repugnantes. Confiar en herramientas estadísticas automatizadas para tomar decisiones es una mala idea. Los miembros del consejo de administración y los altos ejecutivos deberían ver una junta de revisión institucional corporativa no como un gasto, una restricción o una obligación social, sino como un sistema de alerta temprana.

Read more on Business and society or related topics Business ethics and Information management