PathMBA Vault

Cybersecurity and digital privacy

¿Las empresas de tecnología realmente necesitan todos esos datos de usuario?

por Walter Frick

¿Las empresas de tecnología realmente necesitan todos esos datos de usuario?

sept17-21-hbr-paul-garbett-demographics

Paul Garbett para HBR

La economía en línea (desde las búsquedas hasta el correo electrónico y las redes sociales) se basa en gran medida en el hecho de que los consumidores están dispuestos a regalar sus datos a cambio de productos que sean gratuitos y fáciles de usar. La suposición detrás de esta compensación es que, sin dar todos esos datos, esos productos no podrían ser tan buenos o tendrían que tener un precio.

Pero un nuevo documento de trabajo, publicado esta semana por Lesley Chiou del Occidental College y Catherine Tucker del MIT, sugiere que la compensación no siempre es necesaria. Al estudiar los efectos de las normas de privacidad de la UE, intentaron medir si la anonimización y la desidentificación de los datos de búsqueda perjudican a la calidad de los resultados de las búsquedas.

La mayoría de los motores de búsqueda capturan los datos de los usuarios, incluidas las direcciones IP y otros datos que pueden identificar a un usuario en varias visitas. Estos datos permiten a las empresas de búsqueda mejorar sus algoritmos y personalizar los resultados para el usuario. Al menos, esa es la idea. Para determinar si el almacenamiento de los datos personales de los usuarios mejora los resultados de las búsquedas, Chiou y Tucker analizaron en qué se diferenciaban los resultados de búsqueda de Bing y Yahoo antes y después de los cambios en las normas de la Comisión Europea sobre la retención de datos. En 2008 la Comisión recomendó que los motores de búsqueda reduzcan el período durante el que los motores de búsqueda guardaban los registros de los usuarios. En respuesta, Yahoo decidió reforzar su política de privacidad de la siguiente manera anonimizar los datos del usuario después de 90 días. En 2010, Microsoft cambió su política y empezó a eliminar las direcciones IP asociadas a las búsquedas en Bing después de seis meses y todos los puntos de datos destinados a identificar a un usuario en las visitas después de 18 meses. En 2011, Yahoo volvió a cambiar su política y, esta vez, decidió almacenar los datos personales durante más tiempo (18 meses en lugar de 90 días), lo que permitió a los investigadores tener otra oportunidad de medir cómo los cambios en el almacenamiento de datos afectaban a los resultados de las búsquedas. (Google no cambió sus políticas durante este período y, por lo tanto, no se incluye en el estudio. Algunas de las investigaciones anteriores de Tucker las ha financiado Google.)

A continuación, los investigadores analizaron los datos del historial web de los residentes del Reino Unido antes y después de los cambios. Para medir la calidad de las búsquedas, analizaron el número de búsquedas repetidas, una señal de insatisfacción con los resultados de la búsqueda. En los tres casos, no encontraron ningún efecto estadísticamente significativo en la calidad de los resultados de búsqueda tras los cambios en la política de retención de datos. En otras palabras, la decisión de anonimizar o desidentificar los datos no pareció perjudicar la experiencia de búsqueda. «Nuestros resultados sugieren que los costes de la privacidad pueden ser más bajos de lo que se percibe actualmente», escriben los autores, aunque señalan que estudios anteriores han llegado a conclusiones diferentes.

Los investigadores también sostienen que sus resultados tienen implicaciones para la antimonopolio y se preocupa por lo que se llama monopolios de datos. Su artículo, escriben, sugiere que «la posesión de datos históricos confiere menos ventajas a las empresas que son propietarias de los datos de lo que a veces se supone».

Esa interpretación merece algunas advertencias. En primer lugar, los cambios en Yahoo solo incluían la anonimización, lo que podía ayudar a proteger la privacidad de los usuarios, pero no necesariamente restaba valor a la ventaja de los operadores tradicionales en materia de datos. En segundo lugar, el cambio de Microsoft —que implicaba la desidentificación de los usuarios y, por lo tanto, habla más directamente de las ventajas de los grandes conjuntos de datos personalizados de los operadores tradicionales— se implementó durante un período de meses y es posible que no se haya capturado en el período de seis meses que estudiaron los investigadores. Además, aunque el almacenamiento prolongado de grandes cantidades de datos históricos no sea una ventaja, otros aspectos de la recopilación de datos podrían seguir beneficiando a las empresas tradicionales. Por ejemplo, podría ser que los gigantes de las búsquedas incorporen nuevos datos a sus algoritmos rápidamente. Eso significaría que los datos eran valiosos para los titulares, pero el estudio no los capturaría.

Sin embargo, el intento de los autores de medir realmente las ventajas competitivas de los datos es loable. Una investigación de Microsoft ha descubierto que los datos de los usuarios pueden arrojar mejores resultados de búsqueda. Pero, ¿cuántos datos se necesitan para obtener resultados lo suficientemente buenos como para atraer a los usuarios? La respuesta es importante no solo para las búsquedas, sino, lo que es más importante, para la naciente industria de la inteligencia artificial (IA). Si se necesitan enormes cantidades de datos para una solución de búsqueda de IA decente, es probable que el sector esté dominado por los gigantes tecnológicos actuales, que tienen la capacidad de recopilar y analizar esa cantidad de datos. Si es posible que los recién llegados adquieran datos suficientes para entrenar sistemas inteligentes, el sector será más competitivo.

Los autores señalan que, si bien hay motivos para pensar que los datos pueden constituir una importante ventaja competitiva para los motores de búsqueda, también hay motivos para mostrarse escépticos. Los datos históricos pueden ser menos valiosos para informar los resultados de las búsquedas que los datos más actualizados, señalan, y una fracción considerable de las búsquedas son tan poco comunes que puede resultar imposible recopilar datos suficientes, incluso para las empresas más grandes.

El nivel actual de entusiasmo por la IA no ha hecho más que aumentar la prisa por recopilar enormes conjuntos de datos, que continúa para presentar problemas de privacidad. Inevitablemente, quienes recopilen los datos sugerirán que los usuarios se benefician de cederlos. Pero el artículo de Chiou y Tucker plantea dudas sobre esa afirmación. Sí, la gente se beneficia de los muchos productos tecnológicos excelentes y gratuitos que existen. Sí, probablemente se beneficien de innumerables maneras de las nuevas soluciones impulsadas por la IA. Pero no siempre tienen que renunciar por completo a su privacidad para conseguirlos.