No existen los datos anónimos

•••

Foto de Andrew Nguyen

Aviso: Traducido con el uso de inteligencia artificial; puede contener errores. Participe en esta encuesta para hacernos llegar sus comentarios y obtenga información en las preguntas frecuentes.
Read in English

Hace aproximadamente una década, un hacker me dijo rotundamente: «Asume que todas las tarjetas de su billetera están comprometidas y proceda en consecuencia». Tenía razón. Los consumidores se han adaptado a un flujo constante de notificaciones de violación de datos, cargos aleatorios en tarjetas de crédito y reemplazos inesperados de tarjetas. De esto ha surgido un complejo privacidad-industrial: tecnología, servicios y políticas destinadas a tratar de proteger los datos y permitir que fluyan con la suficiente libertad para mantener próspero el bazar electrónico moderno. Una estrategia clave en esto ha sido «depurar» los datos, lo que significa eliminar la información de identificación personal (PII) para que, aunque alguien accediera a ella, no pudiera conectarla con una persona.

Demasiado para todo eso.

En un artículo publicado en Sciencela semana pasada, el científico del MIT Yves-Alexandre de Montjoye demuestra que los datos anónimos de las tarjetas de crédito se pueden aplicar ingeniería inversa para identificar las transacciones de las personas, un hallazgo que pone en duda muchas de las políticas desarrolladas para proteger a los consumidores y obliga a los científicos de datos a reconsiderar las políticas y la ética que guían cómo utilizan conjuntos de datos grandes.

De Montjoye y sus colegas examinaron tres meses de transacciones con tarjeta de crédito de 1,1 millones de personas, todas las cuales habían sido borradas de PII. Aun así, el 90% de las veces logró identificar a las personas en el conjunto de datos utilizando la fecha y la ubicación de solo cuatro de sus transacciones. Al añadir conocimiento del precio de las transacciones, aumentó la «reidentificación» (el término académico para detectar a una persona en los datos anónimos) al 94%. Además, era más fácil reidentificar a las mujeres que a los hombres y la capacidad de reidentificación aumentaba con los ingresos del consumidor.

Para que quede claro: la reidentificación significa que los investigadores podrían identificar todas las transacciones que pertenecen a una persona, pero de Montjoye no intentó decir qué persona. Por ejemplo, si quisiera saber mi transacciones, tendría que tomar medidas adicionales para hacer una referencia cruzada de algo que sabía sobre mí con sus datos. Si, por ejemplo, publiqué en Facebook sobre un viaje a un restaurante, eso podría proporcionarme la clave para conectarme con toda una cartera de transacciones anónimas. «No intentamos ponerle nombres», dice De Montjoye, «pero sabemos básicamente lo que necesita para hacerlo».

Además, de Montjoye demostró que incluso los datos «groseros» proporcionan «poco anonimato». Redujo la «resolución» de sus datos observando solo las áreas en las que se realizaron compras, no tiendas específicas, y los marcos temporales de 15 días en los que ocurrieron, no fechas específicas. También amplió el rango de precios de las compras para que las transacciones que antes se clasificaban entre 5 y 16$ se pusieran ahora en un compartimento más del doble que grande, que oscilaba entre 5 y 34$. Incluso con datos de baja resolución como este, podría sacar cuatro transacciones y volver a identificar a las personas el 15% de las veces. Al observar 10 de esos puntos de datos, podría, notablemente, volver a identificar a las personas el 80% de las veces.

No es la primera vez que de Montjoye desempeña el papel de aguafiestas de la privacidad. Entrabajos anteriores Hizo un truco similar, reidentificar a las personas utilizando datos de ubicación de teléfonos móviles anónimos. (Otros han realizado trucos de salón similares con otros conjuntos de datos). Y aunque aún no ha probado otros tipos de conjuntos de datos grandes, como los historiales de navegación, cree que «parece probable» que también sean susceptibles de reidentificación.

Las implicaciones del trabajo de De Montjoye son profundas. En términos generales, significa que el anonimato no garantiza la privacidad, lo que podría hacer inútiles muchas de las leyes y reglamentos mundiales en torno a la privacidad del consumidor. Garantizar el anonimato (es decir, la eliminación de la PII) a cambio de poder recopilar y utilizar datos libremente (una política de marketing pan y mantequilla para todo el mundo, desde los creadores de aplicaciones hasta las empresas de tarjetas de crédito) podría no ser aplicable si se puede hackear el anonimato. El anonimato tal como lo definimos hoy, dice De Montjoye, es «inadecuado» y, en última instancia, está condenado al fracaso con los grandes metadatos, el tipo de big data disponible públicamente que tantas empresas están aprovechando. (No utilizará el término «big data», pero lo que describe como «conjuntos de datos de metadatos» están en gran medida en línea con ese concepto).

Una respuesta obvia a este problema, que se está explorando en Europa, es hacer que cualquiera que quiera utilizar esos datos demuestre que ha hecho imposible identificar a las personas en el conjunto de datos. Pero si De Montjoye puede identificar a cuatro de cada cinco personas a partir de datos anónimos con solo una idea general de dónde estaban, cuándo estuvieron allí y cuánto gastaron, es difícil imaginar que alguien demuestre sin lugar a dudas que ha anonimizado sus datos. Ese tipo de mandato, entonces, podría prohibir en última instancia el uso y el intercambio de datos.

Sería un resultado terrible dado el poder de los tipos de grandes conjuntos de datos que de Montjoye está probando. «El potencial positivo que se deriva de este tipo de datos es demasiado grande para cerrarlos», dice, citando varios casos: los datos móviles se pueden utilizar en la lucha contra la propagación de enfermedades. Los datos de tráfico pueden habilitar sistemas de tráfico más inteligentes que reducen significativamente las emisiones. El seguimiento de los datos económicos puede ayudar a identificar oportunidades de innovación y crecimiento.

Un modelo que cita de Montjoye es«PII 2.0″ (PDF) propuesta por Paul M. Schwarz y Daniel Solove. Actualmente, la PII es binaria y la información es de identificación personal o no. Schwarz y Solove proponen un espectro a partir de esos dos extremos, con una tercera categoría intermedia, en la que la identificación es posible pero no probable, y luego una regulación que aborda cada tipo por separado.

de Montjoye también mira la»Nuevo trato de los datos», propuesta por Sandy Pentland del MIT (coautora del artículo de De Montjoye) en la que los derechos de propiedad de los datos se transfieren al consumidor.

«Nuestro objetivo es iniciar un debate, no detener el uso de este tipo de datos», dice de Montjoye. «Esto es un riesgo potencial con estos grandes conjuntos de datos; la anonimización es limitada, pero los usos potenciales de estos datos son excelentes. Así que encontremos un modelo mejor. Encontremos un equilibrio entre privacidad y utilidad».