El fracaso de las tendencias de la gripe de Google muestra buenos datos > Big Data

••• En su libro más vendido de 2013Big data: una revolución que transformará la forma en que vivimos, trabajamos y […]

El fracaso de las tendencias de la gripe de Google muestra buenos datos > Big Data

¿No tienes tiempo de leer?

Nuestros Audioresúmenes, te mantienen al día con los mejores artículos y libros de negocios; aún y cuando no tienes tiempo para leer.

•••

En su libro más vendido de 2013Big data: una revolución que transformará la forma en que vivimos, trabajamos y pensamos, los autores Viktor Mayer-Schönberger y Kenneth Cukier seleccionaron Google Flu Trends (GFT) como protagonista del capítulo uno. Explicaron cómo el algoritmo de Google extrajo cinco años de registros web, que contenían cientos de miles de millones de búsquedas, y creó un modelo predictivo utilizando 45 términos de búsqueda que «demostró ser un indicador [de gripe] más útil y oportuno que las estadísticas gubernamentales, con sus retrasos naturales en los informes».

Por desgracia, no. La primera señal de problemas surgió en 2009, poco después del lanzamiento de GFT, cuando se pasó por alto por completo la pandemia de gripe porcina. El año pasado, La naturalezareportado que las tendencias de la gripe sobreestimaron en un 50% la temporada alta de gripe de Navidad de 2012. La semana pasada llegó la evaluación más condenatoria hasta la fecha. En Ciencia, un equipo de investigadores afiliados a Harvard publicó sus hallazgos que GFT ha sobrestimado la prevalencia de la gripe durante 100 de las últimas 108 semanas; lleva mal desde agosto de 2011. El Ciencia El artículo señala además que un modelo de pronóstico simplista, un modelo tan básico como uno que predice la temperatura teniendo en cuenta temperaturas pasadas recientes, habría pronosticado la gripe mejor que la TFT.

En resumen, no habría necesitado big data para hacerlo mejor que Google Flu Trends. Ay.

De hecho, el pobre historial de GFT no es un secreto para los seguidores de big data y GFT como yo, y eso apunta a un gran problema en el negocio de los grandes datos del que muchos de nosotros hemos estado debatiendo: la validez de los datos se está exagerando constantemente. Como advierten los investigadores de Harvard: «El principal desafío es que la mayoría de los macrodatos que han recibido la atención popular no son la producción de instrumentos diseñados para producir datos válidos y fiables susceptibles de análisis científicos».

La cantidad de datos todavía tiende a dominar la discusión sobre el valor del big data. Pero más datos en sí mismos no conducen a un mejor análisis, como se demuestra ampliamente con Tendencias de la gripe. Los conjuntos de datos grandes no garantizan conjuntos de datos válidos. Es una mala suposición, pero una que se usa continuamente para justificar el uso y los resultados de proyectos de big data. Escucho constantemente variaciones del argumento «N = Todos, por lo tanto, son buenos datos», de los analistas de datos reales: «Dado que Google tiene el 80% del mercado de búsqueda, podemos ignorar los demás motores de búsqueda. No importan». O, «Dado que Facebook tiene mil millones de cuentas, tiene prácticamente a todo el mundo».

Las malas suposiciones no son nuevas ni impredecibles. Cuando los principales economistas no lograron predecir colectivamente la burbuja inmobiliaria: su modelo neoclásico se basa en varios supuestos, incluida la hipótesis de los mercados eficientes, que sugiere que los precios de mercado incorporan todo información disponible y, segúnPaul Krugman dice, lleva a la «creencia general de que las burbujas simplemente no ocurren».

A raíz de los fracasos épicos como estos, el lugar natural para buscar respuestas está en cómo se definen las cosas en primer lugar. En la comunidad empresarial, la definición de big data es a menudo una variación de la ampliamente circulada de McKinseyinforme de big data (PDF), que define el big data como «conjuntos de datos cuyo tamaño supera la capacidad de las herramientas típicas de software de bases de datos para capturar, almacenar, gestionar y analizar».

¿Podemos hacerlo mejor? Empecé a preguntarme a mí mismo y a otros analistas de datos cuáles son las principales diferencias entre los conjuntos de datos que subyacen a los proyectos similares a GFT de hoy y los conjuntos de datos que utilizábamos hace cinco o diez años. Esto ha llevado a lo que llamo el marco de OCCAM , una evaluación más honesta del estado actual del big data y de las suposiciones que se esconden en él.

Los grandes datos son:

O observacional: gran parte de los nuevos datos proceden de sensores o dispositivos de seguimiento que monitorizan de forma continua e indiscriminada sin diseño, a diferencia de cuestionarios, entrevistas o experimentos con un diseño con un propósito determinado

Carente C Controles: los controles no suelen estar disponibles, lo que dificulta las comparaciones y el análisis válidos

Aparentemente C Completo: la disponibilidad de datos para la mayoría de las unidades medibles y el gran volumen de datos generados no tiene precedentes, pero más datos crean más pistas falsas y callejones sin salida, lo que complica la búsqueda de una estructura significativa y predecible

UN adaptado: terceros recopilan los datos, a menudo con fines no relacionados con los científicos de datos, lo que presenta desafíos de interpretación

M fusionado: se combinan diferentes conjuntos de datos, lo que agrava los problemas relacionados con la falta de definición y los objetivos desalineados

Esta es una definición mucho menos optimista, pero una valoración mucho más honesta del estado actual del big data.

El peor resultado de la Ciencia y el marco de OCCAM, sin embargo, sería usarlos como evidencia de que el big data «no vale la pena». Las valoraciones honestas están destinadas a crear un progreso honesto, hacer avanzar la disciplina en lugar de alimentar la moda pasajera.

El progreso se producirá cuando las empresas que participan en la generación y el procesamiento de conjuntos de datos OCCAM se impidan exagerar sus capacidades sin medir adecuadamente sus resultados. Los autores de la Ciencia El artículo debería ser aplaudido por su valentía al plantear este espinoso tema. Hicieron un servicio adicional a la comunidad científica al detallar la dificultad de evaluar y replicar el algoritmo desarrollado por los investigadores de Tendencias de la gripe de Google. Descubrieron que la información publicada sobre el algoritmo está incompleta e inexacta. Utilizando el lenguaje reservado para los académicos, los autores señalaron: «Curiosamente, los pocos términos de búsqueda ofrecidos en los artículos [por investigadores de Google que explican su algoritmo] no parecen estar estrechamente relacionados ni con los datos de GFT ni de los CDC suponemos que los autores sentían una necesidad desarticulada de ocultar los términos de búsqueda reales identificados.» [énfasis añadido]

En otras palabras, Google nos debe una explicación de si publicó datos manipulados sin divulgarlos o si su modelo predictivo muy promocionado es tan inexacto que los términos de búsqueda que resultaron ser los más predictivos hace unos años ya no lo son. Si las empresas quieren participar en la ciencia, tienen que comportarse como científicos.

Al igual que los investigadores de Harvard, me entusiasman las promesas del análisis de datos. Pero me gustaría ver que nuestra industria practicara lo que predicamos, realizando una evaluación honesta de nuestros propios éxitos y fracasos. Mientras tanto, los forasteros deben prestar atención a los desafíos del análisis de big data, tal como se resume en el marco de OCCAM, y tener mucha precaución a la hora de interpretar dichos análisis.

Scroll al inicio