PathMBA Vault

Analytics and data science

Los 4 errores que cometen la mayoría de los directivos con la analítica

por Anja Lambrecht, Catherine Tucker

jul16-12-156908965

Hay mucho revuelo en torno a los datos y la analítica. Se exhorta constantemente a las empresas a establecer estrategias para recopilar y analizar macrodatos, y se les advierte de las posibles consecuencias negativas de no hacerlo. Por ejemplo, el Wall Street Journal sugirió recientemente que las empresas tienen un tesoro de datos de clientes, pero que en su mayor parte no saben cómo usarlos. En este artículo analizamos por qué. Basándonos en nuestro trabajo con empresas que intentan encontrar información concreta y útil a partir de petabytes de datos, hemos identificado cuatro errores comunes que cometen los gerentes en lo que respecta a los datos.

Error 1: no entender los temas de la integración

El primer desafío que limita el valor del big data a las empresas es la compatibilidad y la integración. Una de las características clave de los macrodatos es que provienen de diversas fuentes. Sin embargo, si estos datos no son congruentes por naturaleza o fáciles de integrar, la variedad de fuentes puede dificultar que las empresas ahorren dinero o creen valor para los clientes. Por ejemplo, en uno de nuestros proyectos trabajamos con una empresa que tenía datos interesantes sobre las compras y la fidelización de los clientes y una base de datos independiente sobre el comportamiento de navegación en Internet, pero había pocas formas de hacer referencias cruzadas a estas dos fuentes de datos para entender realmente si ciertos comportamientos de navegación predicían las ventas. Las empresas pueden responder al desafío creando «lagos de datos», que contienen enormes cantidades de datos en un formato no estructurado. Sin embargo, el solo hecho de que estas enormes franjas de datos que ahora están disponibles para la empresa no estén estructuradas, por ejemplo, en forma de cadenas de texto, significa que es muy difícil almacenarlas de una manera tan estructurada como podría ocurrir cuando los datos eran simplemente binarios. Y eso a menudo hace que sea extremadamente difícil integrarlo en todas las fuentes.

Error 2: no darse cuenta de los límites de los datos no estructurados

El segundo desafío para hacer que los macrodatos sean valiosos es su naturaleza desestructurada. Se están realizando avances especializados en la minería de datos basados en texto, donde el contexto y la técnica pueden generar información similar a la de los datos estructurados, pero otras formas, como los datos de vídeo, aún no se analizan fácilmente. Un ejemplo es que, a pesar del software de reconocimiento facial de última generación, las autoridades no pudieron identificar a los dos sospechosos del atentado en el maratón de Boston a partir de una multitud de datos de vídeo, ya el software tenía problemas para hacer frente a las fotos de sus rostros tomada desde varios ángulos.

Dados los desafíos que supone obtener información a partir de datos no estructurados, las empresas han tenido más éxito con ellos cuando los utilizan para aumentar inicialmente la velocidad y la precisión de las prácticas de análisis de datos existentes. Por ejemplo, en la exploración de petróleo y gas, los macrodatos se utilizan para mejorar las operaciones existentes y el análisis de datos en torno a la perforación sísmica. Aunque es posible que los datos que utilizan hayan aumentado en velocidad, variedad y volumen, en última instancia se siguen utilizando con el mismo propósito. En general, empezar con la esperanza de utilizar datos no estructurados para tratar de generar nuevas hipótesis es problemático hasta que las empresas hayan «practicado» y adquirido experiencia en el uso de datos no estructurados para mejorar sus respuestas a una pregunta existente.

Error 3: suponer que las correlaciones significan algo

El tercer desafío —y, en nuestra opinión, el factor más importante que limita el valor de los macrodatos para las empresas— es la dificultad de establecer relaciones causales dentro de grandes grupos de datos de observación superpuestos. Los conjuntos de datos muy grandes suelen contener una serie de observaciones muy similares o prácticamente idénticas que pueden provocar correlaciones falsas y, como resultado, engañar a los directivos a la hora de tomar decisiones. The Economist señaló recientemente que «en un mundo de macrodatos, las correlaciones salen a la luz casi por sí solas», y un Entrada de blog de Sloan Management Review hizo hincapié en que, si bien muchas empresas tienen acceso a los macrodatos, esos datos no son «objetivos», ya que la dificultad reside en extraer de ellos información «verdadera» y procesable. Del mismo modo, los algoritmos típicos de aprendizaje automático que se utilizan para analizar los macrodatos identifican correlaciones que pueden no ofrecer necesariamente información causal y, por lo tanto, procesable. En otras palabras, la habilidad de hacer que los macrodatos sean valiosos consiste en poder pasar de las meras correlaciones observacionales a identificar correctamente las correlaciones que indican un patrón causal y deberían formar la base de la acción estratégica. Hacerlo a menudo requiere ir más allá del big data.

Un ejemplo muy conocido de macrodatos es Google Trends, que utiliza los registros de consultas de búsqueda agregadas de Google. Sin embargo, también es un caso en el que el hecho de que los datos sean simplemente límites correlacionales es de utilidad. Al principio, los investigadores argumentaron que estos datos podrían utilizarse para proyectar la propagación de la gripe. Sin embargo, investigadores posteriores descubrieron que, dado que los datos miraban hacia atrás, el uso de los datos de búsqueda solo mejoraba marginalmente el rendimiento en comparación con un modelo muy simple basado en patrones temporales pasados.

Para poner un ejemplo más específico, imagine una tienda de calzado que hace publicidad a los consumidores de la Web que ya han visitado su sitio web anteriormente. El análisis de los datos sin procesar sugeriría que los clientes expuestos a estos anuncios tienen más probabilidades de comprar zapatos. Sin embargo, los consumidores que han visitado anteriormente el sitio web ya han demostrado su interés por la tienda específica incluso antes de ver el anuncio y, por lo tanto, tienen más probabilidades de comprar que el consumidor medio. ¿El anuncio fue efectivo? Es difícil de decir. De hecho, los macrodatos en este caso no permiten hacer ninguna inferencia causal sobre la eficacia de la comunicación de marketing. Para saber si estos anuncios son eficaces, el minorista tiene que realizar una prueba o experimento aleatorio en el que un subgrupo de consumidores no esté expuesto al azar al anuncio. Al comparar las probabilidades de compra entre los consumidores que estuvieron expuestos al anuncio y los que no, la empresa puede determinar si exponer a los consumidores a un anuncio hizo que fueran más propensos a comprar. El valor se obtiene en estos casos no principalmente mediante el acceso a los datos, sino también mediante la capacidad de diseñar, implementar e interpretar experimentos significativos.

Es experimentación, no analizar grandes conjuntos de datos de observación que permitan a la empresa entender si una relación es simplemente correlacional o si puede ser predictiva de forma fiable, ya que refleja un mecanismo causal subyacente. Si bien puede resultar difícil para un gerente mejorar la rentabilidad utilizando incluso un petabyte de datos de observación que describan el comportamiento de los clientes, comparar el comportamiento de un cliente que estuvo expuesto a una actividad de marketing con el de un cliente que no estuvo expuesto por casualidad (los resultados de un experimento) puede ayudar al vendedor a concluir si la actividad era rentable.

Implementar experimentos de campo, sacar las conclusiones correctas y tomar las medidas adecuadas no es necesariamente fácil. Sin embargo, las empresas de éxito han desarrollado la capacidad de diseñar, implementar, evaluar y, luego, actuar en función de experimentos de campo significativos. Es este entorno de «probar y aprender», junto con la habilidad de tomar medidas en función de los conocimientos y entender si se pueden generalizar, lo que puede hacer que los macrodatos sean valiosos.

Sin embargo, debido a la disminución de la rentabilidad de las muestras de datos cada vez más grandes, esa experimentación no requiere necesariamente macrodatos. Por ejemplo, Informes de Google que normalmente utiliza muestras aleatorias del 0,1% de los datos disponibles para realizar los análisis. De hecho, un artículo reciente sugirió que el tamaño de los macrodatos puede ser perjudicial, ya que «cuanto más grande sea la base de datos, más fácil será obtener apoyo para cualquier hipótesis que presente». En otras palabras, dado que los macrodatos suelen ofrecer información superpuesta, una empresa puede obtener información similar a partir de una milésima parte del conjunto de datos completo a la de todo el conjunto de datos.

Error 4: subestimar las habilidades laborales necesarias

La experimentación no es el único método que las empresas pueden utilizar para deducir información valiosa a partir del big data. Otra habilidad potencial que pueden desarrollar las empresas es la capacidad de crear mejores algoritmos para gestionar los macrodatos. Un ejemplo de estos algoritmos son los sistemas de recomendación. Los sistemas de recomendación se basan en algoritmos basados en datos correlacionales para recomendar los productos más relevantes al cliente. Sin embargo, no es el tamaño de los datos subyacentes, sino la capacidad de identificar los datos críticos que mejor predicen las preferencias de un cliente. De hecho, es a menudo no es el tamaño de los datos pero el algoritmo de aprendizaje automático utilizado que determina la calidad de los resultados. Si bien el poder predictivo puede aumentar con el tamaño de los datos disponibles, en muchos casos las mejoras en las predicciones muestran una disminución de los retornos a la escala a medida que los conjuntos de datos aumentan de tamaño. Pero crear mejores algoritmos requiere mejores científicos de datos. Las empresas que asumen que grandes volúmenes de datos pueden traducirse en información sin contratar empleados con la capacidad de rastrear los efectos causales de esos datos probablemente se sientan decepcionadas.

Por sí solos, es poco probable que los macrodatos sean valiosos. Solo cuando se combina con una habilidad gerencial, de ingeniería y analítica para determinar el experimento o el algoritmo que se aplicará a esos datos, resulta valioso para las empresas. Esto queda claro si compara el precio de los datos con el precio de las habilidades de procesamiento de datos. Los numerosos contextos en los que los datos son baratos en relación con el coste de retener el talento para procesarlos sugieren que las habilidades de procesamiento son más importantes que los datos en sí mismos a la hora de crear valor para una empresa.