•••
«Los petabytes nos permiten decir: ‘La correlación es suficiente’».
— Chris Anderson, revista Wired, 23 de junio de 2008
El sentimiento expresado por Chris Anderson en 2008 es un meme popular en la comunidad de big data. «La causalidad ha muerto», dicen los sacerdotes de la analítica y el aprendizaje automático. Argumentan que con suficientes pruebas estadísticas, ya no es necesario entender por qué suceden las cosas, solo necesitamos saber qué cosas suceden juntos.
Pero preguntar si la correlación es suficiente es hacer la pregunta equivocada. Para los consumidores de big data, la pregunta clave es «¿Puedo tomar medidas sobre la base de un hallazgo de correlación?» La respuesta a esa pregunta es «Depende», principalmente de dos factores:
- Confianza en que la correlación se repetirá de manera fiable en el futuro. Cuanto mayor sea el nivel de confianza, más razonable será tomar medidas en respuesta.
- La compensación entre el riesgo y la recompensa de actuar. Si el riesgo de actuar y equivocarse es extremadamente alto, por ejemplo, actuar incluso en una correlación fuerte puede ser un error.
El primer factor, la confianza en que la correlación se repita, es a su vez una función de dos cosas: la frecuencia con la que se ha producido la correlación históricamente (cuanto más a menudo ocurren los eventos juntos en la vida real, más probabilidades hay de que estén conectados) y la comprensión de lo que está causando ese hallazgo estadístico. Este segundo elemento, lo que llamamos «claridad de causalidad», se debe al hecho de que cuantas menos explicaciones posibles haya para una correlación, mayor será la probabilidad de que los dos hechos estén vinculados de hecho. Tener en cuenta la frecuencia y la claridad juntas produce un indicador más fiable de la confianza general en el hallazgo que evaluar solo uno u otro de forma aislada.
Comprender la interacción entre el nivel de confianza y la compensación riesgo/recompensa permite tomar decisiones acertadas sobre qué acción, si es que alguna, tiene sentido a la luz de un hallazgo estadístico concreto. En resumen: la causalidad puede importar tremendamente. Y los esfuerzos por obtener una mejor comprensión de la causa de una correlación pueden aumentar el nivel de confianza al tomar medidas.
Estos conceptos permitieron a BCG desarrollar un prisma a través del cual se puede evaluar cualquier acción potencial. Si el valor de la actuación es alto y el coste de actuar cuando se hace mal es bajo, puede tener sentido actuar basándose incluso en una correlación débil. Elegimos mirar a ambos lados antes de cruzar la calle porque el coste de buscar es bajo y la pérdida potencial por no mirar es alta (en la jerga estadística, lo que se conoce como «función de pérdida asimétrica»). O bien, si la confianza en el hallazgo es baja debido a que no sabe por qué dos eventos están vinculados, debería estar menos dispuesto a tomar medidas que tengan un inconveniente potencial significativo.
Considere el caso de los sensores de alcantarillado de la ciudad de Nueva York. Estos sensores detectan la cantidad de grasa que entra en el sistema de alcantarillado en varios puntos de la ciudad. Si los datos recopilados muestran una concentración de grasa en una ubicación inesperada, quizás debido a un restaurante sin licencia, los funcionarios enviarán un coche para determinar la fuente. La confianza en el significado de los datos de los sensores es baja, puede haber muchas otras explicaciones para el exceso de entrada de grasa. Pero hay un coste pequeño si la inspección revela que no pasa nada.
Las decisiones recientes en torno a las pruebas de detección de PSA de rutina para el cáncer de próstata implicaron una compensación riesgo/recompensa muy diferente. La confianza en que los análisis de sangre del PSA son un buen predictor del cáncer es baja porque la correlación en sí es débil: los niveles elevados de PSA se encuentran a menudo en hombres sin cáncer de próstata. Tampoco hay una explicación causal clara de la relación del PSA con el desarrollo del cáncer. Además, la cirugía preventiva impulsada por la prueba no aumentó las tasas de supervivencia a largo plazo. Y el riesgo asociado con las pruebas de detección era alto, y los falsos positivos daban lugar a un tratamiento innecesario y debilitante. El resultado: la Asociación Médica Estadounidense revocó su recomendación anterior de que los hombres mayores de 50 años se hicieran análisis de sangre de PSA de rutina.
Por supuesto, no suele haber una sola, sino una serie de posibles acciones en respuesta a un hallazgo estadístico. Esto entró en juego hace poco en una asociación entre un supermercado australiano y una compañía de seguros de automóviles. La combinación de los datos del programa de tarjetas de fidelización del supermercado con la información sobre reclamaciones de automóviles reveló correlaciones interesantes. Los datos mostraron que las personas que compran carne roja y leche corren un buen riesgo de seguro de coche, mientras que las personas que compran pasta, licores y que alimentan sus coches por la noche corren un riesgo bajo. Aunque esta relación estadística podría ser un indicador de conductas de riesgo (conducir bajo los efectos del alcohol, por ejemplo), hay otras razones posibles para el hallazgo.
Entre las posibles respuestas al hallazgo:
- Orientar la marketing de seguros a los titulares de tarjetas de fidelización del grupo de bajo riesgo, O
- Fijar precios del seguro de automóvil en función de estos patrones de compra.
Sin embargo, este último enfoque podría provocar una reacción perjudicial para la marca en caso de que se expusiera la práctica. Al examinar las dos opciones a través de nuestro marco, queda claro que, sin confianza adicional en la conclusión, es preferible el primer enfoque.
Sin embargo, si podemos encontrar una explicación causal clara para esta correlación, podemos aumentar la confianza lo suficiente como para tomar la acción más arriesgada y de mayor valor de aumentar los tipos. Por ejemplo, los patrones de compra asociados a mayores riesgos podrían ser los principales indicadores de una transición inminente en la vida, como la pérdida del empleo o el divorcio. Esta posible explicación podría comprobarse añadiendo datos adicionales al análisis.
En este caso, la causalidad es fundamental. Potencialmente, se pueden identificar nuevos factores que crean una mejor comprensión de la dinámica en el trabajo. El objetivo es descartar algunas posibles causas y arrojar luz sobre lo que realmente impulsa esa correlación. Ese entendimiento aumentará el nivel general de confianza en que la correlación continuará en el futuro, lo que esencialmente desplazará las posibles acciones a la parte superior del marco. El resultado puede ser que las respuestas descartadas anteriormente ahora sean apropiadas. Además, conocer la causa de una correlación puede permitirle buscar cambios que hagan que el vínculo se debilite o desaparezca. Y ese conocimiento permite supervisar y responder a eventos que podrían hacer que una respuesta previamente sólida quede obsoleta.
No faltan ejemplos en los que la selección de la respuesta correcta depende de esta «claridad de la causa». El ejército de los Estados Unidos, por ejemplo, ha desarrollado un software de procesamiento de imágenes que utiliza destellos de luz para localizar la posible posición de un francotirador. Pero flashes similares también provienen de una cámara. Con dos posibles razones para el patrón de imagen, la confianza en el hallazgo es menor de la que sería si solo hubiera una. Y eso, por supuesto, determinará cómo responder y qué nivel de riesgo a la baja es aceptable.
Cuando se trabaja con big data, a veces basta con la correlación. Pero otras veces entender la causa es vital. La clave está en saber cuándo es suficiente la correlación y qué hacer cuando no lo es.