Un repaso a las pruebas A/B
por Amy Gallo

Hoy en día todo gira en torno a los datos. Los líderes no quieren tomar decisiones a menos que tengan pruebas. Eso es bueno, por supuesto, y afortunadamente hay muchas formas de obtener información sin tener que confiar en los propios instintos. Uno de los métodos más comunes, sobre todo en entornos en línea, son las pruebas A/B.
Para entender mejor qué son las pruebas A/B, dónde se originaron y cómo utilizarlas, hablé con Kaiser Fung, que fundó el programa de analítica aplicada de la Universidad de Columbia y es autor de Junk Charts, un blog dedicado al examen crítico de datos y gráficos en los medios de comunicación de masas. Su último libro es Number Sense: How to Use Big Data to Your Advantage.
¿Qué son las pruebas A/B?
Las pruebas A/B, en su forma más básica, son una forma de comparar dos versiones de algo para averiguar cuál funciona mejor. Aunque se asocia más a menudo con sitios web y aplicaciones, Fung afirma que el método tiene casi 100 años.
En la década de 1920, el estadístico y biólogo Ronald Fisher descubrió los principios más importantes en los que se basan las pruebas A/B y los experimentos controlados aleatorios en general. “No fue el primero en realizar un experimento de este tipo, pero sí el primero en descubrir los principios básicos y las matemáticas y convertirlos en una ciencia”, afirma Fung.
Fisher llevó a cabo experimentos agrícolas, planteándose preguntas como ¿qué ocurre si pongo más fertilizante en esta tierra? Los principios persistieron y a principios de la década de 1950 los científicos empezaron a realizar ensayos clínicos en medicina. En las décadas de 1960 y 1970, el concepto fue adaptado por los profesionales del marketing para evaluar las campañas de respuesta directa (por ejemplo, ¿una postal o una carta a los clientes objetivo daría lugar a más ventas?)
Las pruebas A/B, en su forma actual, surgieron en la década de 1990. Fung afirma que a lo largo del siglo pasado la matemática que subyace a las pruebas no ha cambiado. “Son los mismos conceptos básicos, pero ahora se hace en línea, en un entorno en tiempo real y a una escala diferente en cuanto a número de participantes y número de experimentos”.
¿Cómo funcionan las pruebas A/B?
Se empieza una prueba A/B decidiendo qué es lo que se quiere probar. Fung pone un ejemplo sencillo: el tamaño del botón de suscripción de su sitio web. Después tiene que saber cómo quiere evaluar su rendimiento. En este caso, digamos que su métrica es el número de visitantes que hacen clic en el botón. Para realizar la prueba, muestre a dos conjuntos de usuarios (asignados al azar cuando visitan el sitio) las distintas versiones (en las que lo único diferente es el tamaño del botón) y determine cuál influyó más en su métrica de éxito. En este caso, ¿qué tamaño de botón hizo que más visitantes hicieran clic?
En la vida real hay muchas cosas que influyen en que alguien haga clic. Por ejemplo, puede ser que los que están en un dispositivo móvil sean más propensos a hacer clic en un botón de determinado tamaño, mientras que los que están en un ordenador de sobremesa se sientan atraídos por un tamaño diferente. Aquí es donde la aleatorización puede ayudar, y es fundamental. Al aleatorizar qué usuarios están en cada grupo, minimiza las posibilidades de que otros factores, como el móvil frente al escritorio, impulsen sus resultados en promedio.
“La prueba A/B puede considerarse el tipo más básico de experimento controlado aleatorio”, afirma Fung. “En su forma más simple, hay dos tratamientos y uno actúa como control del otro”. Como en todos los experimentos controlados aleatorios, debe calcular el tamaño de la muestra que necesita para alcanzar una significación estadística, lo que le ayudará a asegurarse de que el resultado que está viendo “no se debe únicamente al ruido de fondo”, afirma Fung.
A veces, usted sabe que ciertas variables, normalmente las que no son fáciles de manipular, tienen un fuerte efecto en la métrica del éxito. Por ejemplo, puede que los usuarios de móviles de su sitio web tiendan a hacer menos clic en cualquier cosa, en comparación con los usuarios de ordenadores de sobremesa. La aleatorización puede hacer que el conjunto A contenga ligeramente más usuarios móviles que el conjunto B, lo que puede hacer que el conjunto A tenga una tasa de clics más baja independientemente del tamaño del botón que estén viendo. Para nivelar el campo de juego, el analista de pruebas debe dividir primero a los usuarios por móvil y escritorio y luego asignarlos aleatoriamente a cada versión. Esto se denomina bloqueo.
El tamaño del botón de suscripción es un ejemplo muy básico, dice Fung. En realidad, puede que no esté probando sólo el tamaño, sino también el color, y el texto, y el tipo de letra, y el tamaño de la fuente. Muchos directivos realizan pruebas secuenciales -por ejemplo, probando primero el tamaño (grande frente a pequeño), luego el color (azul frente a rojo), luego el tipo de letra (Times frente a Arial)- porque creen que no deben variar dos o más factores al mismo tiempo. Pero según Fung, esa opinión ha sido desacreditada por los estadísticos. Y las pruebas secuenciales no son óptimas porque no se está midiendo lo que ocurre cuando los factores interactúan. Por ejemplo, puede ser que los usuarios prefieran el azul por término medio pero prefieran el rojo cuando se combina con Arial. Este tipo de resultado se suele pasar por alto en las pruebas A/B secuenciales porque la prueba del tipo de letra se ejecuta en los botones azules que han “ganado” la prueba anterior.
En su lugar, dice Fung, debe ejecutar pruebas más complejas. Esto puede resultar difícil para algunos directivos, ya que el atractivo de las pruebas A/B es lo directas y sencillas que son de ejecutar (y muchas personas que diseñan estos experimentos, señala Fung, no tienen formación estadística). “Con las pruebas A/B, tendemos a querer realizar un gran número de pruebas simultáneas e independientes”, dice, en gran parte porque la mente se tambalea ante el número de combinaciones posibles que se pueden probar. Pero utilizando las matemáticas se puede “elegir inteligentemente y ejecutar sólo ciertos subconjuntos de esos tratamientos; luego se puede inferir el resto a partir de los datos”. Esto se denomina prueba “multivariante” en el mundo de las pruebas A/B y a menudo significa que acaba realizando una prueba A/B/C o incluso una prueba A/B/C/D. En el ejemplo anterior con los colores y el tamaño, podría significar mostrar diferentes grupos: un botón rojo grande, un botón rojo pequeño, un botón azul grande y un botón azul pequeño. Si quisiera probar también las fuentes, el número de grupos de prueba crecería aún más.
¿Cómo interpretar los resultados de una prueba A/B?
Lo más probable es que su empresa utilice un software que se encargue de los cálculos, e incluso puede que emplee a un estadístico que pueda interpretar esos resultados por usted. Pero es útil tener una comprensión básica de cómo dar sentido a la salida y decidir si seguir adelante con la variación de la prueba (el nuevo botón en el ejemplo anterior).
Fung afirma que la mayoría de los programas informan de dos tasas de conversión para las pruebas A/B: una para los usuarios que vieron la versión de control y otra para los usuarios que vieron la versión de prueba. “La tasa de conversión puede medir los clics u otras acciones realizadas por los usuarios”, afirma. El informe podría tener este aspecto “Control: 15% (+/- 2,1%) Variación 18% (+/- 2,3%)”. Esto significa que el 18% de sus usuarios hicieron clic en la nueva variación (quizás su botón azul más grande) con un margen de error del 2,3%. Podría tener la tentación de interpretarlo como que la tasa de conversión real se sitúa entre el 15,7% y el 20,3%, pero eso no sería técnicamente correcto. “La interpretación real es que si realizara su prueba A/B varias veces, el 95% de los rangos captarían la tasa de conversión real; en otras palabras, la tasa de conversión cae fuera del margen de error el 5% de las veces (o cualquier nivel de significación estadística que haya establecido)”, explica Fung.
Si esto le resulta difícil de entender, únase al club. Lo que es importante saber es que la tasa de conversión del 18% no es una garantía. Aquí es donde entra en juego su criterio. Una tasa de conversación del 18% es sin duda mejor que una del 15%, incluso teniendo en cuenta el margen de error (12,9%-17,1% frente a 15,7%-20,3%). Puede que oiga a la gente hablar de esto como un “aumento del 3%” (el aumento es simplemente la diferencia porcentual en la tasa de conversión entre su versión de control y un tratamiento de prueba con éxito). En este caso, lo más probable es que sea una buena decisión cambiar a su nueva versión, pero eso dependerá de los costes de implantación de la nueva versión. Si son bajos, podría probar el cambio y ver qué ocurre en la realidad (en lugar de en las pruebas). Una de las grandes ventajas de las pruebas en el mundo en línea es que normalmente puede volver al original con bastante facilidad.
¿Cómo utilizan las empresas las pruebas A/B?
Fung afirma que la popularidad de esta metodología ha aumentado a medida que las empresas se han dado cuenta de que el entorno en línea es muy adecuado para ayudar a los directivos, especialmente a los responsables de marketing, a responder a preguntas como: “¿Qué es lo que tiene más probabilidades de hacer que la gente haga clic? ¿O compren nuestro producto? ¿O se registren en nuestro sitio?”. Las pruebas A/B se utilizan ahora para evaluar todo, desde el diseño del sitio web hasta las ofertas en línea, pasando por los titulares y las descripciones de los productos. (De hecho, la semana pasada examiné los resultados de las pruebas A/B sobre el lenguaje que utilizamos para comercializar un nuevo producto aquí en HBR).
La mayoría de estos experimentos se llevan a cabo sin que los sujetos ni siquiera lo sepan. “Como usuarios, formamos parte de estas pruebas todo el tiempo y no lo sabemos”, afirma Fung.
Y no se trata sólo de sitios web. También puede probar correos electrónicos de marketing o anuncios. Por ejemplo, puede enviar dos versiones de un correo electrónico a su lista de clientes (aleatorizando la lista primero, por supuesto) y averiguar cuál genera más ventas. Entonces podrá enviar la versión ganadora la próxima vez. O podría probar dos versiones del texto de un anuncio y ver cuál convierte a los visitantes con más frecuencia. Entonces sabrá que debe gastar más en conseguir la más exitosa.
¿Qué errores comete la gente al hacer pruebas A/B?
Le pregunté a Fung sobre los errores que ve que cometen las empresas al realizar pruebas A/B, y señaló tres comunes.
En primer lugar, dice, demasiados directivos no dejan que las pruebas sigan su curso. Como la mayoría de los programas informáticos para realizar estas pruebas permiten ver los resultados en tiempo real, los directivos quieren tomar decisiones demasiado rápido. Este error, dice, “surge de la impaciencia”, y muchos proveedores de software han jugado con este exceso de impaciencia ofreciendo un tipo de pruebas A/B llamado “optimización en tiempo real”, en el que se pueden utilizar algoritmos para hacer ajustes a medida que llegan los resultados. El problema es que, debido a la aleatorización, es posible que si deja que la prueba se desarrolle hasta su final natural, obtenga un resultado diferente.
El segundo error es fijarse en demasiadas métricas. “Me estremezco cada vez que veo un software que intenta complacer a todo el mundo ofreciéndole un panel de cientos de métricas”, afirma. El problema es que si mira un número tan grande de métricas al mismo tiempo, corre el riesgo de hacer lo que los estadísticos llaman “correlaciones espurias”. En un diseño de pruebas adecuado, “debe decidir las métricas que va a observar antes de ejecutar un experimento y seleccionar unas pocas. Cuantas más mida, más probabilidades tendrá de ver fluctuaciones aleatorias”. Con tantas métricas, en lugar de preguntarse: “¿Qué está pasando con esta variable?”, se preguntará: “¿Qué cambios interesantes (y potencialmente insignificantes) estoy viendo?”.
Por último, Fung afirma que pocas empresas vuelven a realizar suficientes pruebas. “Tendemos a probarlo una vez y luego nos lo creemos. Pero incluso con un resultado estadísticamente significativo, existe una probabilidad bastante grande de error falso positivo. A menos que se vuelva a hacer la prueba de vez en cuando, no se descarta la posibilidad de equivocarse”. Los falsos positivos pueden producirse por varias razones. Por ejemplo, aunque haya pocas posibilidades de que un resultado A/B determinado se deba al azar, si realiza muchas pruebas A/B, las probabilidades de que al menos uno de sus resultados sea erróneo aumentan rápidamente.
Esto puede ser especialmente difícil de hacer porque es probable que los directivos acaben obteniendo resultados contradictorios, y nadie quiere descubrir que ha socavado hallazgos anteriores, especialmente en el mundo en línea, donde los directivos quieren hacer cambios -y captar valor- rápidamente. Pero este enfoque en el valor puede ser erróneo, dice Fung: “La gente no está muy atenta al valor práctico de los hallazgos. Quieren creer que cualquier pequeña mejora es valiosa aunque los resultados de las pruebas no sean del todo fiables. De hecho, cuanto menor es la mejora, menos fiables son los resultados”.
Está claro que las pruebas A/B no son la panacea. Hay tipos de experimentos más complejos que son más eficaces y le proporcionarán datos más fiables, afirma Fung. Pero las pruebas A/B son una forma estupenda de obtener una comprensión rápida de una cuestión que se le plantea. Y “la buena noticia sobre el mundo de las pruebas A/B es que todo sucede con tanta rapidez que, si lo ejecuta y no funciona, puede probar otra cosa. Siempre puede volver a la vieja táctica”.
Artículos Relacionados

Investigación: La IA generativa hace que la gente sea más productiva y esté menos motivada

Arreglar los chatbots requiere psicología, no tecnología
Los chatbots dotados de IA se están convirtiendo en el nuevo estándar para la gestión de consultas, reclamaciones y devoluciones de productos, pero los clientes se alejan de las interacciones con los chatbots sintiéndose decepcionados. La mayoría de las empresas intentan solucionar este problema diseñando mejores modelos de IA en sus chatbots, pensando que si los modelos suenan lo suficientemente humanos, el problema acabará desapareciendo. Pero esta suposición es errónea. Esto se debe a que el problema de fondo no es tecnológico. Es psicológico: Hay que engatusar a la gente para que vea a los chatbots como un medio positivo de interacción. Los autores han analizado recientemente las últimas investigaciones sobre chatbots e interacciones IA-humanos, y en este artículo presentan seis acciones probadas que puede llevar a cabo al desplegar su chatbot de IA para impulsar la satisfacción, la percepción positiva de la marca y las ventas.

Investigación: ¿Está penalizando a sus mejores empleados por desconectar?
Para combatir el creciente desgaste del personal, muchas empresas han defendido programas de bienestar y han fomentado un enfoque renovado en el equilibrio entre la vida laboral y personal. Pero un nuevo estudio descubrió que incluso cuando los líderes reconocían que desvincularse del trabajo aumenta el bienestar de los empleados y mejora su rendimiento laboral, los directivos seguían penalizando a los empleados que adoptaban estos comportamientos cuando optaban a un ascenso o estaban siendo considerados para un nuevo puesto. Basándose en sus conclusiones, los investigadores ofrecen sugerencias para ayudar a las empresas a crear políticas y construir una cultura que proteja los límites de los trabajadores, evite el agotamiento y recompense el trabajo fuerte.