Una nueva investigación analizó hasta qué punto los empleados de una tienda de moda seguían las recomendaciones de dos algoritmos en cuanto a inventario: uno cuyo funcionamiento era fácil de entender y otro que era indescifrable. Sorprendentemente, aceptaron la guía del algoritmo ininterpretable con más frecuencia.

•••

De la Universidad de Georgetown Timothy DeStefano y sus colegas —Michael Menietti y Luca Vendraminelli de Harvard y Katherine Kellogg del MIT— analizaron las decisiones de abastecimiento de 425 productos de una minorista de moda de lujo estadounidense en 186 tiendas. La mitad de las decisiones se tomaron después de que los empleados recibieran recomendaciones de un algoritmo fácil de entender y la otra mitad después de recibir recomendaciones de un algoritmo que no se podía descifrar. Una comparación de las decisiones mostró que los empleados seguían las instrucciones del algoritmo ininterpretable con más frecuencia. La conclusión: puede que la gente confíe más en la IA cuando no puede ver cómo funciona.

Profesor DeStefano, defienda su investigación.

De Stefano: Investigaciones anteriores han demostrado que los responsables de la toma de decisiones suelen mostrarse reacios a aceptar las directrices generadas por la IA, ya sea consciente o inconscientemente, y las anulan de forma rutinaria. Eso es un problema para las empresas que dedican mucho tiempo y dinero a los sistemas de IA.

Nos asociamos con Tapestry, la compañía madre de Coach, Kate Spade y Stuart Weitzman, para explorar esta reticencia y cómo contrarrestarla. La empresa tiene casi 1500 tiendas y unas ventas anuales de 6 700 millones de dólares, y optimizar la asignación de los productos y gestionar una cadena de suministro eficiente son fundamentales para su éxito. Los empleados determinan las asignaciones semanales de inventario para cada tienda basándose en las previsiones a corto plazo, que tienen que ser lo más precisas posible.

Históricamente, Tapestry había utilizado un algoritmo basado en reglas para ayudar a los asignadores a estimar la demanda. Era un modelo que podían entender a partir de su experiencia diaria y cuyas aportaciones podían ver. Con el objetivo de aumentar la precisión, la empresa desarrolló un modelo de previsión más sofisticado que era una «caja negra» para los usuarios. Asignamos aleatoriamente uno de los dos sistemas para que nos sirviera de guía para cada decisión sobre el producto a lo largo de las tres semanas de nuestro estudio. Tras ver las recomendaciones, los asignadores pueden enviar la cantidad sugerida o desviarse de las instrucciones y enviar un número diferente de productos. Resulta que los envíos estuvieron hasta un 50% más cerca de las recomendaciones generadas por el sistema de caja negra que a las del algoritmo más simple y basado en reglas, lo que sugiere que los empleados confiaban mucho más en el modelo de caja negra.

HBR: ¡Es un resultado sorprendente! ¿Por qué cree que ocurrió?

De hecho, nuestro hallazgo va en contra del pensamiento convencional, que sostiene que es más probable que las personas acepten las directrices de sistemas que pueden entender.

Una de las razones por las que los asignadores anularon el sistema menos sofisticado tiene que ver con lo que denominamos «una excesiva confianza en la solución de problemas». Eso ocurre cuando los responsables de la toma de decisiones creen que entienden el razonamiento de un modelo mejor de lo que realmente lo hacen. Utilizan su experiencia para adaptarse a lo que consideran deficiencias en el modelo.

Los empleados que estudiábamos a menudo desarrollaban historias sobre el funcionamiento interno del algoritmo interpretable y por qué tenían que anular sus directrices. Por ejemplo, en una entrevista realizada después del experimento, uno nos habló de ajustar las cantidades de producto sugeridas por el modelo tras razonar que un repunte único en las ventas debe haber estado relacionado con el draft de la NFL y debería tener descuentos. No sabemos si el borrador contribuyó realmente al repunte, pero el asignador confiaba en esa explicación.

Comprendo por qué la gente podría sobreestimar su conocimiento de un modelo bastante simple. Pero, ¿por qué aceptarían tanto uno que es impenetrable?

A pesar de que los empleados no podían decir cuántos datos se utilizaban en el modelo no interpretable ni qué había hecho el modelo con ellos, sabían que el modelo se había desarrollado y probado con las aportaciones de algunos de sus colegas, y eso les daba confianza. Es un ejemplo de lo que se conoce como «prueba social». Un asignador nos dijo: «Con el algoritmo ininterpretable, a menudo no estábamos de acuerdo con determinadas recomendaciones. No es que hayamos confiado en cada recomendación de la modelo. Es que confiábamos en el modelo a un nivel más macroeconómico, porque nuestros homólogos habían participado en su desarrollo».

Cuando los usuarios tuvieron en cuenta su propia experiencia, ¿obtuvieron mejores resultados?

Todo lo contrario, ¡porque el modelo más sofisticado era buenísimo! Estudiamos más de 17 000 decisiones de asignación y analizamos el desempeño de cada producto en las dos semanas posteriores a la toma de la decisión de existencias. Las decisiones asociadas al modelo de caja negra tuvieron más éxito que las asociadas al modelo más transparente, precisamente porque la gente estaba mucho más inclinada a seguir sus consejos. Generaron mayores ventas y menos agotaciones de existencias y generaron un 20% más de ingresos.

¿Algo más afectó a que las personas aceptaran o rechazaran las recomendaciones de los modelos?

El grado de incertidumbre que sentía un empleado al tomar una decisión en particular era importante y variaba según el volumen de ventas de la tienda en cuestión. Las decisiones de abastecimiento en las tiendas de gran volumen fueron las que generaron mayor incertidumbre, ya que las consecuencias de las malas asignaciones eran mayores: posibles cantidades mayores de pérdida de ventas o exceso de inventario. Era mucho más probable que la gente aceptara las recomendaciones del modelo ininterpretable que las del modelo interpretable a la hora de asignar productos a esas tiendas. Con el modelo interpretable, el elevado nivel de incertidumbre llevó a la gente a investigar sus sugerencias y a rechazarlas.

¿Cómo lograría que los trabajadores utilizaran la guía de un algoritmo todo el tiempo?

Tiene que medir constantemente cuánto confían los empleados en su sistema. Si descubre que confían en ello en algunos contextos más que en otros, querrá saber por qué. Puede que se muestren escépticos con respecto a la IA porque tiene errores o ofrece recomendaciones muy diferentes a las que les dice su experiencia o intuición. Tiene que determinar si están siendo racionales en su desconfianza. Una vez que comprenda lo que hay detrás de esto, puede desarrollar una formación específica para mejorar su aceptación de la destreza de toma de decisiones de la herramienta.

No se trata de un fenómeno nuevo. Cada vez que se lanzan nuevas tecnologías, es posible que las personas inicialmente no estén dispuestas a aceptarlas.

Si introdujera una herramienta de recomendación basada en la IA para sus empleados, ¿la haría ininterpretable?

Antes de lanzar una nueva herramienta, haría que el equipo de ciencia de datos o quien fuera a crearla se reuniera con las personas que la utilizarían e incluyera a algunas de ellas en el proceso de desarrollo. Ese tipo de transparencia y participación de los empleados generan confianza entre los trabajadores. Pero una vez que todo eso hubiera ocurrido y se hubiera probado el sistema y todos hubieran estado de acuerdo en que funcionaba, querría limitar la capacidad de mis empleados de anular el algoritmo.