Cómo la IA cambiará la forma en que tomamos decisiones
por Ajay Agrawal, Joshua Gans, Avi Goldfarb
Con la reciente explosión de la IA, ha surgido una preocupación comprensible por su posible impacto en el trabajo humano. Mucha gente ha intentado predecir qué industrias y empleos se verán más afectados y qué habilidades tendrán más demanda. (¿Debería aprender a programar? ¿O la IA sustituirá también a los codificadores?)
En lugar de intentar predecir detalles específicos, sugerimos un enfoque alternativo. La teoría económica sugiere que la IA aumentará sustancialmente el valor del juicio humano. Las personas que demuestren buen juicio pasarán a ser más valiosas, no menos. Pero para entender lo que implica el buen juicio y por qué pasará a ser más valioso, tenemos que ser precisos en lo que queremos decir.
Qué hace la IA y por qué es útil
Es mejor pensar en los recientes avances de la IA como una caída en el coste de la predicción. Con predicción, no nos referimos solo al futuro, sino que la predicción consiste en utilizar los datos que tiene para generar datos que no tiene, a menudo traduciendo grandes cantidades de datos en cantidades pequeñas y manejables. Por ejemplo, usar imágenes divididas en partes para detectar si la imagen contiene o no un rostro humano es un problema de predicción clásico. La teoría económica nos dice que a medida que baje el coste de la predicción automática, las máquinas harán más y más predicciones.
La predicción es útil porque ayuda a mejorar las decisiones. Pero no es la única contribución a la toma de decisiones; la otra contribución clave es el juicio. Piense en el ejemplo de una red de tarjetas de crédito que decide si aprueba o no cada intento de transacción. Quieren permitir las transacciones legítimas y rechazar el fraude. Utilizan la IA para predecir si cada intento de transacción es fraudulento. Si esas predicciones fueran perfectas, el proceso de decisión de la cadena es sencillo. Rechazar si existe fraude y solo si existe.
Sin embargo, incluso las mejores IA cometen errores y es poco probable que eso cambie pronto. Las personas que dirigen las redes de tarjetas de crédito saben por experiencia que hay un equilibrio entre detectar todos los casos de fraude y molestar al usuario. (¿Alguna vez le han rechazado una tarjeta cuando intentó usarla mientras viajaba?) Y dado que la comodidad es todo el negocio de las tarjetas de crédito, esa compensación no es algo que deba ignorar.
Esto significa que, para decidir si aprueba una transacción, la red de tarjetas de crédito tiene que saber el coste de los errores. ¿Qué tan malo sería rechazar una transacción legítima? ¿Qué tan malo sería permitir una transacción fraudulenta?
Alguien de la asociación de tarjetas de crédito tiene que evaluar cómo afecta a toda la organización cuando se niega una transacción legítima. Tienen que compensar eso con los efectos de permitir una transacción fraudulenta. Y esa compensación puede ser diferente para las personas con un alto patrimonio neto que para los usuarios ocasionales de tarjetas. Ninguna IA puede hacer esa llamada. Los humanos tienen que hacerlo. Esta decisión es lo que llamamos sentencia.
Qué implica la sentencia
El juicio es el proceso de determinar cuál es la recompensa por una acción en particular en un entorno determinado. El juicio es la forma en que calculamos los beneficios y los costes de las diferentes decisiones en diferentes situaciones.
El fraude con tarjetas de crédito es una decisión fácil de explicar en este sentido. El juicio implica determinar cuánto dinero se pierde en una transacción fraudulenta, qué tan descontento estará un cliente legítimo cuando se rechace una transacción y la recompensa por hacer lo correcto y permitir las transacciones buenas y rechazar las malas. En muchas otras situaciones, las compensaciones son más complejas y las recompensas no son sencillas. Los humanos aprenden las recompensas de los diferentes resultados por experiencia, tomando decisiones y observando sus errores.
Conseguir los pagos correctos es difícil. Exige entender qué es lo que más le importa a su organización, de qué se beneficia y qué podría salir mal.
En muchos casos, especialmente a corto plazo, se exigirá a los humanos que ejerzan este tipo de juicio. Se especializarán en sopesar los costes y los beneficios de las diferentes decisiones y, luego, ese juicio se combinará con las predicciones generadas por máquinas para tomar decisiones.
Pero, ¿no podría la IA calcular los costes y los beneficios por sí misma? En el ejemplo de las tarjetas de crédito, ¿no podría la IA utilizar los datos de los clientes para considerar la compensación y optimizarlos con fines de lucro? Sí, pero alguien habría tenido que programar la IA para que fuera la medida de beneficios adecuada. Esto pone de relieve una forma particular de juicio humano que creemos que pasará a ser más común y valiosa.
Fijar las recompensas correctas
Al igual que las personas, la IA también puede aprender de la experiencia. Una técnica importante de la IA es el aprendizaje por refuerzo, mediante el cual se entrena a un ordenador para que tome medidas que maximicen una función de recompensa determinada. Por ejemplo, AlphaGo de DeepMind se entrenó de esta manera para maximizar sus posibilidades de ganar el juego de Go. Los juegos suelen ser fáciles de aplicar con este método de aprendizaje porque la recompensa se puede describir y programar fácilmente, lo que excluye a un humano del circuito.
Pero los juegos se pueden hacer trampa. Como Cableado informes, cuando los investigadores de IA entrenaron a una IA para jugar al juego de carreras de barcos, CoastRunners, la IA descubrió cómo maximizar su puntuación dando vueltas en círculos en lugar de completar el recorrido como estaba previsto. Se podría considerar este tipo de ingenio, pero cuando se trata de aplicaciones más allá de los juegos, este tipo de ingenio puede llevar a resultados perversos.
El punto clave del ejemplo de CoastRunners es que, en la mayoría de las aplicaciones, el objetivo dado a la IA difiere del objetivo real y difícil de medir de la organización. Mientras ese sea el caso, los humanos desempeñarán un papel central en el juicio y, por lo tanto, en la toma de decisiones organizacionales.
De hecho, aunque una organización permita a la IA tomar ciertas decisiones, obtener los beneficios adecuados para la organización en su conjunto requiere entender cómo las máquinas toman esas decisiones. ¿Qué tipos de errores de predicción son probables? ¿Cómo puede una máquina aprender el mensaje incorrecto?
Introduzca la ingeniería de funciones de recompensas. A medida que la IA ofrece predicciones mejores y más baratas, es necesario pensar con claridad y averiguar la mejor manera de utilizar esas predicciones. La ingeniería de funciones de recompensas es el trabajo de determinar las recompensas de varias acciones, dadas las predicciones de la IA. Ser bueno en eso requiere entender las necesidades de la organización y las capacidades de la máquina. (Y lo es) no lo mismo que poner a un humano al tanto para ayudar a entrenar a la IA.)
A veces, la ingeniería de funciones de recompensa implica programar las recompensas antes de las predicciones para que las acciones puedan automatizarse. Los vehículos autónomos son un ejemplo de recompensas codificadas. Una vez hecha la predicción, la acción es instantánea. Pero como ilustra el ejemplo de CoastRunners, conseguir la recompensa correcta no es baladí. La ingeniería de funciones de recompensa tiene que considerar la posibilidad de que la IA optimice en exceso en una métrica de éxito y, al hacerlo, actuar de una manera que no sea coherente con los objetivos más amplios de la organización.
Otras veces, codificar tan duro las recompensas es demasiado difícil. Puede haber muchas predicciones posibles de que es demasiado caro para alguien juzgar todas las posibles recompensas por adelantado. En cambio, algún humano tiene que esperar a que llegue la predicción y luego evaluar el payoff. Esto se acerca más a cómo funciona la mayoría de la toma de decisiones en la actualidad, ya sea que incluya o no las predicciones generadas por máquinas. La mayoría de nosotros ya hacemos algo de ingeniería de funciones de recompensa, pero para los humanos, no para las máquinas. Los padres enseñan valores a sus hijos. Los mentores enseñan a los nuevos trabajadores cómo funciona el sistema. Los gerentes ponen objetivos a su personal y luego los modifican para obtener un mejor desempeño. Todos los días tomamos decisiones y juzgamos las recompensas. Pero cuando hacemos esto para los humanos, la predicción y el juicio se agrupan, y la función distintiva de la ingeniería de funciones de recompensa no tiene por qué estar separada de forma explícita.
A medida que las máquinas mejoren en la predicción, el valor distintivo de la ingeniería de funciones de recompensa aumentará a medida que la aplicación del juicio humano pase a ser fundamental.
En general, ¿la predicción automática reducirá o aumentará la cantidad de trabajo disponible para los humanos en la toma de decisiones? Es demasiado pronto para saberlo. Por un lado, la predicción automática sustituirá a la predicción humana en la toma de decisiones. Por otro lado, la predicción automática es un complemento del juicio humano. Y una predicción más barata generará más demanda de toma de decisiones, por lo que habrá más oportunidades de ejercer el juicio humano. Así que, aunque es demasiado pronto para especular sobre el impacto general en los puestos de trabajo, no cabe duda de que pronto seremos testigos de un gran florecimiento de la demanda de juicio humano en forma de ingeniería de funciones de recompensa.
Artículos Relacionados

La IA es genial en las tareas rutinarias. He aquí por qué los consejos de administración deberían resistirse a utilizarla.

Investigación: Cuando el esfuerzo adicional le hace empeorar en su trabajo
A todos nos ha pasado: después de intentar proactivamente agilizar un proceso en el trabajo, se siente mentalmente agotado y menos capaz de realizar bien otras tareas. Pero, ¿tomar la iniciativa para mejorar las tareas de su trabajo le hizo realmente peor en otras actividades al final del día? Un nuevo estudio de trabajadores franceses ha encontrado pruebas contundentes de que cuanto más intentan los trabajadores mejorar las tareas, peor es su rendimiento mental a la hora de cerrar. Esto tiene implicaciones sobre cómo las empresas pueden apoyar mejor a sus equipos para que tengan lo que necesitan para ser proactivos sin fatigarse mentalmente.

En tiempos inciertos, hágase estas preguntas antes de tomar una decisión
En medio de la inestabilidad geopolítica, las conmociones climáticas, la disrupción de la IA, etc., los líderes de hoy en día no navegan por las crisis ocasionales, sino que operan en un estado de perma-crisis.