Puede que pronto sea una práctica habitual que las herramientas de IA -como GPT-3 y DALL-E- proporcionen los primeros borradores de correos electrónicos, artículos, informes, entradas de blog, presentaciones, vídeos, etc.
•••
Los modelos de IA de grandes lenguajes e imágenes, a veces denominados IA generativa o modelos básicos, han creado un nuevo conjunto de oportunidades para las empresas y los profesionales que realizan la creación de contenido. Algunas de estas oportunidades incluyen:
- Generación de contenido automatizada: se pueden utilizar modelos de IA de grandes idiomas e imágenes para generar automáticamente contenido, como artículos, publicaciones de blog o publicaciones en redes sociales. Esta puede ser una valiosa herramienta para ahorrar tiempo a las empresas y los profesionales que crean contenido de forma regular.
- Mejora de la calidad del contenido: el contenido generado por la IA puede ser de mayor calidad que el contenido creado por los humanos, debido a que los modelos de IA pueden aprender de una gran cantidad de datos e identificar patrones que los humanos tal vez no puedan ver. Esto puede dar lugar a un contenido más preciso e informativo.
- Mayor variedad de contenido: los modelos de IA pueden generar diversos tipos de contenido, incluidos texto, imágenes y vídeos. Esto puede ayudar a las empresas y a los profesionales a crear contenido más diverso e interesante que atraiga a una gama más amplia de personas.
- Contenido personalizado: los modelos de IA pueden generar contenido personalizado en función de las preferencias de los usuarios individuales. Esto puede ayudar a las empresas y a los profesionales a crear contenido que tenga más probabilidades de interesar a su público objetivo y, por lo tanto, de leerse o compartirse.
¿Qué tan hábil es esta tecnología para imitar los esfuerzos humanos en el trabajo creativo? Bueno, por ejemplo, el texto en cursiva de arriba lo escribió GPT-3, un «modelo de lenguaje grande» (LLM) creado por OpenAI, en respuesta a la primera frase, que escribimos nosotros. El texto del GPT-3 refleja los puntos fuertes y débiles de la mayoría del contenido generado por la IA. En primer lugar, es sensible a las instrucciones que se le dan; probamos varias indicaciones alternativas antes de llegar a un acuerdo con esa frase. En segundo lugar, el sistema escribe razonablemente bien, no hay errores gramaticales y la elección de palabras es la adecuada. En tercer lugar, sería beneficioso editarlo; normalmente no comenzaríamos un artículo como este con una lista numerada, por ejemplo. Por último, se le ocurrieron ideas que no se nos ocurrieron. El último punto sobre el contenido personalizado, por ejemplo, no es uno que hubiéramos tenido en cuenta.
En general, ofrece una buena ilustración del valor potencial de estos modelos de IA para las empresas. Amenazan con cambiar el mundo de la creación de contenido, con un impacto sustancial en el marketing, el software, el diseño, el entretenimiento y las comunicaciones interpersonales. Esta no es la «inteligencia general artificial» con la que los humanos han soñado y temido durante mucho tiempo, pero puede que los observadores ocasionales lo vean así.
¿Qué es la IA generativa?
La IA generativa ya puede hacer mucho. Es capaz de producir texto e imágenes, que abarcan publicaciones de blog, código de programa, poesía e imágenes (e incluso ganar concursos, de manera controvertida). El software utiliza modelos complejos de aprendizaje automático para predecir la siguiente palabra en función de las secuencias de palabras anteriores, o la siguiente imagen en función de las palabras que describen las imágenes anteriores. Los LLM comenzaron en Google Brain en 2017, donde inicialmente se utilizaban para traducir palabras y, al mismo tiempo, conservar el contexto. Desde entonces, los modelos de gran lenguaje y conversión de texto a imagen han proliferado en las principales firmas tecnológicas, como Google (BERT y LaMDA), Facebook (OPT-175B, BlenderBot) y OpenAI, una organización sin fines de lucro en la que Microsoft es el principal inversor (GPT-3 para texto, DALL-E2 para imágenes y Whisper para voz). Las comunidades en línea como Midjourney (que ayudó a ganar el concurso de arte) y los proveedores de código abierto como HuggingFace, también han creado modelos generativos.
Estos modelos se han limitado en gran medida a las principales empresas de tecnología porque su formación requiere enormes cantidades de datos y potencia de cálculo. El GPT-3, por ejemplo, se entrenó inicialmente con 45 terabytes de datos y emplea 175 000 millones de parámetros o coeficientes para hacer sus predicciones; un solo entrenamiento para el GPT-3 costó 12 millones de dólares. Wu Dao 2.0, un modelo chino, tiene 1,75 billones de parámetros. La mayoría de las empresas no tienen las capacidades de centros de datos ni los presupuestos de computación en la nube para entrenar sus propios modelos de este tipo desde cero.
Pero una vez que se entrena un modelo generativo, se puede «ajustar» para un dominio de contenido concreto con muchos menos datos. Esto ha llevado a modelos especializados de BERT, para contenido biomédico ( BioBert), contenido legal ( Leal-bert) y texto en francés ( Camembert) y GPT-3 para una amplia variedad de propósitos específicos. De NVIDIA BioNemo es un marco para entrenar, crear e implementar modelos lingüísticos grandes a escala de supercomputación para la química generativa, la proteómica y el ADN/ARN. OpenAI ha descubierto que tan solo 100 ejemplos específicos de datos de dominios específicos pueden mejorar sustancialmente la precisión y la relevancia de los resultados del GPT-3.
Para utilizar la IA generativa de forma eficaz, todavía necesita la participación humana tanto al principio como al final del proceso.
Para empezar, un humano debe introducir un prompt en un modelo generativo para que pueda crear contenido. En términos generales, las indicaciones creativas producen resultados creativos. Es probable que el «ingeniero rápido» se convierta en una profesión establecida, al menos hasta que surja la próxima generación de IA aún más inteligente. El campo ya ha llevado a un Libro de 82 páginas de indicaciones de imagen de DALL-E 2 y un mercado prompt en el que, por un módico precio, puede comprar las indicaciones de otros usuarios. La mayoría de los usuarios de estos sistemas tendrán que probar varias instrucciones diferentes antes de lograr el resultado deseado.
Luego, una vez que un modelo genere contenido, tendrá que ser evaluado y editado cuidadosamente por un humano. Las salidas prompt alternativas pueden combinarse en un solo documento. La generación de imágenes puede requerir una manipulación sustancial. Jason Allen, que ganó el concurso de «fotografía manipulada digitalmente» de Colorado con la ayuda de Midjourney, dijo a un reportera que pasó más de 80 horas haciendo más de 900 versiones del arte y afinó sus indicaciones una y otra vez. Luego mejoró el resultado con Adobe Photoshop, aumentó la calidad y la nitidez de la imagen con otra herramienta de IA e imprimió tres piezas sobre lienzo.
Los modelos de IA generativa son increíblemente diversos. Pueden incluir contenido como imágenes, formatos de texto más largos, correos electrónicos, contenido de redes sociales, grabaciones de voz, código de programa y datos estructurados. Pueden generar contenido nuevo, traducciones, respuestas a preguntas, análisis de opiniones, resúmenes e incluso vídeos. Estas máquinas de contenido universales tienen muchas aplicaciones potenciales en los negocios, varias de las cuales describimos a continuación.
Aplicaciones de marketing
Estos modelos generativos son potencialmente valiosos en varias funciones empresariales, pero las aplicaciones de marketing son quizás las más comunes. Jasper, por ejemplo, una versión de GPT-3 centrada en el marketing, puede producir blogs, publicaciones en redes sociales, textos web, correos electrónicos de ventas, anuncios y otros tipos de contenido dirigido a los clientes. Sostiene que pone a prueba sus resultados con frecuencia con pruebas A/B y que su contenido está optimizado para su posicionamiento en los motores de búsqueda. Jasper también ajusta los modelos GPT-3 con los mejores resultados de sus clientes, lo que, según los ejecutivos de Jasper, ha llevado a mejoras sustanciales. La mayoría de los clientes de Jasper son particulares y pequeñas empresas, pero algunos grupos dentro de empresas más grandes también hacen uso de sus capacidades. En la empresa de computación en la nube VMware, por ejemplo, los escritores utilizan Jasper para generar contenido original para el marketing, desde el correo electrónico hasta las campañas de productos y los textos para las redes sociales. Rosa Lear, directora de crecimiento basado en el producto, dijo que Jasper ayudó a la empresa a impulsar nuestra estrategia de contenido y que los guionistas ahora tienen tiempo de investigar, idear y planificar mejor.
Kris Ruby, propietaria de una agencia de relaciones públicas y redes sociales Grupo Ruby Media , ahora utiliza la generación de texto e imágenes a partir de modelos generativos. Ella dice que son eficaces para maximizar la optimización de los motores de búsqueda (SEO) y, en RR.PP., para presentaciones personalizadas a los escritores. Cree que estas nuevas herramientas abren una nueva frontera en los desafíos de los derechos de autor y ayuda a crear políticas de IA para sus clientes. Cuando usa las herramientas, dice: «La IA es del 10%, yo del 90%» porque implica mucho apuntar, editar e iterar. Cree que estas herramientas hacen que la escritura sea mejor y más completa para el descubrimiento de los motores de búsqueda, y que las herramientas de generación de imágenes pueden sustituir al mercado de fotografías de archivo y llevar a un renacimiento del trabajo creativo.
DALL-E 2 y otras herramientas de generación de imágenes ya se utilizan en la publicidad. Heinz, por ejemplo, usó una imagen de una botella de ketchup con una etiqueta similar a la de Heinz para argumentar que «Así es como le parece ‘ketchup’ a la IA». Por supuesto, solo quería decir que la modelo se entrenó con un número relativamente grande de fotos de botellas de ketchup Heinz. Nestlé usó una versión mejorada con IA de un cuadro de Vermeer para ayudar a vender una de sus marcas de yogur.Corrección de puntadas, la empresa de ropa que ya utiliza la IA para recomendar prendas específicas a sus clientes, está experimentando con DALL-E 2 para crear visualizaciones de ropa basadas en las preferencias de color, tela y estilo de los clientes solicitados. Mattel utiliza la tecnología para generar imágenes para el diseño y la marketing juguetes.
Aplicaciones de generación de código
El GPT-3 en particular también ha demostrado ser un generador eficaz, si no perfecto, de códigos de programas de ordenador. Dada la descripción de un «fragmento» o una función de programa pequeño, el programa Codex del GPT-3, diseñado específicamente para la generación de código, puede producir código en varios lenguajes diferentes. El Github de Microsoft también tiene una versión de GPT-3 para la generación de código llamada CoPilot. Las versiones más recientes del Codex ahora pueden identificar errores y corregir errores en su propio código, e incluso explicar lo que hace el código, al menos una parte del tiempo. El objetivo expresado de Microsoft no es para eliminar a los programadores humanos, sino para crear herramientas como Codex o CoPilot «emparejar programadores» con humanos para mejorar su velocidad y eficacia.
El consenso sobre la generación de código basada en LLM es que funciona bien con esos fragmentos, aunque su integración en un programa más grande y la integración del programa en un entorno técnico particular aún requieren capacidades de programación humana. Deloitte ha experimentado ampliamente con Codex durante los últimos meses y ha descubierto que aumenta la productividad de los desarrolladores experimentados y crea algunas capacidades de programación para los que no tienen experiencia.
En una prueba piloto de seis semanas en Deloitte con 55 desarrolladores durante 6 semanas, la mayoría de los usuarios calificaron la precisión del código resultante en un 65% o más, y la mayoría del código procedía de Codex. En general, el experimento de Deloitte encontró una mejora del 20% en la velocidad de desarrollo de código para proyectos relevantes. Deloitte también ha utilizado el Codex para traducir código de un idioma a otro. La conclusión de la empresa fue que seguiría necesitando desarrolladores profesionales en un futuro próximo, pero el aumento de la productividad podría requerir menos de ellos. Al igual que con otros tipos de herramientas de IA generativa, descubrieron que cuanto mejor era el prompt, mejor era el código de salida.
Aplicaciones conversacionales
Los LLM se utilizan cada vez más en el centro de la IA conversacional o los chatbots. Potencialmente, ofrecen mayores niveles de comprensión de la conversación y conocimiento del contexto que las tecnologías conversacionales actuales. De Facebook BlenderBot, por ejemplo, que se diseñó para el diálogo, puede mantener conversaciones largas con humanos y, al mismo tiempo, mantener el contexto. De Google BERTOse usa para entender las consultas de búsqueda y también es un componente del motor de chatbot DialogFlow de la empresa. El LamBA de Google, otro LLM, también se diseñó para el diálogo y las conversaciones con él convencieron a uno de los ingenieros de la empresa de que era un ser sensible— una hazaña impresionante, dado que simplemente se trata de predecir las palabras utilizadas en una conversación en función de conversaciones pasadas.
Ninguno de estos LLM es un conversador perfecto. Están entrenados en contenido humano del pasado y tienden a replicar cualquier lenguaje racista, sexista o sesgado al que estuvieron expuestos en la formación. Aunque las empresas que crearon estos sistemas están trabajando para filtrar la incitación al odio, aún no han tenido todo éxito.
Aplicaciones de gestión del conocimiento
Una aplicación emergente de las LLM es emplearlas como medio de gestionar el conocimiento basado en texto (o posiblemente basado en imágenes o vídeos) dentro de una organización. La intensidad de mano de obra que implica la creación de bases de conocimiento estructuradas ha dificultado la gestión del conocimiento a gran escala para muchas grandes empresas. Sin embargo, algunas investigaciones ha sugerido que los LLM pueden ser eficaces a la hora de gestionar el conocimiento de una organización cuando la formación modelo se ajusta a un conjunto específico de conocimientos basados en texto dentro de la organización. Se puede acceder al conocimiento de un LLM mediante preguntas emitidas como indicaciones.
Algunas empresas están explorando la idea de la gestión del conocimiento basada en LLM junto con los principales proveedores de LLM comerciales. Morgan Stanley, por ejemplo, está trabajando con el GPT-3 de OpenAI para ajustar la formación sobre el contenido de gestión patrimonial, de modo que los asesores financieros puedan buscar los conocimientos existentes en la empresa y crear contenido personalizado para los clientes fácilmente. Parece probable que los usuarios de esos sistemas necesiten formación o ayuda para crear indicaciones eficaces, y que los resultados de conocimiento de las LLM sigan necesitando edición o revisión antes de aplicarlos. Sin embargo, suponiendo que se solucionen esos problemas, los LLM podrían reavivar el campo de la gestión del conocimiento y permitir que se escale de manera mucho más eficaz.
Deepfakes y otras inquietudes legales y éticas
Ya hemos visto que estos sistemas generativos de IA conducen rápidamente a una serie de problemas legales y éticos. Los «deepfakes», o imágenes y vídeos creados por la IA y que pretenden ser realistas pero que no lo son, ya han aparecido en los medios de comunicación, el entretenimiento y la política. Sin embargo, hasta ahora, la creación de deepfakes requería una cantidad considerable de habilidades informáticas. Ahora, sin embargo, casi cualquiera podrá crearlos. OpenAI ha intentado controlar las imágenes falsas «marcando con agua» cada imagen del DALL-E 2 con un símbolo distintivo. Sin embargo, es probable que se necesiten más controles en el futuro, sobre todo porquecreación de vídeos generativos se convierte en algo popular.
La IA generativa también plantea numerosas preguntas sobre qué constituye el contenido original y propietario. Dado que el texto y las imágenes creados no son exactamente iguales a cualquier contenido anterior, los proveedores de estos sistemas sostienen que pertenecen a sus creadores prompt mensajes. Pero se derivan claramente del texto y las imágenes anteriores que se utilizaban para entrenar a las maquetas. No hace falta decir que estas tecnologías proporcionarán un trabajo importante a los abogados de propiedad intelectual en los próximos años.
A partir de estos pocos ejemplos de aplicaciones empresariales, debería quedar claro que ahora solo estamos arañando la superficie de lo que la IA generativa puede hacer por las organizaciones y las personas que forman parte de ellas. Puede que pronto se convierta en práctica habitual, por ejemplo, que esos sistemas creen la mayoría o la totalidad de nuestro contenido escrito o basado en imágenes, para proporcionar los primeros borradores de correos electrónicos, cartas, artículos, programas de ordenador, informes, entradas de blog, presentaciones, vídeos,. No cabe duda de que el desarrollo de esas capacidades tendría implicaciones dramáticas e imprevistas para la propiedad del contenido y la protección de la propiedad intelectual, pero también es probable que revolucione el conocimiento y el trabajo creativo. Suponiendo que estos modelos de IA sigan progresando como lo han hecho en el poco tiempo que existen, no podemos imaginarnos todas las oportunidades e implicaciones que pueden generar.
_
- Thomas H. Davenport es profesor distinguido del presidente de tecnología y gestión de la información en el Babson College, profesor visitante en la Escuela de Negocios Saïd de Oxford, investigador de la Iniciativa del MIT sobre la Economía Digital y asesor principal de la práctica de IA de Deloitte.
- Nitin Mittal es director de Deloitte Consulting LLP. En la actualidad, es el líder de consultoría de la Oferta de Crecimiento Estratégico de Inteligencia Artificial (IA) de Estados Unidos. Está especializado en asesorar a los clientes para que consigan una ventaja competitiva a través de transformaciones impulsadas por los datos y la cognición que promuevan una inteligencia amplificada y permitan a nuestros clientes tomar decisiones estratégicas y transformarse antes de la disrupción.