Hace diez años, los autores postularon que ser científico de datos era el «trabajo más sexy del siglo XXI». Una década después, ¿se sostiene la afirmación? El puesto ha ganado popularidad y, en general, está bien remunerado, y se prevé que el campo experimente más crecimiento que casi ningún otro en 2029. Pero el trabajo ha cambiado, tanto en lo grande como en lo pequeño. Se ha institucionalizado mejor, se ha redefinido el alcance del puesto, la tecnología en la que se basa ha avanzado enormemente y la importancia de los conocimientos no técnicos, como la ética y la gestión del cambio, ha crecido. La forma en que funciona en las empresas (y la forma en que los ejecutivos deben pensar en la gestión de las iniciativas de ciencia de datos) también han cambiado, ya que las empresas ahora necesitan crear y supervisar diversos equipos de ciencia de datos en lugar de buscar unicornios de los científicos de datos. Por último, las empresas tienen que pensar en lo que viene después y en cómo pueden empezar a pensar en democratizar la ciencia de datos.

•••

Hace diez años publicamos el artículo»Científico de datos: el trabajo más sexy de los 21 st Siglo.» La mayoría de los lectores ocasionales probablemente solo recuerden el modificador «más sexy», un comentario sobre su demanda en el mercado. El puesto era relativamente nuevo en esa época, pero a medida que más empresas intentaban dar sentido al big data, se dieron cuenta de que necesitaban personas que pudieran combinar habilidades de programación, análisis y experimentación. En ese momento, esa demanda estaba restringida en gran medida al área de la bahía de San Francisco y a algunas otras ciudades costeras. Las empresas emergentes y tecnológicas de esas áreas parecían querer todos los científicos de datos que pudieran contratar. Pensamos que la necesidad se ampliaría a medida que las principales empresas adoptaran tanto la analítica empresarial como las nuevas formas y volúmenes de datos.

En ese momento, definimos al científico de datos como «un profesional de alto rango con la formación y la curiosidad necesarias para hacer descubrimientos en el mundo de los macrodatos». Las empresas estaban empezando a analizar datos voluminosos y menos estructurados, como las secuencias de clics en línea, las redes sociales y las imágenes y el discurso. Como aún no había una trayectoria profesional bien definida para las personas que pudieran programar y analizar esos datos, los científicos de datos tenían diversos antecedentes educativos. El título más común en nuestra encuesta informal a 35 científicos de datos en esa época era un doctorado en física experimental, pero también encontramos astrónomos, psicólogos y meteorólogos. La mayoría tenía doctorados en algún campo científico, eran excepcionales en matemáticas y sabían programar. Dada la ausencia de herramientas y procesos en esa época para desempeñar sus funciones, también se les daba bien la experimentación y la invención. No es que realmente se necesitara un doctorado en ciencias para hacer el trabajo, sino que estas personas tenían la rara habilidad de aprovechar el potencial de los datos, analizando conjuntos de datos complejos y desordenados y creando algoritmos de recomendación.

Una década después, el trabajo tiene más demanda que nunca entre los empleadores y los reclutadores. La IA es cada vez más popular en los negocios, y las empresas de todos los tamaños y ubicaciones sienten que necesitan científicos de datos para desarrollar modelos de IA. Para 2019, las publicaciones para científicos de datos en Indeed habíanaumentó un 256%, y la Oficina de Estadísticas Laborales de los Estados Unidos predicen que la ciencia de datos crecerá másque casi cualquier otro campo de aquí a 2029. El trabajo más solicitado generalmente se paga bastante bien; elsalario medio para un científico de datos con experiencia en California se acerca a los 200 000 dólares.

También persisten muchos de los mismos dolores de cabeza. En nuestra investigación para el artículo original, muchos científicos de datos observaron que dedican gran parte de su tiempo a limpiar y organizar los datos, y eso sigue siendo así a pesar de algunos avances en el uso de la propia IA para mejorar la gestión de los datos. Además, muchas organizaciones no tienenculturas basadas en datos y no aproveche la información que ofrecen los científicos de datos. Que te contraten y paguen bien no significa que los científicos de datos puedan marcar la diferencia para sus empleadores. Como resultado, muchos se sienten frustrados, lo que lleva a una alta rotación.

Aun así, el trabajo ha cambiado, tanto en lo grande como en lo pequeño. Se ha institucionalizado mejor, se ha redefinido su alcance, la tecnología en la que se basa ha avanzado enormemente y la importancia de los conocimientos no técnicos, como la ética y la gestión del cambio, ha crecido. Los numerosos ejecutivos que reconocen que la ciencia de datos es importante para sus empresas ahora necesitan crear y supervisar diversos equipos de ciencia de datos en lugar de buscar unicornios de los científicos de datos. También pueden empezar a pensar en democratizar la ciencia de datos, pero con la ayuda de los científicos de datos.

Mejor institucionalizado

En 2012, la ciencia de datos era una función incipiente incluso en las empresas emergentes orientadas a la IA. Hoy en día está bastante consolidado, al menos en las empresas con un gran compromiso con los datos y la IA. Los bancos, las compañías de seguros, los minoristas e incluso los proveedores de atención médica e incluso las agencias gubernamentales tienen grupos importantes de ciencia de datos; las grandes firmas de servicios financieros pueden tener cientos de científicos de datos. La ciencia de datos también ha sido eficaz para abordar las crisis sociales, contar y predecir los casos y muertes por la COVID-19, ayudar a abordar los desastres climáticos e incluso combatir la desinformación y los ciberhackeos relacionados con la invasión de Ucrania.

Un factor importante que ha facilitado la institucionalización ha sido el auge de la oferta educativa orientada a la ciencia de los datos. En 2012, no había programas de licenciatura en ciencias de datos; se contrataron científicos de datos de otros campos con orientación cuantitativa. Ahora hay cientos de programas de grado en ciencia de datos o campos relacionados, como la analítica y la IA. La mayoría lo sonmáster programas, pero también hayespecializaciones de pregrado y programas de doctorado en ciencia de datos. También hay una enorme cantidad de certificados, ofertas de cursos en línea y campos de entrenamiento en campos relacionados con la ciencia de datos. Hay inclusoinstituto cursos y planes de estudio de ciencia de datos. Está claro que cualquiera que desee formarse en funciones de ciencia de datos tendrá muchas opciones para hacerlo. Sin embargo, es poco probable que un solo programa pueda inculcar todas las habilidades necesarias para concebir, crear e implementar análisis, experimentos y modelos de ciencia de datos efectivos y éticos. De hecho, dar sentido a las diversas opciones educativas, incluso en una sola institución, es un desafío para los posibles científicos de datos y para las empresas que desean contratarlos.

Los científicos de datos en relación con otras funciones

El puesto de ciencia de datos ahora también se complementa con otros trabajos. En 2012, la suposición era que los científicos de datos podían realizar todas las tareas necesarias en una aplicación de ciencia de datos, desde conceptualizar el caso de uso hasta interactuar con las partes interesadas empresariales y tecnológicas, desarrollar el algoritmo y desplegarlo en la producción. Ahora, sin embargo, ha habido una proliferación de trabajos relacionados para gestionar muchas de esas tareas, como ingeniero de aprendizaje automático, ingeniero de datos, especialista en IA, traductores de análisis e IA y directores de productos orientados a los datos. LinkedIn informó que algunos de estos trabajos eran más populares que los científicos de datos en su»Los empleos van en aumento» informes para 2021 y 2022 para EE. UU.

Parte de la proliferación se debe al hecho de que ningún empleado titular puede poseer todas las habilidades necesarias para implementar con éxito un sistema complejo de IA o análisis. Cada vez se reconoce más que muchos algoritmos sonnunca se desplegó, lo que ha llevado a muchas organizaciones a intentar mejorar las tasas de despliegue. Además, los desafíos de gestionar el aumento de los sistemas y tecnologías de datos han dado lugar a un entorno técnico más complejo. Ha habido algunos intentos de certificación de científicos de datos y trabajos relacionados, pero aún no son muy buscados ni reconocidos. Algunas empresas, comoBanco TD, han desarrollado estructuras de clasificación para las numerosas carreras y habilidades relacionadas con la ciencia de datos, pero no son lo suficientemente comunes en las organizaciones.

Como resultado de esta proliferación de habilidades, las empresas tienen que identificar todas las diferentes funciones necesarias para implementar de forma eficaz los modelos de ciencia de datos en sus negocios y asegurarse de que están presentes y colaborando en los equipos.

Cambios en la tecnología

Una de las razones por las que el trabajo del científico de datos sigue cambiando es porque las tecnologías que utilizan los científicos de datos están cambiando. Algunas tendencias tecnológicas son la continuación de las direcciones presentes en 2012, como el uso de herramientas de código abierto y el paso al procesamiento y el almacenamiento de datos en la nube. Sin embargo, algunas afectan al núcleo de la labor de la ciencia de datos. Por ejemplo, algunos aspectos de la ciencia de datos están cada vez más automatizados (mediante el aprendizaje automático automático oAutoML), lo que puede mejorar la productividad de los profesionales de la ciencia de datos y abrir la posibilidad de que los «científicos de datos ciudadanos» solo tengan una formación cuantitativa. Estas herramientas automatizadas aún no han reducido el atractivo de los científicos de datos profesionales, pero puede que lo hagan en el futuro.

Las empresas deberían empezar a democratizar la analítica avanzada y la IA en sus organizaciones, confiando en los científicos de datos para garantizar que los modelos desarrollados por los ciudadanos sean precisos y que se empleen todos los datos relevantes.

Los científicos de datos se han dado cuenta de que sus modelos pueden «desviarse» en entornos empresariales turbulentos, como la pandemia de la COVID-19, por lo que se hace un nuevo hincapié en la supervisión de su precisión tras el despliegue. Las herramientas de operaciones de aprendizaje automático, o «MLOP», proporcionan una supervisión continua de los modelos; el reentrenamiento automatizado de los modelos a la deriva acaba de empezar a utilizarse. Un poco de AutoML yMLOP herramientas incluso prueba de sesgo algorítmico.

Estos avances hacen que la programación, que quizás era el requisito laboral más común cuando escribimos este artículo hace una década, sea algo menos esencial en la ciencia de datos. Ha migrado a otros trabajos o se automatiza cada vez más. (Sin embargo, la limpieza de datos es una excepción notable a esta tendencia). El enfoque clave del trabajo sigue girando hacia los modelos predictivos y la capacidad de traducir los problemas y requisitos empresariales en modelos. Se trata de actividades colaborativas, pero lamentablemente todavía no hay herramientas excelentes para estructurar y apoyar las actividades colaborativas de ciencia de datos.

La ética de la ciencia de datos

Un cambio importante en la ciencia de datos en la última década es la necesidad de undimensión ética al campo es ahora ampliamente reconocido, aunque el tema rara vez se mencionó en 2012. El punto de inflexión de la ética de la ciencia de datos fueron probablemente las elecciones presidenciales estadounidenses de 2016, en las que los científicos de datos de las redes sociales (Cambridge Analytica y Facebook en particular) intentó influir en los votantes y una política electoral aún más polarizada. Desde entonces, se ha dedicado una atención considerable a las cuestiones del sesgo algorítmico, la transparencia y el uso responsable de la analítica y la IA.

Algunas empresas ya han creado grupos y procesos de IA responsables. Una de sus funciones clave es educar a los científicos de datos sobre las cuestiones que implica la IA ética. Y hay un aumento de la regulación que se está instituyendo en respuesta a los errores éticos.

. . .

Hemos visto tanto la continuidad como el cambio en la función de la ciencia de datos. Ha tenido un éxito notable en muchos sentidos, y algunos de sus desafíos (la proliferación de funciones relacionadas, la necesidad de una perspectiva ética) se deben en parte a la adopción generalizada de la ciencia de datos. Parece poco probable que la cantidad de datos, análisis e IA en las empresas y la sociedad disminuya, por lo que la importancia del trabajo del científico de datos no hará más que crecer en el panorama empresarial.

Sin embargo, también seguirá cambiando. Esperamos ver una diferenciación continua de responsabilidades y funciones que alguna vez estuvieron dentro de la categoría de científico de datos. Las empresas necesitarán procesos detallados de clasificación y certificación de habilidades para estos diversos puestos y deberán asegurarse de que todas las funciones necesarias estén presentes en los proyectos de ciencia de datos a gran escala. Los propios científicos de datos profesionales se centrarán en la innovación algorítmica, pero también deberán ser responsables de garantizar que los aficionados no pasen desapercibidos. Lo que es más importante, los científicos de datos deben contribuir a la recopilación adecuada de datos, al análisis responsable, a la implementación completa de los modelos y a obtener resultados empresariales exitosos.

Nota del editor: Esta publicación se ha actualizado.