La nueva normalidad de las reuniones virtuales aparentemente interminables está cambiando rápidamente las normas sociales e impulsando un nuevo interés en la tecnología que nos conecta. Aunque ha habido plataformas de videoconferencia disponibles desde hace años, no fueron diseñadas para reemplazar la interacción en persona. Después de un año de «Zoom cansancio», es hora de echar un nuevo vistazo a qué características y atributos hacen que los usuarios se sientan conectados y cómo se pueden mejorar. Un aspecto importante es el sonido. De hecho, si cada persona involucrada en una conversación puede escuchar, se podría argumentar que es la característica más importante de la interacción en persona.

El buen sonido nos permite no sólo entender las palabras en una conversación, sino también recoger el estado de ánimo provocado por la entonación vocal y los sonidos ambientales. El mal sonido, por otro lado, nos deja frustrados. En chats de vídeo con más de dos personas —bastante comunes para las horas felices virtuales, reuniones de equipo y sesiones colaborativas— los oradores simultáneos inevitablemente se ahogan entre sí. Las plataformas de videochat más populares de hoy en día no son compatibles con el diálogo rápido.

Pero los días de las videoconversaciones no van a ninguna parte, dado el número de empresas que continúan las políticas de la WFH. Así que para que las reuniones y otras reuniones sean más productivas (y más divertidas), es importante entender por qué la experiencia es tan pobre, y saber que existen soluciones para desarrolladores de plataformas de vídeo en los mundos de los videojuegos y la música.

Por qué el sonido de las videoconferencias es horrible

En el nivel más básico, los niveles de micrófono varían entre los individuos, lo que dificulta simplemente compilar la onda de sonido de cada persona en una sola transmisión de audio. En algunas plataformas, esto puede conducir a un sesgo de los altavoces donde gana la persona más alta; en otras, solo se prioriza la transmisión de audio del presentador activo. La interrupción del diálogo resultante, la repetición y la confusión que experimentamos lleva a las personas a interactuar de manera diferente en el video chat de lo que normalmente lo harían. Este es un problema técnico, y todo vuelve a lo que se llama la «fase» entre las ondas sonoras combinadas.

Así es como funciona esto: Dos ondas sonoras de la misma firma de frecuencia que están perfectamente alineadas tienen una diferencia de fase de 0, que llamamos «en fase». Cuando las ondas que están en fase se combinan, como dos personas diciendo exactamente lo mismo, al mismo tiempo, producen un sonido que es el doble de fuerte. El problema surge cuando dos ondas sonoras en rangos de frecuencia similares están «fuera de fase». Cuando las ondas no coinciden, comienzan a cancelarse entre sí, hasta el punto en que dos ondas que son exactamente opuestos se cancelarán por completo. Los auriculares con cancelación de ruido funcionan haciendo esto a propósito.

En la mayoría de las videollamadas, los problemas con la fase causan problemas para poder escuchar lo que otras personas están diciendo. Cuando se combinan las ondas sonoras de diálogo, resulta en diferentes partes de las ondas que se cancelan, puntos de amplificación de sonido aleatoria y una frecuencia más ruidosa entre los puntos de fase y fuera de fase en el ciclo de onda.

Hay un problema adicional: las videoconferencias se crearon para reuniones en la oficina, donde se puede esperar un entorno silencioso (aunque incluso en un entorno ideal la mayoría de los servicios tienen puntos débiles). ¿Qué pasa cuando queremos casi tomar un café, socializar, asistir a una clase de baile, y todas las demás cosas que normalmente hacemos fuera del trabajo? Las plataformas típicamente filtran el sonido para reducir el volumen de frecuencias cuando la gente no habla; sumado a los problemas de fase mencionados anteriormente, esto significa que el sonido ambiente no puede introducirse en los videochats de hoy sin disminuir (o cancelar completamente) la inteligibilidad del diálogo. Por lo tanto, la ciudad suena de tráfico, su hip-hop favorito de los 90 en el fondo en la cafetería, o una canción pop de alto ritmo que conduce el estado de ánimo está reservado para IRL. Esto es decepcionante. Sin ruido ambiental, sufrimos un silencio que mata el estado de ánimo cuando nos tomamos un descanso de hablar.

Sin embargo, no necesitamos aceptar esta limitación. Mientras que la tecnología de videochat introduce desafíos en torno a la cadencia natural del diálogo y el estado de ánimo ambiental, en otros espacios, como la música y los juegos, la ingeniería de audio ha sido un punto focal de avance durante bastante tiempo.

Lo que las empresas de videochat pueden aprender de la música y los juegos

Cuando saltas a un entorno virtual, digamos el modo multijugador de Call of Duty, te sumerges en un punto de vista en primera persona en el que puedes pasar horas sin esfuerzo. No es casualidad que los jugadores se fatiguen menos que los usuarios de una plataforma como Zoom. La experiencia visual se combina con la capacidad de tener una claridad de audio completa con respecto al sonido ambiental, efectos de sonido de acción, diálogo virtual de compañeros de equipo y mucho más. Mientras que una explosión puede estar ocurriendo delante de ti, puedes escuchar grillos en tu periférico y las voces de tus compañeros de equipo centran el escenario, todo dentro de tus auriculares. En pocas palabras, esto es posible debido a la asignación de audio (o mezcla). Al trabajar para colocar las cosas a cierta distancia y dirección del usuario, las ondas sonoras se compilan con procesamiento de señales que trabaja para aliviar los desafíos de la fase y el ruido.

Este análogo también lleva a la música. Aunque no te des cuenta, la música ha requerido mezclar desde que empezamos a añadir multitud de sonidos para crear una experiencia singular. En la música, los productores no solo mezclan voces para los cantantes principales y de fondo, sino que también añaden cuerdas, cuernos, bajo y otros instrumentos para entregar canciones exitosas. Los ingenieros de audio se aseguran de que los instrumentos no chocan, que el volumen de la canción sea correcto, y que la emoción central de una canción llegue a través de la puesta en escena (filtrando, comprimiendo y mucho más) los sonidos de la composición.

Si compara el audio de la música (o los videojuegos), verá hasta qué punto debe llegar la videoconferencia. Intenta escuchar una de tus canciones favoritas con los ojos cerrados: escucha dónde se sientan las voces en el escenario sonoro en comparación con otros instrumentos que conducen la melodía. Luego, la próxima vez que estés en un chat de Google con otras dos personas en tu escritorio, escucha de dónde provienen todas las voces. Notará en el chat de vídeo que el escenario de sonido no se utiliza en la medida en que debería ser.

Los desarrolladores de videochat pueden seguir la pista de ingenieros de audio de la industria de la música, que han sido responsables de ofrecer una experiencia de sonido casi perfecta durante décadas. Considere cómo esto podría alinearse con el audio de una reunión virtual colaborativa. Imagínese escuchar a una persona más desde la izquierda, otra más desde la derecha, mientras que en las premisas exteriores del escenario sonoro, hay música ambiental tocando. Ahora usted tiene una interacción más natural, y al dar a la etapa de sonido más espacio para impulsar la experiencia de video chat, el cerebro del usuario en realidad mejorará el mapa de sonido del diálogo con la fuente en pantalla. Este enfoque se presta a una mejor orientación al usuario, lo que resulta en última instancia en una disminución de la fatiga del Zoom.

Construyendo un mejor video chat

Con el audio a la vanguardia como parte clave de la experiencia de video chat, empresas como Pilotly (donde soy el CEO) y BlueJeans han dado pasos para avanzar hacia el futuro de la conversión virtual. Al trabajar con líderes en el espacio de procesamiento de audio, ambas empresas han aplicado algoritmos al chat de vídeo que han creado más claridad en torno al diálogo a través de una sólida mezcla de audio.

BlueJeans, recientemente adquirido por Verizon, fue uno de los primeros en trabajar con un socio, Dolby, para mejorar su experiencia de usuario. Para poner un diálogo claro a la vanguardia de su propuesta de valor, trajeron Dolby Voice, un sistema que podría normalizar los niveles de audio, optimizar el ancho de banda de voz particular, reducir el ruido y hacer algunas mezclas en la nube para evitar cancelaciones cuando varias partes hablan en una reunión.

Otras empresas pueden seguir el ejemplo. Dolby está trabajando actualmente para facilitar a las aplicaciones mejorar sus capacidades de audio. Paul Boustead, arquitecto jefe de Dolby Communications Business Group, dice que ampliar el uso de estas tecnologías es una prioridad para la empresa. «Me especializo en comunicaciones de voz y video durante más de 20 años, como investigador, ingeniero y arquitecto», dice. «Realmente he estado presionando para que la comunicación en línea sea lo más natural posible».

La plataforma de videochat de Pilotly, Reelchat, se centra en crear un entorno virtual que sea similar a una experiencia de juego. La primera aplicación de Reelchat ha sido grupos focales virtuales, donde es importante tener conversaciones rápidas y fluidas en las que puedas escuchar a más de una persona a la vez, como en una reunión o en una happy hour. Esta es una de las razones por las que hemos priorizado el mapeo de audio para crear el máximo confort e intuición para los participantes de la conversación. Creemos que la clave para hacer que las interacciones humanas virtuales funcionen es mover al usuario a un espacio donde el sonido existe de forma más natural.

Ajustar y acelerar la tasa de avances en la tecnología de videochat será fundamental para el éxito de los negocios, la educación superior y la conexión social, ya que continuamos soportando limitaciones extremas en torno a la interacción IRL durante una pandemia. El audio, ignorado durante mucho tiempo como factor central en la experiencia de la audiencia para lo visual, es el futuro de la interacción. Los juegos y la música entienden esto, y la próxima evolución de las plataformas de colaboración y reuniones haría bien en emular el mismo tipo de música mezclando en sus experiencias de usuario.


JN
James Norman is a serial entrepreneur who built his first online company at 16, and whose latest venture, Pilotly, is a consumer insights platform that enables content creators to get feedback from audiences at scale, used by NBCUniversal, Amazon Studios, Mattel, and others. He is a proud member of the 500 Startups family, and a co-founder of Transparent Collective, a non-profit that has accelerated 40 startups founded by unrepresented founders (women and people of color) to raise over $35M in early stage funding. As partner of Transparent Collective, James works with the best and brightest Black founders to get the resources they need to scale