¿Puedes escucharme ahora? AI-coustics para combatir el audio ruidoso con IA generativa

abril 6, 2024

By Bitor Camar

IA para reducir el audio ruidoso

Las grabaciones con mucho ruido durante entrevistas y discursos suelen ser un dolor de cabeza para los ingenieros de audio. Sin embargo, una startup alemana está abordando este desafío con un enfoque técnico único que emplea inteligencia artificial generativa para mejorar la claridad de las voces en los videos y eliminar el audio ruidoso.

Hoy, esta tecnología, denominada AI-coustics, sale del modo sigiloso respaldada por una financiación de 1,9 millones de euros. Según Fabian Seipel, cofundador y CEO, esta innovación va más allá de la simple supresión de ruido, ya que está diseñada para funcionar en una amplia gama de dispositivos y altavoces.

«Nuestra misión principal es hacer que cada interacción digital, ya sea en una conferencia telefónica, un dispositivo de consumo o un video casual en las redes sociales, sea tan clara como una transmisión desde un estudio profesional», dijo Seipel en recientes entrevistas.

¿Quién es Seipel?

Fabian Seipel, quien tiene experiencia como ingeniero de audio, estableció AI-coustics junto con Corvin Jaedicke, un profesor de aprendizaje automático en la Universidad Técnica de Berlín, en el año 2021. Ambos se encontraron durante sus estudios en audiotecnología en la misma universidad, donde se enfrentaron frecuentemente a la baja calidad de audio en los cursos y tutoriales en línea que debían seguir.

«Nos ha impulsado la misión personal de superar el desafío generalizado de la mala calidad de audio en las comunicaciones digitales», dijo Seipel. «Si bien mi audición está ligeramente afectada por la producción musical a mis veinte años, siempre he tenido problemas con el contenido en línea y las conferencias, lo que nos llevó a trabajar en el tema de la calidad del habla y la inteligibilidad en primer lugar».

El mercado de la IA de sonido

El sector del software de mejora de voz y supresión de ruido, impulsado por la inteligencia artificial, ya cuenta con una sólida presencia en el mercado actual. Entre los diversos competidores de AI-coustics se encuentran empresas tales como Insoundz, que emplea IA generativa para mejorar tanto las transmisiones de voz en directo como las grabadas, y Veed.io, una suite de edición de vídeo que ofrece herramientas para eliminar el ruido de fondo de los clips.

Sin embargo, según Seipel, AI-coustics se distingue por su enfoque único en el desarrollo de los mecanismos de IA responsables de la reducción de ruido. La startup utiliza un modelo entrenado con muestras de voz grabadas en su estudio en Berlín, la ciudad natal de AI-coustics. A las personas se les compensa por registrar estas muestras (aunque Seipel no ha especificado cuánto), las cuales luego se agregan a un conjunto de datos utilizado para entrenar el modelo de reducción de ruido de la empresa. «Desarrollamos un enfoque único para simular artefactos y problemas de audio, por ejemplo, ruido, reverberación, compresión, micrófonos de banda limitada, distorsión, recorte, etc., durante el proceso de entrenamiento», dijo Seipel.

Esquema de compensación de AI-coustics

Es probable que surjan opiniones divididas sobre el esquema de compensación único de AI-coustics para los creadores, especialmente considerando el potencial lucrativo a largo plazo del modelo en desarrollo. Existe un debate activo sobre si los creadores de datos de entrenamiento para modelos de inteligencia artificial deberían recibir regalías por sus contribuciones. Sin embargo, una preocupación más inmediata y significativa es el tema del sesgo.

Los algoritmos de reconocimiento de voz han demostrado tener sesgos, que pueden perjudicar a ciertos usuarios. Un estudio publicado en The Proceedings of the National Academy of Sciences reveló que los sistemas de reconocimiento de voz de las principales empresas tenían el doble de probabilidades de transcribir incorrectamente el habla de personas negras en comparación con personas blancas. Para abordar esto, AI-coustics está priorizando la diversidad en las muestras de habla reclutadas, ya que el tamaño y la diversidad son esenciales para eliminar sesgos y garantizar que la tecnología sea inclusiva para todos, independientemente del idioma, la identidad del hablante, la edad, el acento y el género.

Aunque no se trató de un experimento científico riguroso, subí tres videoclips a la plataforma de AI-coustics: una entrevista con un granjero del siglo XVIII, una demostración de conducción de automóviles y una protesta relacionada con el conflicto entre Israel y Palestina. La experiencia resultó prometedora, ya que AI-coustics logró mejorar significativamente la claridad de los clips al reducir el ruido de fondo, cumpliendo así con su promesa de ofrecer una mejor experiencia auditiva.

Mejora del audio en tiempo real

Seipel está convencido de que la tecnología de inteligencia artificial puede ser aprovechada para mejorar el habla en tiempo real y en grabaciones, incluso integrándose en dispositivos como barras de sonido, teléfonos inteligentes y auriculares para optimizar automáticamente la claridad de la voz. En la actualidad, AI-coustics ofrece una aplicación web y una API para el posprocesamiento de grabaciones de audio y video, así como un SDK que permite la incorporación de la plataforma AI-coustics en flujos de trabajo, aplicaciones y hardware existentes.

AI-coustics, que opera con un modelo de negocio que incluye suscripciones, tarifas bajo demanda y licencias, cuenta en la actualidad con cinco clientes empresariales y 20,000 usuarios, aunque no todos son de pago. En los próximos meses, la empresa tiene previsto ampliar su equipo de cuatro personas y mejorar el modelo subyacente de mejora del habla. Seipel destacó que, antes de la inversión inicial, AI-coustics operaba con recursos ajustados para sobrevivir en el difícil entorno del capital riesgo, pero ahora cuenta con una sólida red de inversores y mentores en Alemania y el Reino Unido que brindan asesoramiento.

Cuando se abordó la cuestión de si la tecnología de masterización de audio basada en inteligencia artificial podría resultar en la pérdida de puestos de trabajo, Seipel señaló el potencial de la inteligencia artificial para agilizar tareas que actualmente consumen mucho tiempo y que suelen ser realizadas por ingenieros de audio humanos. Además de esto, resaltó que la calidad y la inteligibilidad de la voz siguen siendo áreas de preocupación en numerosos dispositivos y aplicaciones, lo que indica un amplio campo de aplicación potencial para la tecnología de AI-coustics.

¿Puedes escucharme ahora? AI-coustics para combatir el audio ruidoso con IA generativa

IA para reducir el audio ruidoso

¿Quién es Seipel?

El mercado de la IA de sonido

Esquema de compensación de AI-coustics

Mejora del audio en tiempo real

Network Syrus

Categorie

Directories