El nuevo sistema de inteligencia artificial de Alibaba, ‘EMO’, crea vídeos realistas de conversaciones y cantos a partir de fotografías

abril 1, 2024
Inteligencia artificial de Alibaba
Los investigadores del Instituto de Computación Inteligente de Alibaba han creado un sistema de inteligencia artificial llamado «EMO» (Emote Portrait Alive) que puede animar una sola foto de retrato y generar videos de la persona hablando o cantando de manera increíblemente realista.
Según un artículo de investigación publicado en arXiv, este sistema puede producir movimientos faciales fluidos y expresivos, así como poses de cabeza que se ajustan estrechamente a los matices de una pista de audio proporcionada. Este avance marca un hito en la generación de videos de cabezas parlantes impulsadas por audio, un área que ha sido desafiante para los investigadores de inteligencia artificial durante años.
El autor principal del estudio, Linrui Tian, explicó: «Las técnicas convencionales a menudo no logran capturar completamente las expresiones humanas y la singularidad de los estilos faciales individuales. Para abordar estos desafíos, hemos desarrollado EMO, un marco innovador que emplea un enfoque de síntesis directa de audio a video, eliminando la necesidad de modelos 3D intermedios o puntos de referencia faciales».
Conversión de audio a vídeo
El sistema EMO utiliza una técnica de inteligencia artificial llamada modelo de difusión, conocida por su capacidad para generar imágenes sintéticas muy realistas. Los investigadores entrenaron este modelo con un conjunto de datos que incluye más de 250 horas de videos de personas hablando, tomados de discursos, películas, programas de televisión y actuaciones de canto.
A diferencia de los enfoques anteriores que dependen de modelos faciales en 3D o combinan formas para imitar los movimientos faciales, EMO convierte directamente la forma de onda de audio en fotogramas de video. Esto le permite capturar de manera precisa los movimientos sutiles y las características únicas asociadas con el habla natural.
Según los experimentos detallados en el documento, EMO supera significativamente a los métodos de última generación en términos de calidad de video, preservación de la identidad y expresividad. Además, un estudio de usuarios demostró que los videos generados por EMO fueron percibidos como más naturales y emotivos en comparación con los producidos por otros sistemas.
Vídeos realistas
EMO va más allá de simplemente animar videos de conversaciones; también puede dar vida a retratos de canto con movimientos de boca adecuados y expresiones faciales sincronizadas con las voces. Este sistema tiene la capacidad de generar videos de cualquier duración, adaptándose a la duración del audio de entrada proporcionado.
El documento que describe EMO afirma que «el sistema es capaz de producir no solo videos de conversaciones convincentes, sino también videos de canto en varios estilos, superando de manera significativa las metodologías actuales en términos de expresividad y realismo».
Esta investigación insinúa un futuro en el que el contenido de video personalizado podría crearse a partir de una sola foto y un clip de audio. Sin embargo, junto con las emocionantes posibilidades que presenta esta tecnología, también surgen preocupaciones éticas. Existe la inquietud de que se pueda hacer un uso indebido de esta tecnología para suplantar a personas sin su consentimiento o para difundir información falsa.
Conscientes de estas preocupaciones, los investigadores tienen la intención de abordarlas explorando métodos para detectar videos sintéticos. Esto ayudaría a mitigar los riesgos potenciales asociados con el mal uso de la tecnología de generación de videos, permitiendo su desarrollo y aplicación de manera ética y responsable.