El modelo de generación de vídeo Sora de OpenAI también puede renderizar videojuegos

febrero 28, 2024
Sora de OpenAI
Sora es un modelo de lenguaje desarrollado por OpenAI. Se basa en la arquitectura GPT (Generative Pre-trained Transformer). Este modelo ha sido entrenado utilizando una vasta cantidad de datos textuales. La finalidad es la de comprender y generar texto de manera coherente. Sora es capaz de realizar una amplia gama de tareas relacionadas con el lenguaje natural. Entre ellas está responder preguntas, generar texto creativo, traducir idiomas y más. Su capacidad para comprender el contexto y producir respuestas significativas lo convierte en una herramienta versátil. Sus funciones son: diversas aplicaciones en investigación, desarrollo de productos y asistencia virtual.
Renderizar videojuegos
El modelo de generación de video, Sora, demuestra habilidades cinematográficas impresionantes. Un nuevo documento técnico, «Modelos de generación de video como simuladores de mundo», revela más sobre sus capacidades. Sora puede generar videos de cualquier resolución y relación de aspecto hasta 1080p, además de realizar diversas tareas de edición, como crear bucles, extender videos en el tiempo y cambiar fondos. Lo más intrigante es su capacidad para simular mundos digitales; por ejemplo, al alimentarlo con la palabra «Minecraft», Sora puede renderizar un juego convincentemente similar, controlando incluso al personaje del jugador y manteniendo la física del juego.
¿Cómo consigue hacer todo esto?
Entonces, ¿cómo logra Sora realizar estas hazañas? Según observa el investigador senior de Nvidia, Jim Fan, Sora es más un «motor de física basado en datos» que un mero creativo. Su función va más allá de generar simplemente una imagen o un video; se trata de calcular la física de cada objeto en un entorno y renderizar una imagen o video (o incluso un mundo 3D interactivo) en base a estos cálculos.
Los coautores de OpenAI escriben que estas capacidades sugieren que la escalada continua de los modelos de video es un camino prometedor hacia el desarrollo de simuladores altamente capaces del mundo físico y digital, incluyendo objetos, animales y personas que existen dentro de ellos.
En el ámbito de los videojuegos, Sora enfrenta limitaciones típicas. No logra capturar con precisión fenómenos básicos como la rotura de cristales y, incluso en las interacciones que puede simular, a menudo muestra inconsistencias, como representar a una persona comiendo una hamburguesa pero sin mostrar marcas de mordeduras.
A pesar de esto, según el artículo, parece que Sora podría allanar el camino para juegos más realistas, quizás incluso fotorrealistas, generados únicamente a partir de descripciones de texto. Esto es tanto emocionante como preocupante (considerando las implicaciones de deepfake, por ejemplo), lo que probablemente explique por qué OpenAI ha restringido el acceso a Sora detrás de un programa de acceso muy limitado por ahora.
Conclusiones
En resumen, Sora de OpenAI, un modelo de lenguaje basado en GPT, demuestra habilidades excepcionales en la generación de video y la simulación de mundos digitales. Aunque enfrenta limitaciones en la precisión de ciertas interacciones en videojuegos, su potencial para crear experiencias realistas a partir de descripciones de texto es prometedor. Sin embargo, las implicaciones éticas de su uso, como el riesgo de deepfakes, justifican la cautela en su acceso generalizado.