Google describe nuevos métodos para entrenar robots con vídeos y modelos de lenguaje de gran tamaño

febrero 11, 2024
El año de las IA
El año 2024 se vislumbra como un período de avances notables en la intersección de la inteligencia artificial generativa, los modelos fundamentales de gran escala y la robótica. El entusiasmo abunda en torno a las múltiples aplicaciones potenciales que abarcan desde el aprendizaje automático hasta el diseño de productos innovadores.
Entre los equipos pioneros que exploran este vasto terreno se encuentran los investigadores de DeepMind Robotics, afiliados a Google. En una reciente entrada en su blog, estos investigadores resaltan sus esfuerzos en curso, diseñados para proporcionar a la robótica una comprensión más profunda de las expectativas humanas y cómo satisfacerlas de manera más efectiva mediante la investigación y el desarrollo continuos. Veamos cuáles son los nuevos métodos para entrenar robots.
Nuevos métodos para entrenar robots
Tradicionalmente, a lo largo de su evolución, los robots han sido diseñados para desempeñar una tarea particular de manera repetitiva durante su vida útil. Si bien los robots especializados en una sola función suelen ser altamente eficientes en esa tarea específica, incluso estos encuentran dificultades cuando se enfrentan a cambios inesperados o errores en los procedimientos establecidos.
El AutoRT, recientemente presentado, representa un cambio en esta dinámica al aprovechar modelos de gran envergadura para una variedad de propósitos. Por ejemplo, en un caso práctico presentado por el equipo de DeepMind, este sistema utiliza un modelo de lenguaje visual (VLM) para mejorar su comprensión del entorno y las situaciones en las que opera.
Más acerda de AutoRT
AutoRT tiene la capacidad de coordinar una flota de robots trabajando en conjunto. Cada uno está equipado con cámaras para capturar información del entorno y los objetos presentes en él. Por otro lado, un modelo de lenguaje amplio sugiere tareas específicas que pueden ser realizadas por el hardware, incluido el efecto final de los robots. Se reconoce ampliamente que estos grandes modelos de lenguaje (LLM) son esenciales para desbloquear el potencial de la robótica, permitiendo una comprensión más efectiva de los comandos de lenguaje natural y reduciendo la dependencia de habilidades de codificación especializadas.
El sistema ha sido ampliamente evaluado durante los últimos siete meses, con AutoRT dirigiendo hasta 20 robots simultáneamente y 52 dispositivos diferentes. En total, se han realizado unas 77,000 pruebas, incluyendo más de 6,000 tareas. Además, el equipo ha presentado RT-Trajectory, que utiliza videos para el aprendizaje robótico. Mientras muchos equipos utilizan videos de YouTube para entrenar robots, RT-Trajectory agrega una capa adicional, superponiendo un boceto bidimensional del brazo en acción sobre el video. Estas imágenes RGB proporcionan valiosas pistas visuales al modelo mientras aprende las políticas de control de robots.
DeepMind informa que la capacitación de RT-Trajectory tuvo el doble de éxito que RT-2, alcanzando un 63% frente al 29%. Durante la prueba de 41 tareas, destacan que RT-Trajectory aprovecha la rica información de movimiento robótico, subutilizada en los conjuntos de datos actuales. Además, señalan que este enfoque no solo avanza hacia la creación de robots más precisos y eficientes en situaciones nuevas, sino que también desbloquea conocimientos en los datos existentes.