“Vergonzoso y equivocado”: Google admite que perdió el control de la IA generadora de imágenes

marzo 14, 2024
IA generadora de imágenes
La IA generadora de imágenes de Google ha revolucionado la forma en que se crean y se perciben las imágenes digitales. Utilizando avanzadas técnicas de aprendizaje automático, esta tecnología es capaz de producir imágenes realistas a partir de descripciones textuales. Desde paisajes hasta retratos, la IA generadora de imágenes de Google puede generar una amplia variedad de imágenes, ofreciendo un potencial creativo sin precedentes para diseñadores, artistas y creadores de contenido en todo el mundo.
Google se disculpa
Google ha emitido una disculpa esta semana debido a otro desafortunado error de su inteligencia artificial, esta vez relacionado con un modelo de generación de imágenes que introdujo diversidad de manera descontextualizada en las imágenes. Aunque se puede entender el problema subyacente, Google culpa al modelo por volverse «demasiado» sensible, obviando el hecho de que el modelo no se creó solo.
El sistema de IA en cuestión es Gemini, la plataforma de IA conversacional insignia de Google, que utiliza una versión del modelo Imagen 2 para crear imágenes según la demanda. Recientemente, se descubrió que al solicitar imágenes de ciertos eventos o personas históricas, los resultados eran absurdos. Por ejemplo, los Padres Fundadores, conocidos por ser propietarios de esclavos, aparecían como un grupo multicultural, incluyendo personas de color.
Este error vergonzoso y fácilmente replicable ha sido objeto de sátira en línea y ha alimentado el debate sobre diversidad, equidad e inclusión, además de ser utilizado como evidencia de una supuesta penetración de la ideología de «mente despierta» en el sector tecnológico liberal.
Acusado por su presunta ideología
Los ciudadanos preocupados expresaron su desconcierto ante lo que llamaron una locura de la diversidad, afirmando que esto no es más que Estados Unidos bajo la administración de Biden. Acusaron a Google de ser una cámara de eco ideológica y un bastión de la izquierda, aunque curiosamente, también la izquierda se sintió perturbada por este fenómeno. Sin embargo, para aquellos familiarizados con la tecnología, y como explica Google en su declaración junto a la disculpa, este problema surgió como una solución razonable para abordar el sesgo sistémico presente en los datos de entrenamiento.
El dilema
Digamos que deseas utilizar la IA Gemini para una campaña de marketing y solicitas que genere 10 imágenes de «una persona paseando a un perro en un parque». Dado que no especificas el tipo de persona, perro o parque, es decisión del modelo lo que producirá: generalmente, reflejará lo más común en sus datos de entrenamiento.
Sin embargo, estos datos pueden contener sesgos, como la sobre-representación de personas blancas. Por lo tanto, si no se especifica, es probable que el modelo elija personas blancas en muchos casos. Google reconoce este problema y afirma que debido a su base de usuarios global, buscan que el modelo sea inclusivo y diverso en sus resultados, especialmente cuando se solicitan imágenes que podrían requerir representaciones variadas de personas.
No hay nada intrínsecamente malo en obtener una imagen de un hombre blanco paseando un golden retriever en un parque suburbano. Sin embargo, si solicitas 10 imágenes y todas muestran hombres blancos con perros dorados en parques suburbanos, eso podría no ser un resultado deseable, especialmente si vives en Marruecos, donde la apariencia de la gente, los perros y los parques es diferente. Cuando no se especifica una característica, el modelo debería tender hacia la variedad en lugar de la homogeneidad, aunque sus datos de entrenamiento puedan sesgarlo.
Este problema es común en diversas aplicaciones de generación de medios, y no tiene una solución fácil. Sin embargo, en situaciones particularmente comunes, sensibles o ambas, empresas como Google, OpenAI, Anthropic, entre otras, incluyen instrucciones adicionales al modelo de forma invisible para abordar estas preocupaciones.
Falta de instrucciones concretas
La falla del modelo de Google radicó en la falta de instrucciones implícitas para situaciones donde el contexto histórico era crucial. Mientras que una solicitud como «una persona paseando un perro en un parque» se puede mejorar al agregar silenciosamente «la persona puede ser de cualquier género o etnia», situaciones como «los Padres Fundadores de EE. UU. firmando la Constitución» definitivamente no se benefician de esa misma instrucción adicional.
Como señaló Prabhakar Raghavan, vicepresidente sénior de Google: «En primer lugar, nuestro ajuste para asegurarnos de que Géminis mostrara un rango de personas no tuvo en cuenta los casos que claramente no deberían mostrar un rango. Y en segundo lugar, con el tiempo, el modelo se volvió mucho más cauteloso de lo que pretendíamos y se negó a responder ciertas indicaciones por completo, interpretando erróneamente algunas indicaciones muy anodinas como sensibles. Estas dos cosas llevaron al modelo a sobrecompensar en algunos casos, y a ser demasiado conservador en otros, lo que llevó a imágenes vergonzosas y erróneas».