Stable Diffusion 3 llega para solidificar el liderazgo inicial en imágenes de IA contra Sora y Gemini

Bitor Camar

hace 2 años

people sitting on chair in front of computer monitor

Stable Diffusion 3

Stability AI ha dado a conocer Stable Diffusion 3, la última iteración de su avanzado modelo de inteligencia artificial para generar imágenes. Aunque los detalles específicos son escasos en este momento, esta revelación parece ser un movimiento estratégico por parte de la empresa para contrarrestar la creciente atención y expectativas generadas por los recientes anuncios de competidores destacados, como OpenAI y Google.

Stable Diffusion 3 (SD3) se fundamenta en una nueva arquitectura, lo que sugiere un salto significativo en capacidades y rendimiento en comparación con sus predecesores. Se espera que este modelo sea compatible con una amplia gama de hardware, aunque probablemente requerirá recursos robustos para su funcionamiento óptimo. Este anuncio plantea la pregunta de cómo esta nueva versión de SD3 podría influir en el panorama de la IA y en qué medida podrá mantener o superar el ritmo establecido por sus competidores en términos de innovación y rendimiento.

Transformador de difusión actualizado

SD3 emplea un «transformador de difusión» actualizado, una técnica que surgió en 2022 y se ha revisado para mejorar su escalabilidad en 2023. Este enfoque es similar al utilizado en Sora, el generador de video de OpenAI, lo que sugiere una convergencia en los principios subyacentes. También utiliza la «coincidencia de flujo», otra técnica que mejora la calidad de las imágenes sin añadir demasiada carga de procesamiento.

El conjunto de modelos de SD3 varía entre 800 millones y 8 mil millones de parámetros, lo que representa un rango significativo en comparación con versiones anteriores. Se espera que estos modelos sean compatibles con una variedad de hardware, aunque probablemente se necesite una GPU potente y una configuración adecuada para el aprendizaje automático. A diferencia de los modelos de OpenAI y Google, SD3 no está limitado a una API específica, lo que brinda a los usuarios una mayor flexibilidad en términos de implementación y personalización. Es importante mencionar que Anthropic, otra entidad relevante en la IA, no ha centrado públicamente su atención en la generación de imágenes o videos, lo que la excluye de la discusión actual sobre estos avances.

Comprensión multimodal

Stable Diffusion, según Emad Mostaque, ha dado un paso adelante al ofrecer un modelo capaz de comprensión multimodal y de entrada y generación de video, características que sus competidores han destacado en sus propias ofertas impulsadas por API. Aunque estas capacidades aún son teóricas, no parece haber barreras técnicas significativas para su inclusión en futuras versiones.

Comparar estos modelos es difícil, ya que ninguno ha sido lanzado oficialmente, y todo lo que tenemos son afirmaciones en competencia y ejemplos seleccionados. Sin embargo, Stable Diffusion tiene una ventaja clara: está en sintonía con la época como el modelo de referencia para la generación de imágenes en cualquier contexto, con pocas restricciones inherentes en términos de método o contenido. De hecho, es muy probable que SD3 marque el inicio de una nueva era en la generación de contenido pornográfico mediante inteligencia artificial, una vez que se superen los obstáculos de seguridad pertinentes.

IA generativa de marca blanca

Stable Diffusion parece aspirar a convertirse en la inteligencia artificial generativa imprescindible, más que en una opción boutique de la que podrías prescindir. En línea con este objetivo, la empresa está trabajando en la actualización de sus herramientas, con el propósito de hacerlas más accesibles para un público más amplio. Sin embargo, al igual que con otros aspectos del anuncio, los detalles específicos de estas mejoras se dejan en gran medida a la imaginación. Resulta interesante que la empresa ha colocado la seguridad en un lugar destacado en su anuncio, enfatizando su compromiso con este aspecto al declarar: «Hemos tomado y seguimos tomando medidas razonables para evitar el uso indebido de Stable Diffusion 3 por parte de malos actores.

La seguridad comienza cuando comenzamos a entrenar nuestro modelo y continúa a lo largo de las pruebas, la evaluación y la implementación. En preparación para esta versión preliminar anticipada, hemos introducido numerosas medidas de seguridad. Al colaborar continuamente con investigadores, expertos y nuestra comunidad, esperamos innovar aún más con integridad a medida que nos acercamos al lanzamiento público del modelo».

¿Qué medidas de seguridad exactamente se están implementando? Es probable que obtengamos una idea más clara de ellas en la vista previa inicial, y luego durante el lanzamiento público, se ajustarán y afinarán aún más, o quizás se censurarán, dependiendo de la perspectiva sobre estas cuestiones. Con el tiempo, se revelarán más detalles y, mientras tanto, nos sumergiremos en los aspectos técnicos para comprender mejor la teoría y los métodos que respaldan esta nueva generación de modelos.