Noticias

Así es Stable Diffusion 3, un generador de imágenes de IA de nueva generación

Con cada paso, la realidad es más difícil de identificar

23 de febrero de 2024
Actualizado: 8 de agosto de 2024, 17:03

Así es Stable Diffusion 3, un generador de imágenes de IA de nueva generación

Hemos llegado a un punto en el que nuestros ojos no son suficientes para discernir qué es verdad y qué no. Mientras que gobiernos y administraciones proponen soluciones, la IA sigue su camino sin mirar atrás.

Stable Diffusion ACCEDER

El jueves, Stability AI anunció Stable Diffusion 3, un modelo de síntesis de imágenes de nueva generación de pesos abiertos. Tras sus predecesores, genera imágenes detalladas de varios sujetos con mayor calidad y precisión en la generación de texto.

El escueto y poco claro anuncio no ha ido acompañado de una demostración pública, pero Stability abre hoy una lista de espera para quienes deseen probarlo.

Announcing Stable Diffusion 3, our most capable text-to-image model, utilizing a diffusion transformer architecture for greatly improved performance in multi-subject prompts, image quality, and spelling abilities.

Today, we are opening the waitlist for early preview. This phase… pic.twitter.com/FRn4ofC57s
— Stability AI (@StabilityAI) February 22, 2024

Qué es lo novedoso de Stable Diffusion 3

Stability afirma que su familia de modelos Stable Diffusion 3 (que toma descripciones de texto llamadas “prompts” y las convierte en imágenes coincidentes) tiene un tamaño de entre 800 millones y 8.000 millones de parámetros.

Esta gama de tamaños permite que distintas versiones del modelo se ejecuten localmente en distintos dispositivos, desde teléfonos inteligentes a servidores. El tamaño de los parámetros se corresponde aproximadamente con la capacidad del modelo en cuanto a la cantidad de detalles que puede generar.

Desde 2022, hemos visto cómo Stability lanzaba una progresión de modelos de generación de imágenes de IA: Stable Diffusion 1.4, 1.5, 2.0, 2.1, XL, XL Turbo y, ahora, Stable Diffusion 3.

Por qué funciona Stable Diffusion cuando existe DALL-E

Stability se ha hecho un nombre por ofrecer una alternativa más abierta a los modelos de síntesis de imágenes patentados, como DALL-E 3 de OpenAI, aunque no sin polémica debido al uso de datos de entrenamiento protegidos por derechos de autor, la parcialidad y el potencial de abuso.

Los modelos de Stable Diffusion son de ponderación abierta y de código fuente disponible, lo que significa que los modelos pueden ejecutarse localmente y ajustarse para cambiar sus resultados.

Some notes:
– This uses a new type of diffusion transformer (similar to Sora) combined with flow matching and other improvements.
– This takes advantage of transformer improvements & can not only scale further but accept multimodal inputs..
– More technical details soon
— Emad (@EMostaque) February 22, 2024

En cuanto a las mejoras tecnológicas, el director general de Stability, Emad Mostaque, escribió en Twitter: “Esto utiliza un nuevo tipo de transformador de difusión (similar a Sora) combinado con el ajuste de flujo y otras mejoras. Esto aprovecha las mejoras del transformador y no sólo puede escalar más, sino aceptar entradas multimodales”.

Como dijo Mostaque, la familia Stable Diffusion 3 utiliza la arquitectura de transformadores de difusión, que es una nueva forma de crear imágenes con IA que cambia los bloques habituales de construcción de imágenes por un sistema que trabaja sobre pequeños fragmentos de la imagen.

Stable Diffusion ACCEDER

El método se inspira en los transformadores, que son buenos para manejar patrones y secuencias. Este método no solo es eficaz a escala, sino que también produce imágenes de mayor calidad.

Chema Carvajal Sarabia

Periodista especializado en tecnología, entretenimiento y videojuegos. Escribir sobre lo que me apasiona (cacharros, juegos y cine) me permite seguir cuerdo y despertarme con una sonrisa cuando suena el despertador. PD: esto no es cierto el 100 % de las veces.