Publicidad

Noticias

El MIT ha creado un modelo de IA capaz de generar imágenes 30 veces más rápido

Dentro de poco podrás generar imágenes en un suspiro.

El MIT ha creado un modelo de IA capaz de generar imágenes 30 veces más rápido
Pedro Domínguez

Pedro Domínguez

  • Actualizado:

Los modelos de difusión, popularmente conocidos como “generadores de imágenes”, generan imágenes de alta calidad, pero para ello requieren decenas de pasos. Un grupo de científicos del MIT ha creado un generador de imágenes IA que simplifica los múltiples procesos de los modelos de difusión tradicionales en un solo paso.

Midjourney ACCEDER

En un solo paso, esta nueva IA genera imágenes 30 veces más rápido. Esto se consigue entrenando a un nuevo modelo informático para que imite las acciones de modelos originales más complejos que producen imágenes (modelo maestro-alumno). El método, denominado “destilación por coincidencia de distribución” (DMD), crea imágenes mucho más rápidamente manteniendo la calidad de estas.

Este método combina las ideas de los modelos de difusión, como DALL-E 3 o Midjourney, y las redes generativas adversariales (GAN) para generar contenidos visuales en un solo paso, frente a las cien etapas de refinamiento iterativo que requieren actualmente los modelos de difusión.

El método DMD tiene dos componentes:

  • Pérdida por regresión: Ancla el mapeo para asegurar una organización gruesa del espacio de imágenes para hacer el entrenamiento más estable.
  • Pérdida por coincidencia de distribución: Garantiza que la probabilidad de generar una imagen determinada con el modelo del alumno se corresponde con su frecuencia de aparición en el mundo real.

Para ello, se utilizan dos modelos de difusión como guía. Estos permiten al sistema distinguir entre las imágenes generadas y las reales, y entrenar al generador rápido de un solo paso. El sistema consigue una creación más rápida entrenando una nueva red para reducir la divergencia de distribución entre sus imágenes generadas y las del conjunto de datos de entrenamiento utilizado por los modelos de difusión clásicos.

“Nuestra idea clave es aproximar los gradientes que guían la mejora del nuevo modelo utilizando dos modelos de difusión”, afirma Tianwei Yin, doctor en ingeniería eléctrica e informática por el MIT, afiliado al CSAIL e investigador principal del marco DMD. “De este modo, destilamos los conocimientos del modelo original, más complejo, en el modelo más sencillo y rápido, evitando al mismo tiempo los conocidos problemas de inestabilidad y colapso de modos de las GAN”.

Midjourney ACCEDER
Pedro Domínguez

Pedro Domínguez

Publicista y productor audiovisual enamorado de las redes sociales. Invierto más tiempo pensando en qué videojuegos jugaré que jugando.

Lo último de Pedro Domínguez

Directrices editoriales