IA

La perfección es el enemigo de la IA

Investigadores de la Universidad de Míchigan han presentado OptiReduce, un novedoso sistema de comunicación que mejora la velocidad y la eficiencia del entrenamiento de la IA en servidores en la nube

La perfección es el enemigo de la IA
Agencias

Agencias

  • 30 de abril de 2025
  • Actualizado: 30 de abril de 2025, 11:47
La perfección es el enemigo de la IA

Un equipo de investigación de la Universidad de Michigan ha desarrollado un nuevo sistema de comunicación colectiva llamado OptiReduce, que acelera el entrenamiento de inteligencia artificial (IA) y aprendizaje automático en múltiples servidores en la nube.

Este sistema innovador establece límites de tiempo para la comunicación entre servidores, eliminando la necesidad de esperar a que todos completen sus tareas, lo que se traduce en una mayor eficiencia en el procesamiento de modelos grandes.

El aprendizaje profundo distribuido requiere que varios servidores trabajen en conjunto, pero las congestiones y retrasos son comunes en los centros de computación en la nube debido a la carga simultánea de trabajos.

Los modelos de IA prosperan con el método de comunicación de OptiReduce

OptiReduce ofrece una solución al introducir límites temporales que permiten que el proceso avance sin esperar a que los servidores más lentos se pongan al día. De esta manera, se logra un incremento del 70% en la rapidez para alcanzar la precisión en comparación con Gloo y un 30% más rápido que NCCL en entornos compartidos de nube.

A pesar de que esta metodología implica la pérdida de ciertos datos debido a los límites de tiempo, OptiReduce utiliza técnicas matemáticas avanzadas para aproximar la información faltante, minimizando así el impacto en la precisión final del modelo.

Los investigadores argumentan que al aceptar una “confiabilidad limitada”, los trabajos de aprendizaje automático pueden ejecutarse más rápidamente sin comprometer su exactitud.

En sus pruebas, OptiReduce demostró ser significativamente más efectivo en comparación con los modelos existentes, permitiendo que grandes modelos de IA, como Llama 4 y Gemini, sean más resilientes ante la pérdida de datos.

El equipo también está explorando avanzar hacia soluciones a nivel de hardware para llevar la comunicación a cientos de Gigabits por segundo, un paso que podría revolucionar aún más la capacidad de procesamiento en la nube.

Últimos artículos

Cargando el siguiente artículo