Las IA tienen fecha de caducidad, y es más pronto de lo que creemos

La Inteligencia Artificial requiere de la intervención humana. Por inteligente o ingeniosa que parezca esta novedosa tecnología, existe un problema inherente con las IA que probablemente no se resolverá pronto. El problema es que la Inteligencia Artificial consume información de manera mucho más rápida de lo que podemos producir los humanos. Es decir, los humanos creamos contenido original, pero las IA simplemente interpretan, reelaboran, infieren y encuentran información.

Por ello, las aplicaciones como ChatGPT requieren de una gran cantidad de información de todo tipo. De hecho, la propia plataforma deja esto bastante claro cuando intentas buscar algo que ha ocurrido después de 2021 (el mensaje de “No tenemos información posterior” a este año es habitual).

Sin embargo, la gran cantidad de información con la que se entrenan estos sistemas es lo que los hace parecer tan informados y cultos. Está ocurriendo un movimiento masivo para entrenar estos sistemas con más y más datos para que sus habilidades percibidas y la amplitud de su conocimiento mejoren aún más. Pero, desafortunadamente, nos estamos quedando sin datos.

En 2026 podríamos quedarnos sin más información para las IA

Un artículo de investigación reciente publicado por investigadores de Epoch proporciona más información sobre este tema y, según el artículo, podríamos quedarnos sin datos de entrenamiento para las inteligencias artificiales a partir de 2026. No solo los investigadores de Epoch lo creen así, sino que Teven Le Scao, investigador de Hugging Face (una empresa puntera de IA) también ha afirmado que teme que pronto nos quedemos sin los datos apropiados con los que entrenar más iniciativas de Inteligencia Artificial.

Los investigadores de Epoch defienden que el problema se deriva principalmente de la forma en que se clasifican los datos. Cuando se seleccionan datos para usar en el entrenamiento de IA, se dividen en dos bloques: alta calidad y baja calidad. Aparentemente, hay una línea muy borrosa entre los dos bloques. No hay una diferencia clara entre lo que generalmente cae limpiamente en la categoría de datos de alta calidad y lo que no.

Los datos de alta calidad suelen ser escritos por escritores profesionales, mientras que las publicaciones en las redes sociales, las diatribas de 4chan y los comentarios generales suelen calificarse como datos de baja calidad. El problema es que hay muchos más datos de baja calidad que de alta, y los investigadores de IA prefieren usar datos de alta calidad cuando entrenan inteligencia artificial debido al resultado previsto de la iniciativa. La gente quiere interactuar con contenido de alta calidad.

Algunos investigadores afirman que puede ser hora de reevaluar lo que se califica como datos de baja calidad. Sin embargo, esto conlleva el riesgo significativo de terminar con bots de chat plagados de opiniones y pensamientos humanos que luego se distribuyen a quienquiera que esté usando la utilidad en ese momento. Tendremos que esperar a que los investigadores luchen contra este, pero ciertamente parece que la longevidad de la IA podría ponerse en duda pronto. Es posible que estemos viendo otra moda tecnológica.

Las IA tienen fecha de caducidad, y es más pronto de lo que creemos

En 2026 podríamos quedarnos sin más información para las IA

Lo último de Shaun M Jooste

¿Nuevo Gears of War en camino? Eso parece

Llega a HBO Max una de las mayores sorpresas de los Oscars de 2024: por qué deberías verla

La nueva actualización de la app para móviles de Reddit facilita la navegación en los comentarios

Google desploma sus auriculares inalámbricos más de 40 euros

WhatsApp incluirá una espera función de seguridad en iOS