OpenAI elimina “accidentalmente” los datos de entrenamiento de ChatGPT en medio de reclamaciones de derechos de autor

La IA hoy existe porque se ha tirado años robando contenido de todos los sitios posibles, ahora parece que están eliminando las pruebas

Chema Carvajal Sarabia

22 de noviembre de 2024
Actualizado: 25 de noviembre de 2024, 20:43

La propia OpenAI lo ha dicho en más de una ocasión. El modelo de inteligencia artificial que han construido sería imposible sin el saqueo indiscriminado de datos que han sacado de la red durante más de un lustro.

Suscríbete a la Newsletter de Softonic y recibe las últimas noticias en tech, juegos, entretenimiento en tu buzón de correo

Suscríbete (es GRATIS) ►

La IA solo se puede entrenar, parece ser, con todo el conocimiento humano que en la red y si se pidiera permiso a todo el mundo (los dueños de esos contenidos) sería imposible. O eso nos han dicho siempre.

De ahí que OpenAI se haya visto envuelta en una pequeña controversia con la prensa, ya que The New York Times y Daily News han demandado al gigante de la IA y a sus inversores, alegando que ChatGPT se entrenó utilizando sus contenidos protegidos por derechos de autor.

Los datos de investigación de los abogados, que se utilizaron para entrenar modelos de IA, fueron borrados por los ingenieros de OpenAI, supuestamente por accidente. Esta acción podría haber eliminado las pruebas que los abogados del New York Times habían adquirido contra OpenAI.

OpenAI accidentally erases potential evidence in training data lawsuit https://t.co/MT097ewy3r
— The Verge (@verge) November 21, 2024

La losa de la IA es que sus avances dependen de robar contenido

Los gigantes tecnológicos no tienen reparos en utilizar material protegido por derechos de autor para entrenar distintos modelos de IA con diferentes conjuntos de datos. Ya hemos hablado anteriormente de cómo las empresas de IA no solo utilizaban datos textuales, sino también vídeos de YouTube, incluidos vídeos de MKBHD, para entrenar sus modelos de IA.

OpenAI accedió anteriormente a abrir su plataforma de IA para The New York Times y Daily News en un intento de que buscaran su propio material protegido por derechos de autor en los conjuntos de entrenamiento de IA.

NEW: As part of an ongoing copyright lawsuit, The New York Times says it spent 150 hours sifting through OpenAI’s training data looking for potential evidence—only for OpenAI to delete all of its work.https://t.co/m08mjdVKUl
— WIRED (@WIRED) November 21, 2024

Los expertos de los editores dedicaron una gran cantidad de tiempo a curar los datos que OpenAI había utilizado para entrenar ChatGPT desde principios de noviembre. Y si bien las pruebas podrían haber respaldado las reclamaciones de los editores, OpenAI borró accidentalmente conjuntos de datos relevantes que se utilizaron para entrenar a ChatGPT.

Por lo que hemos podido saber gracias a TechCrunch, el 14 de noviembre, los ingenieros de OpenAI borraron todos los datos de búsqueda de los editores almacenados en una de las máquinas virtuales, según la carta antes mencionada, que fue presentada en el Tribunal de Distrito de EE.UU. para el Distrito Sur de Nueva York a última hora del miércoles.

Bluesky DESCARGAR

En pocas palabras, se acusa a OpenAI de borrar las pruebas o investigaciones realizadas por los expertos de The New York Times. Puede consultar la carta publicada para obtener más detalles del caso.

OpenAI pudo recuperar los datos borrados, pero en un formato que no puede utilizarse legalmente, lo que lo hace inadecuado en el caso de material protegido por derechos de autor. Queda por ver cómo responderán los editores al percance y si alguna medida adicional en proyecto podría permitirles seguir adelante con sus reclamaciones.

Chema Carvajal Sarabia

Content Manager - Periodista especializado en tecnología, entretenimiento y videojuegos. Escribir sobre lo que me apasiona (cacharros, juegos y cine) me permite seguir cuerdo y despertarme con una sonrisa cuando suena el despertador. PD: esto no es cierto el 100 % de las veces.

Lo último de Chema Carvajal Sarabia

Directrices editoriales

También te puede interesar

Ver más artículos

OpenAI elimina “accidentalmente” los datos de entrenamiento de ChatGPT en medio de reclamaciones de derechos de autor

La losa de la IA es que sus avances dependen de robar contenido

Lo último de Chema Carvajal Sarabia

También te puede interesar

Football Manager este año no tendrá una edición de 2025, sino de 1982: vuelve el clásico, literalmente

Ron Howard tiene claro quién tiene la culpa de la mala recepción de Solo: Una historia de Star Wars

Llévate estos tres juegos de Xbox totalmente gratis solo durante 48 horas

¿Qué es el secure boot de Battlefield 6 y cómo debes activarlo?

La voz de Snake tiene muy clara su opinión sobre el futuro de Metal Gear sin Kojima

El dilema del privilegio del cliente con la IA

Últimos artículos