Tanto OpenAI como Google habrían recurrido a la transcripción de vídeos de YouTube para entrenar sus modelos de IA, algo que podría violar los derechos de autor de los creadores de contenido. Además de estas dos compañías, la propia Meta también habría tomado una serie de atajos para acceder a tantos datos como fuera posible para entrenar sus modelos de IA, según recoge The New York Times.
Según el artículo publicado, OpenAI utilizó Whisper, una herramienta de reconocimiento de voz, para transcribir más de un millón de horas de vídeos de YouTube. A continuación, introdujo las transcripciones en GPT-4, el potente sistema de IA con el que funciona el último modelo de chatbot de ChatGPT. Google, propietaria de YouTube, también transcribió vídeos de YouTube para entrenar sus modelos de IA.
La transcripción de vídeos por ambas empresas podría haber infringido los derechos de autor de los creadores de contenido sobre sus vídeos; anteriormente, diversas compañías fueron demandadas por haber utilizado los contenidos de creadores sin su permiso. Además, el uso de vídeos de YouTube por parte de OpenAI podría infringir también las normas de Google, que prohíbe el uso de sus vídeos para aplicaciones “independientes” y “medios automatizados (como robots, botnets o scrapers)” de acceso a sus vídeos.
Matt Bryant, portavoz de Google, declaró a The New York Times que la empresa no tenía conocimiento de tal uso por parte de OpenAI, pero el artículo alega que el personal de Google sabía del uso no autorizado de vídeos de YouTube por parte de OpenAI y no tomó medidas porque esta estaba haciendo lo mismo. Google también declaró al medio que solo entrena su IA con vídeos de creadores que han aceptado que su contenido se utilice de esta manera.
En julio de 2023, Google modificó sus condiciones de servicio para permitir el uso de material público online, como los Documentos de Google y las reseñas de restaurantes de Google Maps, para seguir entrenando sus modelos de IA.