Las capacidades de las inteligencias artificiales van a más por cada día que pasa. Partiendo de “simplemente” poder conversar con ellas sobre temas triviales, las IA ahora también son capaces de vernos, escucharnos y reconocernos.
Pero, como ya hemos explicado en otras ocasiones, para que esto suceda las compañías deben entrenar a sus modelos de lenguaje con ingentes cantidades de datos. Datos que, en muchas ocasiones, provienen de personas, compañías y webs que no han dado su consentimiento expreso.
Si ya hoy mismo hablábamos sobre que Meta ha hecho uso de las publicaciones de sus usuarios de Facebook e Instagram para entrenar a Meta AI, su nuevo chatbot, Google es otra gran compañía tecnológica que hace lo mismo, pero utilizando todas las webs que indexa. Eso sí, desde esta semana ya existe una forma de que Google no utilice tu web para entrenar a Bard u otros modelos de lenguaje.

En una publicación de su blog, Google ha anunciado el lanzamiento de Google-Extended, un nuevo control que pueden utilizar los editores para permitir o no que los datos de sus webs se utilicen para entrenar a Bard y Vertex AI, así como “las futuras generaciones de modelos que impulsan estos productos”.
Es decir, quienes quieran impedir que Google utilice la información de su web para entrenar a sus inteligencias artificiales tan solo deberán inhabilitar “User-Agent: Google-Extended” en el archivo robots.txt, un documento que indica a los rastreadores web automatizados a qué contenido pueden acceder.
Eso sí, Google no menciona en ningún momento la palabra “entrenar” en su comunicado, sino que habla de “ayudar a mejorar las API generativas”. Un eufemismo que claramente trata de diluir la mala imagen que tanto esta como otras compañías se están ganando por no solicitar la colaboración expresa de la gente para entrenar a sus IA. ¿”Entrenar a nuestras IA”? No, no: “ayudarnos a mejorar nuestras herramientas”.