A Google lançou uma nova ferramenta chamada Google-Extended, que permite aos editores de sites escolherem não ter os seus dados usados para treinar os modelos de inteligência artificial (IA) da empresa. 

Esta opção permite que os sites continuem a ser rastreados e indexados pelo Googlebot, enquanto evitam que os dados sejam utilizados para treinar modelos de IA, como o Bard.

Os editores da web podem usar o Google-Extended para "gerir se os seus sites ajudam a melhorar as APIs geradoras do Bard e Vertex AI" e controlar o acesso ao conteúdo dos seus sites. A Google está a explorar abordagens adicionais para permitir que os editores escolham e controlem o uso dos seus dados nas aplicações de IA.

Este novo recurso surge depois de serem levantadas várias preocupações sobre o uso de dados de sites por empresas como a OpenAI para treinar modelos de IA, motivando muitos sites a bloquearem rastreadores da web usados para tal. O Google-Extended oferece, assim, aos editores uma maneira de manter seu conteúdo acessível na Pesquisa Google, ao mesmo tempo em que protege seus dados de serem usados no treino dos modelos de IA.

O Google-Extended está disponível através do robots.txt, também conhecido como o ficheiro de texto que informa os rastreadores de Web se podem aceder a determinados sites. A Google salienta que "à medida que as aplicações de IA se expandem", continuará a explorar "abordagens adicionais legíveis” para a “escolha e o controlo dos editores da Web" e que terá mais informações para partilhar em breve.

Muitos sites já começaram a bloquear o rasteador da Web que a OpenAI utiliza para recolher dados e treinar o ChatGPT, incluindo o The New York Times, a CNN, a Reuters e o Medium