Uma investigação da revista The Atlantic, conduzida por Alex Reisner, e partilhada pelo Nieman Lab, revelou que pelo menos 15 milhões de vídeos do YouTube foram utilizados por grandes empresas tecnológicas, incluindo Microsoft, Meta, Snap, Tencent, Runway e ByteDance, para treinar modelos de Inteligência Artificial (IA), sem autorização dos criadores de conteúdo. 

O estudo identificou que centenas de milhares de vídeos pertencentes a meios de comunicação como o The New York TimesThe GuardianAl JazeeraVox MediaBBC e The Wall Street Journal foram incluídos em conjuntos de dados de treino usados para criar produtos de vídeo com IA. 

Entre os exemplos citados, mais de 88 mil vídeos provinham de canais da Fox News, 70 mil da ABC News, 55 mil da Bloomberg e 30 mil da Vox Media, incluindo conteúdos de canais como The Verge e Eater

“Para sobreviver, as plataformas de IA sabem que precisam (e os seus consumidores querem) conteúdo de qualidade e credível como o nosso, que dê relevância e propósito aos seus produtos”, disse Lauren Starke, porta-voz da Vox Media. “Estão a gastar níveis sem precedentes em infraestruturas de IA: chips, servidores e centros de dados que alimentam os seus modelos. No entanto, quando se trata do conteúdo que torna esses modelos úteis — jornalismo, trabalho criativo —, comparativamente, não gastaram quase nada”. 

Em Maio de 2024, a Vox Media assinou uma parceria com a OpenAI por um valor não divulgado, permitindo que a empresa usasse o seu conteúdo para produtos como o ChatGPT. Starke disse que a Vox Media continuará a explorar parcerias com empresas de IA que respeitem o seu trabalho, mas “buscará recursos legais para proteger a nossa propriedade intelectual, quando necessário”. 

O conjunto de dados Runway Gen-3, da empresa Runway — financiada pela Salesforce, Google e Nvidia —, incluiu 11 604 vídeos do canal do YouTube do New York Times. Estes vídeos foram usados para treinar o modelo de geração de vídeo principal da empresa, lançado em Junho de 2024 e elogiado por rivalizar com os modelos Sora (OpenAI) e Veo (Google). 

Entre os vídeos incluídos estavam um documentário sobre o assassinato de John Fitzgerald Kennedy, uma entrevista com Barack Obama e uma investigação sobre os protestos pró-democracia em Hong Kong. 

Apesar do uso extensivo, não há registo de acordos de licenciamento entre a Runway e as editoras envolvidas. Um porta-voz do New York Times reagiu: 

“O Times não autorizou o uso de vídeos que publica no YouTube para fins de treinamento de IA por terceiros. Como proprietário dessas obras, o Times tem o direito legal exclusivo de decidir como e onde o nosso conteúdo é usado — e está a monitorizar isso de perto. Continuaremos a investigar activamente a violação da nossa valiosa propriedade intelectual e faremos valer os nossos direitos conforme apropriado”. 

Outros conjuntos de dados mencionados incluem o HD-VILA-100M, criado pela Microsoft Research Asia, e o YT-Temporal-180M, desenvolvido por investigadores da Universidade de Washington e do Allen Institute for AI. Ambos contêm milhares de vídeos de canais noticiosos — como Fox News, DW, Bloomberg e Al Jazeera — e foram descarregados centenas de vezes para uso em investigação e treino de modelos. 

Empresas como Meta, Tencent, Bytedance e Snap usaram estes conjuntos de dados para criar ou melhorar os seus sistemas de geração de vídeo e de legendagem automática. 

Jornalistas e criadores independentes entre os visados 

A investigação também identificou vídeos de criadores independentes entre os dados usados. Por exemplo, 15 mil vídeos do The David Pakman Show, um programa de entrevistas com mais de três milhões de subscritores no YouTube, e 11 mil do The Majority Report with Sam Seder, que tem quase 2 milhões de subscritores no YouTube, foram incluídos em vários conjuntos de dados, sem consentimento. 

Pakman afirmou: “Quando a utilização é tão concentrada — ou seja, dezenas de milhares de vídeos de um único criador — parece menos uma inclusão incidental e mais uma extracção em grande escala de propriedade intelectual sem consentimento.” 

Seder acrescentou: “As pessoas estão sempre a usar o meu conteúdo, mas estão a adicionar comentários, e isso faz parte de uma conversa, é transparente — faz parte do ecossistema. O que essas [empresas de IA] estão a fazer é fundamentalmente diferente. Não há reciprocidade; é apenas exploração”. 

Questões legais e direitos de autor 

De acordo com as regras do YouTube, os criadores detêm automaticamente os direitos autorais sobre os seus vídeos, e apenas a própria plataforma pode utilizá-los para fins internos de IA, nomeadamente no treino dos modelos Gemini e Veo 3 do Google. Essa permissão não se estende a terceiros. 

New York Times reforçou que “utilizar conteúdo de criadores como o Times sem permissão viola a lei e prejudicará gravemente o mercado de reportagens originais e independentes, o que diminuirá a capacidade das pessoas de contar histórias importantes, deixando o público menos informado. O Times acredita que o sucesso futuro desta tecnologia não deve vir à custa das instituições jornalísticas.” 

(Créditos da imagem: Unsplash)