A inteligência artificial e os conteúdos editoriais
Uma investigação da Ziff Davis revelou que as empresas que usam inteligência artificial (IA) generativa dependem mais dos conteúdos editoriais para treinar os modelos de IA do que aquilo que admitem publicamente, noticia o Axios.
Segundo a análise das bases de dados realizada pelos autores do estudo, empresas como a OpenAI, Google e Meta usam, de forma "predominante", conteúdos de sites de notícias para treinar os seus modelos de linguagem de larga escala (large language models [LLM], em inglês).
“As grandes empresas com LLM têm dado prioridade, de forma quantificável, a este tipo de conteúdo no treino dos modelos de linguagem mais importantes ao longo da breve história da tecnologia”, lê-se no resumo do estudo da Ziff Davis, uma empresa norte-americana de media digital de grande dimensão que detém publicações na área das tecnologias, jogos, entretenimento, cibersegurança e outros assuntos.
Os investigadores identificaram, por exemplo, que, numa base de dados usada para desenvolver o GPT-2 (da OpenAI), 10% dos URL correspondiam a 15 publicações estudadas.
Os resultados vão ao encontro de um outro estudo publicado em 2023 pela News/Media Alliance (NMA), de que a Ziff Davis também faz parte.
Os dados são relevantes porque, quanto mais as organizações noticiosas conseguirem mostrar que os seus conteúdos são usados para treinar os LLM, mais fácil será defender que lhes são devidas compensações por utilização de materiais com direitos de autor, explica o Axios.
Ao contrário de outros grupos de media que já assinaram acordos com empresas de IA, a Ziff Davis não tem nenhuma parceria negociada. O estudo agora publicado tem como objectivo disponibilizar informação para a indústria, bem como reunir dados que possam ser úteis em potenciais negociações futuras.
(Créditos da imagem: Jonathan Kemper no Unsplash)