Estudo aponta lacunas linguísticas na tradução por IA no jornalismo
Um novo relatório do Centro de Notícias, Tecnologia e Inovação (CNTI) revela uma lacuna linguística no desempenho das ferramentas de inteligência artificial aplicadas à transcrição e à tradução no jornalismo. O documento baseia-se na análise de mais de 55 estudos provenientes das áreas das ciências sociais, da linguística e da informática.
Entre as principais conclusões apresentadas destaca-se a forte disparidade entre a precisão e acessibilidade das ferramentas quando aplicadas a línguas dominantes, como o inglês, e a línguas classificadas pelos investigadores como tendo “poucos recursos”. Estes idiomas, apesar de amplamente falados, dispõem de pouca informação digitalizada disponível na internet, o que limita a capacidade dos modelos de linguagem de aprenderem padrões fiáveis. O inglês, por contraste, constitui mais de metade de todo o conteúdo disponível na web, beneficiando assim de modelos particularmente eficazes.
O relatório descreve vários obstáculos resultantes desta desigualdade. As ferramentas de tradução por IA podem funcionar com grande competência em línguas amplamente representadas, mas introduzir erros significativos quando aplicadas a um par de línguas menos comuns. As dificuldades aumentam perante “ambiguidade linguística e nuances culturais”, bem como na incapacidade de alcançar um desempenho “ao nível dos especialistas humanos”. A isto soma-se o problema do “viés inerente” presente nos dados usados para treinar estes sistemas.
Um dos estudos analisados pelo CNTI, realizado na Tanzânia, examinou traduções automáticas de notícias internacionais e descobriu que 13% das frases continham erros ou imprecisões. Nalguns casos, termos simples eram traduzidos de forma literal e enganadora: a expressão inglesa “street food”, por exemplo, foi convertida para suaíli como “food of the road”, ou seja, “comida da estrada”.
Dificuldades semelhantes foram identificadas na adaptação de níveis de formalidade, um requisito particularmente sensível em línguas como o coreano e o japonês, onde as normas sociais determinam registos específicos. Como resultado, traduções automáticas de inglês informal podem produzir frases consideradas “socialmente inadequadas” nesses idiomas.
Apesar dos obstáculos, algumas redacções do Sul Global estão a desenvolver soluções para mitigar estas limitações. O relatório destaca o trabalho do Dubawa, um projecto de verificação de factos sediado na Nigéria, que tem treinado ferramentas de transcrição com sotaques e dialectos locais, permitindo transcrever emissões de rádio com maior rigor.
O grupo de trabalho considera especialmente promissora a utilização de ferramentas de transcrição por IA para cobrir reuniões públicas, onde a “linguagem figurada e os jogos de palavras”, tradicionalmente difíceis para a IA, são menos frequentes. Já no campo da tradução, os investigadores defendem a abordagem da “tradução híbrida”, na qual resultados produzidos por IA são sempre revistos por editores humanos antes de serem publicados, reduzindo assim o risco de erros.
(Créditos da imagem: Freepik)