Vector aposta na IA para narração áudio de artigos
Perante os desafios colocados pelas novas ferramentas de Inteligência Artificial — como a IA Gemini da Google, que começou a gerar resumos directamente nas páginas de pesquisa, desviando tráfego dos meios de comunicação social —, o meio de comunicação social ucraniano Vector decidiu apostar numa estratégia omnicanal, introduzindo uma nova funcionalidade de narração áudio de artigos, com recurso a IA.
Em colaboração com a empresa Respeecher, o Vector permitiu que os seus leitores pudessem ouvir os artigos narrados por vozes de figuras públicas ucranianas, como empreendedores e artistas. Em menos de um mês, mais de dois mil utilizadores decidiram experimentar a nova funcionalidade. “Acreditamos que está na hora de os media apostarem em conteúdo verdadeiramente omnicanal”, refere Ismail Osbanov, CEO do Vector, no site do The Fix.
O conteúdo omnicanal tem vindo a ganhar destaque nos media como forma de oferecer uma experiência integrada e contínua aos utilizadores, em vários dispositivos e plataformas. O Vector é um meio dedicado ao empreendedorismo, tecnologia, criatividade e investimento. Mensalmente, 400 mil leitores únicos seguem o Vector no seu site e redes sociais. A integração de áudio veio prolongar o tempo médio de permanência dos utilizadores no site — o dobro, em comparação com os leitores tradicionais.
A escolha das vozes teve como critério principal a autenticidade e reconhecimento público, assegurando que o timbre, o sotaque e a entoação fossem fiéis à realidade. "Era crucial que as pessoas soubessem exatamente como falavam na vida real – o seu timbre único, o seu sotaque e a entoação que usavam. Caso contrário, os nossos leitores não teriam apreciado a qualidade da nossa nova funcionalidade”, conta Ismail Osbanov.
A tecnologia baseia-se em conversão de texto em voz (TTS). A equipa grava previamente a voz de uma personalidade num estúdio, com diferentes entoações e emoções e, com esses dados, a IA aprende a gerar ficheiros áudio de forma sintética. O resultado é reproduzido directamente nas páginas dos artigos.
Benefícios e desafios da distribuição omnicanal
A aposta em áudio trouxe três grandes vantagens: a melhoria da experiência do utilizador, já que o leitor pode iniciar um artigo em texto e terminá-lo em áudio, sem sair da plataforma; a inclusividade, sendo que o formato áudio é crucial para pessoas com deficiência visual, uma realidade particularmente sensível num contexto de guerra na Ucrânia; as novas possibilidades de monetização, desde conteúdos exclusivos para assinantes até campanhas publicitárias com narração por vozes conhecidas.
Para que um meio de comunicação social possa lançar com sucesso uma solução de conversão de texto em voz, o CEO do Vector explica que é necessário ter um parceiro tecnológico competente, que seja capaz de lidar com a recolha e processamento da voz e desenvolver modelos e testes: “A nossa equipa já conhecia o Respeecher porque tínhamos escrito sobre os seus projectos e discutido a sua tecnologia para a criação de artigos. A criação de um modelo de voz robusto requer normalmente a gravação de cerca de uma hora de texto variado em estúdio. A amplitude é importante – emoção, tom, ritmo. (...) Tínhamos acesso a altifalantes e utilizávamos máquinas de gravação de alta qualidade. Este áudio foi facilmente convertido em dados legíveis por máquina (espectrogramas) e utilizado para treinar o modelo, pelo que o desenvolvimento demorou cerca de várias semanas”.
Outro aspecto é o suporte jurídico sólido, garantindo direitos e limitações do uso da voz: “O locutor cuja voz é modelada deve conceder permissão explícita para utilizar as suas gravações e partilhar os direitos associados. As lacunas na documentação de consentimento podem paralisar ou mesmo inviabilizar um produto TTS finalizado — e expor todos a riscos legais futuros”.
Ismail Osbanov refere também a necessidade de uma infraestrutura tecnológica interna, para gerir a integração com o site e a app: “Precisa de uma arquitectura que ingira grandes volumes de texto, que os reencaminhe para modelos de IA, devolva ficheiros de áudio e apresente controlos de reprodução em ambientes web e mobile. Isto inclui optimizar a velocidade de processamento, minimizar a latência, suportar vários dispositivos/versões de sistema operativo e construir pipelines de actualização e manutenção para os modelos de voz”.
Por último, indica que é essencial ter uma equipa editorial alargada, incluindo editores literários de áudio que revejam a entoação e fluidez das narrações e sinalizem erros: “Mesmo após a geração do áudio, é necessária a revisão humana. Modelos de IA mais simples podem soar monótonos, enfatizar palavras de forma incorrecta ou produzir artefactos digitais – especialmente com frases complexas ou termos invulgares”.
As preocupações éticas
O uso de vozes geradas por IA levanta questões éticas, como demonstrado no caso polémico da recriação da voz de Anthony Bourdain sem aviso aos espectadores. O Vector sublinha que o uso de vozes deve ser sempre autorizado, com contratos claros e limitações bem definidas.
Além disso, existe um risco real de abuso através de deepfakes de voz, que podem ser usados para enganar ou difamar. A confiança na autenticidade do áudio, tal como já aconteceu com imagens geradas por IA, pode ser seriamente abalada.
O Vector acredita que o futuro da comunicação social encaminha-se para uma realidade omnicanal e imersiva: desde resumos automáticos a infografias gerados por IA, até experiências de realidade aumentada ou virtual que permitam "estar no local" de uma notícia. A monetização de conteúdos omnicanal pode ainda passar pela venda de acesso a ferramentas ou pelo licenciamento da tecnologia a outros meios.
"A distribuição omnicanal com tecnologia de IA representa uma mudança estrutural no panorama dos media. Cria uma experiência de utilizador mais envolvente e personalizada, ao mesmo tempo que abre fluxos de receitas diversificados para os veículos e os seus parceiros”, conclui o responsável pelo Vector.
(Créditos da imagem: Unsplash)