O que está acontecendo:
Em março de 2019, o Neue Zürcher Zeitung (NZZ) lançou ao público um novo serviço de conversão de texto em fala, como uma versão melhorada de seu reprodutor de áudio beta lançado em outubro passado. A empresa compartilhou algumas das principais lições aprendidas durante o processo.
Indo mais fundo:
Google Wavenet não é suficiente para o idioma suíço-alemão
A NZZ usou o Google Wavenet para gerar seus arquivos de áudio e, embora a tecnologia seja talentosa em idiomas (atualmente falando nove com um som de qualidade natural), não era robusta o suficiente para as complexidades do alemão suíço. Para resolver o problema, a NZZ equipou um middleware com um léxico para fluir as palavras antes de serem convertidas em áudio.
A arquitetura deve ser compatível com combinações
Numa indústria em mudança, com ferramentas, necessidades e produtos em constante mudança, a NZZ precisava de construir um serviço que pudesse ser facilmente adaptado às novas circunstâncias. Ao construir uma arquitetura combinada, eles conseguiram migrar o serviço do Amazon Polly para o Google Wavenet em um curto espaço de tempo, melhorando drasticamente.
Áudio não é para todos
Algumas pessoas adoram áudio, mas outras simplesmente não. A NZZ pediu a ambos os tipos de usuários que avaliassem diferentes mecanismos de conversão de texto em fala junto com o texto lido por um ser humano real. Ambos os grupos (sem surpresa) avaliaram a voz humana natural como a mais alta. No entanto, esse insight não era realmente relevante, além do fato de os usuários gostarem ou não do áudio, e a voz humana ou a falta dela não parecer ter uma influência importante no uso.
Técnicas para transformar uma peça escrita em um bom áudio
É importante que o conteúdo de áudio seja agradável de ouvir, e a NZZ teve que usar um layout diferente para transformar seus artigos em formato MP3 de qualidade. Isso envolveu observar atentamente como os usuários gostariam que um artigo fosse lido para eles, que informasse seus modelos de áudio.
Diferentes experiências de jogador apresentam um desafio
A NZZ queria apresentar seu áudio em todos os produtos e em todas as plataformas (desktop, tablets e aplicativos). Isso significou projetar e desenvolver muitas variantes diferentes de jogadores para acomodar as considerações tecnológicas em diferentes jogadores.
Conteúdo de nossos parceiros
Conclusão:
Muitas variáveis entram na criação de um bom serviço de áudio de conversão de texto em fala e devem ser totalmente consideradas durante a construção, o teste e a versão beta para lançar com sucesso um produto de conteúdo de áudio de qualidade.