发生了什么:
2019 年 3 月,新苏黎世报(NZZ) 向公众推出了新的文本转语音服务,作为去年 10 月发布的测试版音频播放器的改进版本。该公司分享了在此过程中吸取的一些重要经验教训。
深入挖掘:
Google Wavenet 不足以支持瑞士德语
NZZ 使用 Google Wavenet 生成音频文件,虽然该技术在语言方面很有天赋(目前可以讲九种语言,声音自然),但对于复杂的瑞士德语来说,它还不够强大。为了解决这个问题,NZZ 配备了一个带有词典的中间件,可以在将单词转换为音频之前流过单词。
架构必须易于混合搭配
在不断变化的行业中,工具、需求和产品不断变化,NZZ 需要构建一种能够轻松适应不断变化的环境的服务。通过构建混合搭配架构,他们能够在短时间内将服务从 Amazon Polly 迁移到 Google Wavenet,从而得到显着改进。
音频并不适合所有人
有些人喜欢音频,但其他人根本不喜欢。 NZZ 要求两种用户类型评估不同的文本转语音引擎以及真人阅读的文本。两个群体(毫不奇怪)都对自然人声评价最高。然而,除了用户是否喜欢音频以及人声或缺乏人声似乎对使用没有重要影响这一事实之外,这种见解并不真正相关。
将书面作品制作成优质音频的技术
音频内容悦耳非常重要,NZZ 必须使用不同的布局将其文章转换为高质量的 MP3 格式。这涉及密切关注用户希望如何阅读文章,从而为他们的音频模板提供信息。
不同的玩家体验带来挑战
NZZ 希望在所有产品和所有平台(桌面、平板电脑和应用程序)上推出其音频。这意味着设计和开发许多不同的播放器变体,以适应不同播放器的技术考虑。
底线:
创建良好的文本转语音音频服务涉及许多变量,在构建、测试和测试期间必须充分考虑,以便成功推出高质量的音频内容产品。