Lo que está sucediendo:
En marzo de 2019, Neue Zürcher Zeitung (NZZ) lanzó al público un nuevo servicio de texto a voz, como una versión mejorada de su reproductor de audio beta lanzado en octubre pasado. La empresa compartió algunas de las lecciones clave aprendidas durante el proceso.
Cavar más profundo:
Google Wavenet no es suficiente para el idioma alemán suizo
NZZ utilizó Google Wavenet para generar sus archivos de audio y, si bien la tecnología tiene talento para los idiomas (actualmente habla nueve con un sonido de calidad natural), no era lo suficientemente sólida para las complejidades del alemán suizo. Para resolver el problema, NZZ equipó un middleware con un léxico para hacer fluir las palabras antes de convertirlas en audio.
La arquitectura debe ser fácil de combinar y combinar
En una industria cambiante con herramientas, necesidades y productos cambiantes, NZZ necesitaba crear un servicio que pudiera adaptarse fácilmente a circunstancias cambiantes. Al crear una arquitectura de combinación, pudieron trasladar el servicio de Amazon Polly a Google Wavenet en poco tiempo, mejorando drásticamente.
El audio no es para todos
A algunas personas les encanta el audio, pero a otras simplemente no. NZZ pidió a ambos tipos de usuarios que evaluaran diferentes motores de conversión de texto a voz junto con el texto leído por un humano real. Ambos grupos (como era de esperar) calificaron la voz humana natural como la más alta. Sin embargo, esa idea no era realmente relevante aparte del hecho de que a los usuarios les gustaba el audio o no, y la voz humana o la falta de ella no parecía tener una influencia importante en el uso.
Técnicas para convertir una pieza escrita en un buen audio
Es importante que el contenido de audio sea agradable de escuchar, y NZZ tuvo que utilizar un diseño diferente para transformar sus artículos en formato MP3 de calidad. Esto implicó observar de cerca cómo les gustaría a los usuarios que se les leyera un artículo, que informara sus plantillas de audio.
Las diferentes experiencias de los jugadores presentan un desafío
NZZ quería presentar su audio en todos los productos y en todas las plataformas (escritorio, tabletas y aplicaciones). Esto significó diseñar y desarrollar muchas variantes diferentes de reproductores para adaptarse a las consideraciones tecnológicas de los diferentes reproductores.
Contenido de nuestros socios
La línea de fondo:
Son muchas las variables que intervienen en la creación de un buen servicio de audio de texto a voz y se deben considerar plenamente durante la creación, las pruebas y la versión beta para poder lanzar con éxito un producto de contenido de audio de calidad.