Was passiert:
Im März 2019 die Neue Zürcher Zeitung (NZZ) einen neuen Text-to-Speech-Dienst für die Öffentlichkeit, als verbesserte Version ihres im vergangenen Oktober veröffentlichten Beta-Audioplayers. Das Unternehmen teilte einige seiner wichtigsten Erkenntnisse aus dem Prozess mit.
Tiefer Graben:
Google Wavenet reicht für die Schweizerdeutschsprache nicht aus
Die NZZ nutzte Google Wavenet, um ihre Audiodateien zu generieren, und obwohl die Technologie sprachbegabt ist (derzeit spricht sie neun Sprachen mit natürlicher Klangqualität), war sie für die Komplexität des Schweizerdeutschen nicht robust genug. Um das Problem zu lösen, hat die NZZ eine Middleware mit einem Lexikon ausgestattet, durch das die Wörter fließen, bevor sie in Audio umgewandelt werden.
Architektur muss kombinierbar sein
In einer sich verändernden Branche mit sich ändernden Tools, Bedürfnissen und Produkten musste NZZ einen Service aufbauen, der sich leicht an sich ändernde Umstände anpassen lässt. Durch den Aufbau einer Mix-and-Match-Architektur konnten sie den Dienst kurzfristig von Amazon Polly auf Google Wavenet verlagern und so eine enorme Verbesserung erzielen.
Audio ist nicht jedermanns Sache
Manche Menschen lieben Audio, andere einfach nicht. Die NZZ hat beide Benutzertypen gebeten, verschiedene Text-to-Speech-Engines sowie von einem echten Menschen gelesene Texte zu bewerten. Beide Gruppen bewerteten (wenig überraschend) die natürliche menschliche Stimme am höchsten. Allerdings war diese Erkenntnis nicht wirklich relevant, abgesehen von der Tatsache, dass Benutzer Audio entweder mochten oder nicht und dass die menschliche Stimme oder deren Fehlen offenbar keinen wesentlichen Einfluss auf die Nutzung hatte.
Techniken, um aus einem geschriebenen Stück einen guten Ton zu machen
Es ist wichtig, dass die Audioinhalte angenehm anzuhören sind, und die NZZ musste ein anderes Layout verwenden, um ihre Artikel in ein hochwertiges MP3-Format umzuwandeln. Dabei ging es darum, genau zu prüfen, wie Nutzer einen Artikel vorgelesen bekommen möchten, der ihre Audiovorlagen beeinflusst.
Unterschiedliche Spielererfahrungen stellen eine Herausforderung dar
Die NZZ wollte ihr Audio produktübergreifend und auf allen Plattformen (Desktop, Tablets und Apps) einführen. Dies bedeutete, viele verschiedene Player-Varianten zu entwerfen und zu entwickeln, um den technologischen Überlegungen verschiedener Player gerecht zu werden.
Inhalte unserer Partner
Das Fazit:
Bei der Erstellung eines guten Text-to-Speech-Audiodienstes spielen viele Variablen eine Rolle und müssen bei der Erstellung, beim Testen und in der Betaphase vollständig berücksichtigt werden, um ein qualitativ hochwertiges Audioinhaltsprodukt erfolgreich auf den Markt zu bringen.