Hva skjer:
I mars 2019 Neue Zürcher Zeitung (NZZ) en ny tekst-til-tale-tjeneste for publikum, som en forbedret versjon av beta-lydspilleren som ble utgitt i oktober i fjor. Selskapet delte noen av de viktigste erfaringene de har lært under prosessen.
Grave dypere:
Google Wavenet er ikke nok for det sveitsisk-tyske språket
NZZ brukte Google Wavenet til å generere lydfilene sine, og selv om teknologien er talentfull på språk (for øyeblikket snakker ni med en naturlig lydkvalitet), var den ikke robust nok for kompleksiteten til sveitsertysk. For å løse problemet, utstyrte NZZ en mellomvare med et leksikon for å flyte ordene gjennom før de ble konvertert til lyd.
Arkitekturen må være miks-og-match-vennlig
I en bransje i endring med skiftende verktøy, behov og produkter, trengte NZZ å bygge en tjeneste som lett kunne tilpasses endrede omstendigheter. Ved å bygge en mix-and-match-arkitektur kunne de flytte tjenesten fra Amazon Polly til Google Wavenet på kort varsel, og forbedret seg dramatisk.
Lyd er ikke for alle
Noen mennesker elsker lyd, men andre gjør det rett og slett ikke. NZZ ba begge brukertypene om å evaluere forskjellige tekst-til-tale-motorer sammen med tekst lest av et faktisk menneske. Begge gruppene vurderte (ikke overraskende) den naturlige menneskestemmen høyest. Den innsikten var imidlertid ikke så relevant ved siden av at brukerne enten likte lyd eller ikke, og den menneskelige stemmen eller mangelen på den så ikke ut til å ha noen viktig innflytelse på bruken.
Teknikker for å gjøre et skrevet stykke til god lyd
Det er viktig at lydinnhold er behagelig å lytte til, og NZZ måtte bruke et annet oppsett for å transformere artiklene sine til MP3-format av høy kvalitet. Dette innebar å se nøye på hvordan brukere ønsker å ha en artikkel lest for dem, som informerte lydmalene deres.
Ulike spilleropplevelser utgjør en utfordring
NZZ ønsket å introdusere sin lyd på tvers av alle produkter og på alle plattformer (stasjonære datamaskiner, nettbrett og apper). Dette innebar designet og utviklet mange forskjellige spillervarianter for å imøtekomme teknologihensynene hos forskjellige aktører.
Innhold fra våre partnere
Bunnlinjen:
Mange variabler går inn for å lage en god tekst-til-tale-lydtjeneste og må vurderes fullt ut under bygging, testing og beta for å kunne lansere et kvalitetslydinnholdsprodukt.