Ano ang nangyayari:
Noong Marso 2019, ang Neue Zürcher Zeitung (NZZ) ng bagong serbisyong text-to-speech sa publiko, bilang pinahusay na bersyon ng beta audio player nito na inilabas noong Oktubre. Ibinahagi ng kumpanya ang ilan sa mga pangunahing aral na natutunan sa proseso.
Paghuhukay ng Mas Malalim:
Hindi sapat ang Google Wavenet para sa wikang Swiss German
Ginamit ng NZZ ang Google Wavenet upang bumuo ng mga audio file nito, at habang ang teknolohiya ay may talento sa mga wika (kasalukuyang nagsasalita ng siyam na may natural na kalidad ng tunog), hindi ito sapat na matatag para sa mga kumplikado ng Swiss German. Upang malutas ang problema, nilagyan ng NZZ ang isang middleware na may isang lexicon upang dumaloy ang mga salita bago ma-convert sa audio.
Ang arkitektura ay dapat na mix-and-match friendly
Sa isang nagbabagong industriya na may nagbabagong mga tool, pangangailangan at produkto, kailangan ng NZZ na bumuo ng isang serbisyo na madaling iakma sa pagbabago ng mga pangyayari. Sa pamamagitan ng pagbuo ng isang mix-and-match na arkitektura, nagawa nilang ilipat ang serbisyo mula sa Amazon Polly patungo sa Google Wavenet sa maikling panahon, na bumubuti nang husto.
Ang audio ay hindi para sa lahat
Ang ilang mga tao ay mahilig sa audio, ngunit ang iba ay hindi. Hiniling ng NZZ sa parehong uri ng user na suriin ang iba't ibang text-to-speech engine kasama ang tekstong binasa ng isang aktwal na tao. Ang parehong mga grupo (hindi nakakagulat) ay nag-rate ng natural na boses ng tao na pinakamataas. Gayunpaman, hindi talaga nauugnay ang insight na iyon bukod sa nagustuhan ng mga user ang audio o hindi, at ang boses ng tao o ang kakulangan nito ay tila walang mahalagang impluwensya sa paggamit.
Mga pamamaraan para sa paggawa ng isang nakasulat na piraso sa magandang audio
Mahalagang kasiya-siyang pakinggan ang nilalamang audio, at kinailangan ng NZZ na gumamit ng ibang layout upang baguhin ang mga artikulo nito sa kalidad na MP3 na format. Kasama dito ang pagtinging mabuti sa kung paano nais ng mga user na ipabasa sa kanila ang isang artikulo, na nagpapaalam sa kanilang mga template ng audio.
Nagpapakita ng hamon ang iba't ibang karanasan ng manlalaro
Gusto ng NZZ na ipakilala ang audio nito sa lahat ng produkto at sa lahat ng platform (desktop, tablet, at app). Nangangahulugan ito na idinisenyo at bumuo ng maraming iba't ibang variant ng manlalaro upang matugunan ang mga pagsasaalang-alang sa teknolohiya sa iba't ibang mga manlalaro.
Nilalaman mula sa aming mga kasosyo
Ang Bottom Line:
Maraming mga variable ang napupunta sa paglikha ng isang mahusay na text-to-speech na serbisyo ng audio at dapat na ganap na isaalang-alang sa panahon ng pagbuo, pagsubok at beta upang matagumpay na maglunsad ng isang kalidad na produkto ng nilalamang audio.