亞馬遜網(wǎng)絡(luò)服務(wù)公司(Amazon Web Services Inc.)正在接管Google LLC的人聲復(fù)制功能,今天為亞馬遜波利(Amazon Polly)添加了兩項(xiàng)新功能,這是一項(xiàng)基于云的服務(wù),可將文本轉(zhuǎn)換為逼真的語音,并用于創(chuàng)建可以通話的應(yīng)用程序。
新功能的第一個(gè)功能稱為“神經(jīng)文本語音轉(zhuǎn)換”,亞馬遜表示,通過增強(qiáng)合成語音的“自然度”和“表達(dá)力”,可以在語音質(zhì)量上“顯著改善”。
關(guān)于神經(jīng)文本語音轉(zhuǎn)換的一大優(yōu)點(diǎn)是,由于亞馬遜去年在研究論文中提到的一種新的人工智能模型,它只需訓(xùn)練幾個(gè)小時(shí)就可以學(xué)習(xí)新的口語風(fēng)格。該模型通過將大量標(biāo)準(zhǔn)的中性語音與僅幾個(gè)小時(shí)的目標(biāo)語音風(fēng)格的其他語音數(shù)據(jù)相結(jié)合而起作用??梢愿鶕?jù)需要添加新的補(bǔ)充數(shù)據(jù),以創(chuàng)建各種其他語音樣式。
AWS傳福音者朱利安·西蒙(Julien Simon)在博客中寫道,使用Neural-Text-To-Speech的基本算法,亞馬遜創(chuàng)建了第二個(gè)新功能,這是新聞播音員式的聲音,使敘事聲音在閱讀新聞和類似內(nèi)容時(shí)“更加逼真”。發(fā)布。
西蒙說:“語音質(zhì)量當(dāng)然很重要,但是要使合成語音更加逼真和引人入勝,還可以做更多的工作。” “風(fēng)格呢?可以肯定的是,人耳可以分辨出新聞廣播,體育廣播,大學(xué)課程等之間的區(qū)別;實(shí)際上,大多數(shù)人在正確的環(huán)境中采用正確的言語風(fēng)格,這無疑有助于傳達(dá)他們的信息。”
西蒙說,包括《環(huán)球郵報(bào)》,《大不列顛百科全書》和TIM Media在內(nèi)的組織已經(jīng)在使用Polly的新聞廣播員風(fēng)格。該功能也已引入到支持Amazon Alexa的設(shè)備中,該設(shè)備用于敘述每日新聞簡報(bào)和類似內(nèi)容。