Facebook開發(fā)了第一個多語言機器翻譯模型,無需使用英語作為中介即可翻譯多達(dá)100種語言。該系統(tǒng)稱為M2M-100,使用人工智能。
根據(jù)Facebook研究助理Angela Fan的說法,這是朝著理解不同任務(wù)中所有語言的通用模型邁出的重要一步。該公司尚未發(fā)布有關(guān)何時實施該模型的信息。到目前為止,技術(shù)只是一個研究項目。
最初,研究團隊從互聯(lián)網(wǎng)上收集了100種不同語言的75億對短語的信息,優(yōu)先考慮互聯(lián)網(wǎng)用戶最需要的翻譯內(nèi)容。
然后,根據(jù)語言,地理和文化的相似性將語言分為14組。例如,其中一個這樣的群體包括印度通用語言,例如印地語,孟加拉語和馬拉地語。為了促進(jìn)人們的理解,團隊決定建立翻譯橋梁。
在印度語言方面,印地語,孟加拉語和泰米爾語是印度-雅利安人的中介。該公司表示,通過這種技術(shù),它在BLEU度量標(biāo)準(zhǔn)上已經(jīng)超過了以英語為中心的系統(tǒng)10分,該標(biāo)準(zhǔn)可以評估自動翻譯,達(dá)到20.1分。
“從英語到法語翻譯時,大多數(shù)以英語為中心的多語言模型都從中文到英語,從英語到法語進(jìn)行訓(xùn)練,因為英語訓(xùn)練數(shù)據(jù)非常廣泛,” Angela Fan解釋說。“我們的模型直接訓(xùn)練中文到法語的數(shù)據(jù),以更好地保留含義。”
盡管尚未將它集成到Facebook中,用戶可以用160多種語言發(fā)布內(nèi)容,但是該團隊進(jìn)行的測試表明該模型可以支持多種翻譯。