亞馬遜將發(fā)布超過400萬字的會話和知識數(shù)據(jù)集

2019-06-15 11:19:50    來源:    作者:

亞馬遜計劃提供大量針對自然語言處理研究的數(shù)據(jù)樣本。西雅圖公司今天表示,在2019年9月,它將發(fā)布Topical Chat數(shù)據(jù)集,這是一系列眾包的人類對話,提供給參加年度Alexa Prize Socialbot Grand Challenge的團隊。

亞馬遜稱,Topical Chat數(shù)據(jù)集包含超過210,000個話語或超過4,100,000個單詞,使其成為最大的公共社交對話和知識數(shù)據(jù)集之一。每個語料庫的對話和對話輪次與提供給群眾工作者的知識相關聯(lián),并且所述知識是從與一組實體相關的一系列“非結構化”和“松散結構化”的文本資源中收集的。

亞馬遜高級首席科學家Dilek Hakkani-Tur在博客文章中明確表示,沒有任何談話是與Alexa客戶的互動。

“這個系列的目標是實現(xiàn)知識接地神經(jīng)反應生成系統(tǒng)的后續(xù)研究步驟,解決其他公開數(shù)據(jù)集無法解決的自然對話中的難題,”Hakkani-Tur說。“這將使研究人員能夠專注于人類在主題之間的轉換,知識選擇和豐富,以及將事實和意見融入對話...... [并支持]高質量,可重復研究的出版。”

亞馬遜表示,競爭Alexa Prize的團隊可以訪問數(shù)據(jù)集的擴展版本 - 名為Extended Topical Chat的數(shù)據(jù)集 - 其中包括正在進行的收集和注釋的結果。

亞馬遜開源數(shù)據(jù)集可用于訓練AI模型識別跨語言和腳本類型的名稱,大約六個月后發(fā)布了今天的公告。它被稱為“音譯多語種命名實體音譯系統(tǒng)”,它包含近400,000種語言,如阿拉伯語,英語,希伯來語,日語片假名,以及從維基百科中刪除的俄語。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯(lián)系我們修改或刪除,多謝。