亞馬遜將發(fā)布超過400萬字的會話和知識數(shù)據(jù)集

2019-06-15 11:19:50 來源：作者：

亞馬遜計劃提供大量針對自然語言處理研究的數(shù)據(jù)樣本。西雅圖公司今天表示，在2019年9月，它將發(fā)布Topical Chat數(shù)據(jù)集，這是一系列眾包的人類對話，提供給參加年度Alexa Prize Socialbot Grand Challenge的團隊。

亞馬遜稱，Topical Chat數(shù)據(jù)集包含超過210,000個話語或超過4,100,000個單詞，使其成為最大的公共社交對話和知識數(shù)據(jù)集之一。每個語料庫的對話和對話輪次與提供給群眾工作者的知識相關聯(lián)，并且所述知識是從與一組實體相關的一系列“非結構化”和“松散結構化”的文本資源中收集的。

亞馬遜高級首席科學家Dilek Hakkani-Tur在博客文章中明確表示，沒有任何談話是與Alexa客戶的互動。

“這個系列的目標是實現(xiàn)知識接地神經(jīng)反應生成系統(tǒng)的后續(xù)研究步驟，解決其他公開數(shù)據(jù)集無法解決的自然對話中的難題，”Hakkani-Tur說。“這將使研究人員能夠專注于人類在主題之間的轉換，知識選擇和豐富，以及將事實和意見融入對話...... [并支持]高質量，可重復研究的出版。”

亞馬遜表示，競爭Alexa Prize的團隊可以訪問數(shù)據(jù)集的擴展版本 - 名為Extended Topical Chat的數(shù)據(jù)集 - 其中包括正在進行的收集和注釋的結果。

亞馬遜開源數(shù)據(jù)集可用于訓練AI模型識別跨語言和腳本類型的名稱，大約六個月后發(fā)布了今天的公告。它被稱為“音譯多語種命名實體音譯系統(tǒng)”，它包含近400,000種語言，如阿拉伯語，英語，希伯來語，日語片假名，以及從維基百科中刪除的俄語。

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播更多信息之目的，如作者信息標記有誤，請第一時間聯(lián)系我們修改或刪除，多謝。