一個以人工智能領域一些最偉大的頭腦為特色的研究團體正在推出一個基準來衡量自然語言處理(NLP)能力。
該財團包括谷歌DeepMind、Facebook AI、紐約大學(New York University)和華盛頓大學(University of Washington)。該聯(lián)盟的每個成員都認為,NLP需要一個比當前解決方案更全面的基準。
Facebook人工智能表示,其結果是一個名為SuperGLUE的基準測試平臺,它用一個“更復雜的基準測試,包含全面的人類基線”,取代了一個較老的名為GLUE的平臺。
SuperGLUE有助于測試NLP能力,以前的基準測試對最新的系統(tǒng)來說太過簡單。
在發(fā)布的一年內(nèi),一些NLP模型已經(jīng)在GLUE基準上超過了人類的基準性能。目前的模型已經(jīng)提出了一種非常有效的方法,它將語言模型對大量文本數(shù)據(jù)集的預訓練與簡單的多任務和傳輸學習技術結合起來。”
2018年,谷歌發(fā)布了BERT(變形金剛的雙向編碼器表示),F(xiàn)acebook稱這是NLP領域的最大突破之一。Facebook采用了谷歌的開源工作,并確定了改進其有效性的變化,這導致了RoBERTa (Robustly BERT pre - training Approach)的出現(xiàn)。
研究聯(lián)盟推出AI自然語言處理基準
在發(fā)布的一年內(nèi),幾個NLP模型(包括RoBERTa)已經(jīng)在GLUE基準測試上超過了人類的基準性能。目前的模型已經(jīng)提出了一種非常有效的方法,將語言模型對大量文本數(shù)據(jù)集的預訓練與簡單的多任務和傳輸學習技術結合起來,”Facebook解釋道。
對于SuperGLUE基準測試,該聯(lián)盟確定了滿足以下四個標準的任務:
有不同的格式。
使用更微妙的問題。
用最先進的方法尚待解決。
很容易被人解決。
新的基準測試包括八個不同的和具有挑戰(zhàn)性的任務,包括一個貌似合理的選擇(COPA)因果推理任務。上述任務為系統(tǒng)提供了一個句子的前提,它必須從兩種可能的選擇中確定該前提的因果關系。人類在COPA上的準確率達到了100%,而伯特的準確率只有74%。