一個(gè)由AI的一些最偉大的頭腦組成的研究聯(lián)盟正在發(fā)布一個(gè)基準(zhǔn)來(lái)衡量自然語(yǔ)言處理(NLP)的能力。
該財(cái)團(tuán)包括Google DeepMind,F(xiàn)acebook AI,紐約大學(xué)和華盛頓大學(xué)。該聯(lián)盟的每個(gè)成員都認(rèn)為,NLP需要比當(dāng)前解決方案更全面的基準(zhǔn)。
結(jié)果就是一個(gè)稱為SuperGLUE的基準(zhǔn)測(cè)試平臺(tái),該平臺(tái)用一個(gè)“更難的基準(zhǔn)和全面的人為基準(zhǔn)”取代了一個(gè)名為GLUE的舊平臺(tái)。
SuperGLUE有助于將NLP功能進(jìn)行測(cè)試,而以前的基準(zhǔn)測(cè)試開(kāi)始對(duì)最新系統(tǒng)而言太簡(jiǎn)單了。
“在發(fā)布的一年之內(nèi),一些NLP模型已經(jīng)超過(guò)了GLUE基準(zhǔn)上的人類基準(zhǔn)性能。目前的模型已經(jīng)提出了令人驚訝的有效方法,該方法將對(duì)大型文本數(shù)據(jù)集的語(yǔ)言模型預(yù)訓(xùn)練與簡(jiǎn)單的多任務(wù)和轉(zhuǎn)移學(xué)習(xí)技術(shù)相結(jié)合。
2018年,谷歌發(fā)布了BERT(《變形金剛》的雙向編碼器表示),F(xiàn)acebook將其稱為NLP的最大突破之一。Facebook接受了Google的開(kāi)源工作,并確定了提高其有效性的更改,從而產(chǎn)生了RoBERTa(嚴(yán)格優(yōu)化的BERT預(yù)培訓(xùn)方法)。
正如孩子們所說(shuō),RoBERTa基本上按照常用的基準(zhǔn)“粉碎了它”:
“在發(fā)布的一年內(nèi),幾種NLP模型(包括RoBERTa)已經(jīng)超過(guò)了GLUE基準(zhǔn)上的人類基準(zhǔn)性能。當(dāng)前的模型已經(jīng)提出了令人驚訝的有效方法,該方法將對(duì)大型文本數(shù)據(jù)集的語(yǔ)言模型預(yù)訓(xùn)練與簡(jiǎn)單的多任務(wù)和轉(zhuǎn)移學(xué)習(xí)技術(shù)相結(jié)合。
對(duì)于SuperGLUE基準(zhǔn)測(cè)試,聯(lián)盟決定滿足四個(gè)條件的任務(wù):
有多種格式。
使用更多細(xì)微的問(wèn)題。
使用最先進(jìn)的方法尚待解決。
可以很容易地被人們解決。
新的基準(zhǔn)測(cè)試包括八項(xiàng)多樣化且具有挑戰(zhàn)性的任務(wù),其中包括“選擇合理的選擇(COPA)”因果推理任務(wù)。前述任務(wù)為系統(tǒng)提供了句子的前提,并且它必須從兩個(gè)可能的選擇中確定前提的原因或結(jié)果。人類已經(jīng)成功地在COPA上實(shí)現(xiàn)了100%的準(zhǔn)確性,而B(niǎo)ERT則只有74%。