對于任何事物的最新技術水平,百分之十是相當大的提升。這就是Salesforce研究剛剛為深度學習語言模型的常識推理所取得的成果。
在其論文中,解釋自己!利用語言模型進行常識推理,明天在計算語言學協(xié)會(ACL)2019年會上展示,Salesforce研究人員揭示了兩個重要貢獻:CoSE,一個關于常識解釋的數據集; 和CAGE,一個用于常識自動生成解釋的模型。ZDNe借此機會與兩名負責此項工作的Salesforce Research Scientists進行了問答,Nazneen Rajani和Bryan McCann。
創(chuàng)建常識推理數據集
作為提醒,Salesforce研究側重于問答,作為通過愛因斯坦促進數據訪問的一種方式。我們之前已經看到其他Salesforce研究人員如何調查知識圖的使用情況。
Rajani和McCann的工作采用了不同的方法,但也建立在之前的一些貢獻上。對于一些世界領先的研究人員來說,常識推理是一個開放的問題。例如,構建CAGE的關鍵因素之一是OpenAI GPT。配音這個語言模型最近打開由伊隆·馬斯克的OpenAI來源為“太危險了”在野外被釋放可能是過于謹慎。
然而,它是語言模型的最新技術。正如Rajani和McCann指出的那樣,這些自然語言處理網絡僅限于文本,作為生活在現實世界中的不良替代品。因此,研究人員通過讓他們閱讀一系列令人難以置信的文本來訓練模型,包括所有維基百科,數千本書,以及其他方法,也可以通過查詢Google來獲得結果。
這些模型使用名為Commonsense Question Answering(CQA)的多項選擇測試進行測試,該測試包含需要常識推理才能回答的問題。在典型的深度學習方式中,模型在CQA的一些示例上進行訓練,然后在不同的問題集上進行測試。與人類相比,已知這些讀得很好的神經網絡在這項任務上的表現非常糟糕。
Rajani和McCann創(chuàng)建了一個以CQA為模型的數據集,但除了問題的答案之外,它們還包括解釋。這就是他們創(chuàng)建CoSE的方式,CoSE是Commonsense Explanations的數據集。正如Rajani所說,CoSE v1.0有8500個例子,v1.11有10,962個例子,包括訓練和驗證集。對于深度學習標準,這不是很多數據。
Rajani和McCann承認這一點,并且增加數據集是他們未來工作的目標之一。McCann表示,他們希望將此數據集收集流程擴展到該領域的其他基準,包括自由格式文本,結構化信息和來自圖像或視頻的視覺信號,以便他們可以訓練解釋許多不同領域的模型。
使用Mechanical Turk上的眾包產生了解釋。要求Turkers提供問題的答案,解釋答案,并突出引導他們解釋問題的部分。讓我們注意到,最近使用Mechanical Turk進行知識圖表質量處理的研究表明,眾包是這類任務的可行解決方案。
拉賈尼提到有一些例子需要重新注釋,即使他們對解釋的質量有最初的限制,因為他們已經陷入困境。設計任務并收集數據大約需要三周時間。CoSE可以被其他研究人員使用并進一步增強,并且可以在GitHub上獲得。