在過去十年左右的時間里,卷積神經(jīng)網(wǎng)絡(CNN)已被證明在處理各種任務方面非常有效,包括自然語言處理(NLP)任務。NLP需要使用計算技術來分析或綜合語言,包括書面和口頭形式。研究人員已成功將CNN應用于若干NLP任務,包括語義分析,搜索查詢檢索和文本分類。
通常,訓練用于文本分類任務的CNN 處理單詞級別的句子,將單個單詞表示為向量。盡管這種方法可能與人類處理語言的方式一致,但最近的研究表明,在角色級別處理句子的CNN也可以取得顯著的成果。
字符級分析的一個關鍵優(yōu)勢是它們不需要先前的單詞知識。這使CNN更容易適應不同語言并獲得拼寫錯誤導致的異常單詞。
過去的研究表明,不同級別的文本嵌入(即字符,單詞或文檔級別)對于不同類型的任務更有效,但仍然沒有明確的指導如何選擇正確的嵌入或何時切換到另一個??紤]到這一點,中國天津工業(yè)大學的一個研究小組最近開發(fā)了一種新的CNN架構,該架構基于通常用于文本分類任務的表示類型。
“我們通過構建多個平面,基于多個表示來提出CNN的新架構,以便將更多信息轉儲到網(wǎng)絡中,例如通過命名實體識別器或詞性標注工具獲得的文本的不同部分。 ,不同級別的文本嵌入或上下文句子,“研究人員在他們的論文中寫道。
由研究人員設計的多代表性CNN(Mr-CNN)模型基于這樣的假設:書面文本的所有部分(例如名詞,動詞等)在分類任務中起關鍵作用,并且不同的文本嵌入更有效用于不同的目的。他們的模型結合了兩個關鍵工具,斯坦福命名實體識別器(NER)和詞性(POS)標記器。前者是一種在文本中標記事物的語義角色的方法(例如人,公司等); 后者是一種用于將部分語音標簽分配給每個文本塊(例如,名詞或動詞)的技術。
研究人員使用這些工具預處理句子,獲得原始句子的幾個子集,每個子集包含文本中特定類型的單詞。然后他們使用子集和完整句子作為他們的Mr-CNN模型的多個表示。
當使用來自各種大規(guī)模和特定領域數(shù)據(jù)集的文本對文本分類任務進行評估時,Mr-CNN模型獲得了顯著的性能,一個數(shù)據(jù)集的錯誤率提高了13%,另一個數(shù)據(jù)集提高了8%。這表明,文本的多種表示允許網(wǎng)絡自適應地將注意力集中在最相關的信息上,從而增強其分類能力。
“各種大規(guī)模的,特定領域的數(shù)據(jù)集用于驗證所提出的架構,”研究人員寫道。“分析的任務包括本體文檔分類,生物醫(yī)學事件分類和情感分析,表明學習將注意力集中在文本的特定表示上的多代表性CNN 可以獲得超過最先進深度神經(jīng)的性能的進一步提高網(wǎng)絡模型。“
在他們未來的工作中,研究人員計劃研究細粒度特征是否有助于防止訓練數(shù)據(jù)集的過度擬合。他們還希望探索其他可以增強對句子特定部分進行分析的方法,從而進一步提高模型的性能。