在線上擁有數(shù)十億本書,新聞報道和文檔,因此,現(xiàn)在就沒有比現(xiàn)在更好的閱讀時機了-如果您有時間來篩選所有選項。麻省理工學院的助理教授賈斯汀·所羅門說:“互聯(lián)網(wǎng)上有很多文字。” “任何有助于切穿所有材料的東西都是非常有用的。”
所羅門公司最近與麻省理工學院的IBM Watson AI實驗室及其位于麻省理工學院的幾何數(shù)據(jù)處理小組合作,在神經(jīng)信息處理系統(tǒng)大會(NeurIPS)上展示了一種用于切入大量文本的新技術。他們的方法結合了三種流行的文本分析工具-主題建模,單詞嵌入和最佳傳輸-可以提供比流行的用于對文檔進行分類的基準上的競爭方法更好,更快的結果。
如果算法知道您過去喜歡什么,它可以掃描數(shù)百萬種可能性來尋找類似的東西。隨著自然語言處理技術的改進,那些“您可能也喜歡”的建議正在變得越來越迅速和相關。
在NeurIPS提出的方法中,一種算法會根據(jù)收藏集中的常用單詞,將書籍的收藏匯總為主題。然后將每本書分為5至15個最重要的主題,并估算每個主題對本書的總體貢獻。
為了比較書籍,研究人員使用了另外兩種工具:單詞嵌入(一種將單詞轉換為數(shù)字列表以反映其在常用用法中的相似性的技術)和最佳傳輸(一種用于計算移動物體或數(shù)據(jù)點的最有效方式的框架) -在多個目的地中。
單詞嵌入使利用兩次最佳傳輸成為可能:首先比較整個館藏中的主題,然后在任意兩本書中比較常見主題的重疊程度。
該技術在掃描大量書籍和冗長的文檔時效果特別好。在這項研究中,研究人員提供了弗蘭克·斯托克頓(Frank Stockton)的《大戰(zhàn)辛迪加》的例子,這是一部19世紀的美國小說,預言了核武器的興起。如果您正在尋找一本類似的書,則主題模型將有助于識別與其他書共享的主要主題,在這種情況下,它們是航海,元素和武術。
但是,僅憑主題模型并不能證明托馬斯·赫x黎(Thomas Huxley)在1863年的演講“ 有機自然的過去條件 ”是一個很好的匹配。作家是查爾斯·達爾文(Charles Darwin)進化論的擁護者,他的演講充斥著化石和沉積物,反映了關于地質學的新興思想。當赫x黎演講中的主題通過最佳傳輸方式與斯托克頓的小說相匹配時,就會出現(xiàn)一些交叉的主題:赫x黎的地理,動植物/動物主題和知識主題分別與斯托克頓的航海,元素和軍事主題密切相關。
通過書籍的代表性主題而不是單個單詞對書籍進行建模,可以進行高層比較。該研究的主要作者,IBM研究員Mikhail Yurochkin說:“如果您要求某人比較兩本書,他們會將每一本書分解為易于理解的概念,然后進行比較。”
研究表明,結果是更快,更準確的比較。研究人員在一秒鐘內(nèi)比較了古騰堡項目數(shù)據(jù)集中的1,720對書籍,這比第二好的方法快800倍。
與競爭對手的方法相比,該技術在準確地對文檔進行排序方面也做得更好,例如,按作者對古騰堡數(shù)據(jù)集中的書籍進行分組,按部門對亞馬遜上的產(chǎn)品評論以及按運動分類的BBC體育故事。在一系列可視化中,作者表明,他們的方法可以按類型整齊地對文檔進行聚類。
除了快速,準確地對文檔進行分類外,該方法還提供了進入模型決策過程的窗口。通過出現(xiàn)的主題列表,用戶可以查看模型為何推薦文檔。