由于自然語言處理(NLP)的進(jìn)步,公司和組織越來越多地使用AI算法來執(zhí)行與文本相關(guān)的任務(wù),例如過濾垃圾郵件,分析社交媒體帖子和在線評(píng)論的情緒,評(píng)估簡歷和檢測假新聞。
但是,我們可以相信這些算法能夠可靠地執(zhí)行任務(wù)嗎?IBM,亞馬遜和德克薩斯大學(xué)的新研究證明,使用正確的工具,惡意行為者可以攻擊文本分類算法并以潛在的惡意方式操縱他們的行為。
今天在斯坦福大學(xué)舉行的SysML AI大會(huì)上展示的這項(xiàng)研究著眼于“釋義”攻擊,這一過程涉及修改輸入文本,以便在不改變其實(shí)際意義的情況下通過AI算法對(duì)其進(jìn)行不同的分類。
要了解釋義攻擊是如何工作的,請(qǐng)考慮使用AI算法來評(píng)估電子郵件的文本并將其歸類為“垃圾郵件”或“非垃圾郵件”。復(fù)述攻擊會(huì)修改垃圾郵件的內(nèi)容,以便AI對(duì)其進(jìn)行分類因?yàn)?ldquo;不是垃圾郵件”。同時(shí),對(duì)于人類讀者來說,被篡改的信息與原始信息具有相同的含義。
針對(duì)文本模型的對(duì)抗性攻擊的挑戰(zhàn)
在過去幾年中,一些 研究小組 已經(jīng)探討了對(duì)抗性攻擊的各個(gè)方面,輸入修改旨在使AI算法對(duì)圖像和音頻樣本進(jìn)行錯(cuò)誤分類,同時(shí)保留其原始外觀和聲音給人眼和耳朵。釋義攻擊是相當(dāng)于這些的文本。攻擊文本模型比篡改計(jì)算機(jī)視覺和音頻識(shí)別算法要困難得多。
“對(duì)于音頻和圖像,你有完全的差異性,” 人工智能研究員兼語言模型專家Stephen Merity說。例如,在圖像分類算法中,您可以逐漸更改像素的顏色,并觀察這些修改如何影響模型的輸出。這可以幫助研究人員找到模型中的漏洞。
“文本傳統(tǒng)上難以攻擊。這是離散的。你不能說我想要在這句話中多加10%的'dog'這個(gè)詞。你要么有'狗'這個(gè)詞,要么把它拿出來。而且你無法有效地在模型中搜索漏洞,“Merity說。“我的想法是,你能聰明地找出機(jī)器易受攻擊的地方,并在那個(gè)特定的地方輕推它嗎?”
“對(duì)于圖像和音頻,做對(duì)抗性擾動(dòng)是有意義的。對(duì)于文本來說,即使你對(duì)摘錄做了一些小改動(dòng) - 比如一兩句話 - 它也可能無法順利讀給人類,“IBM的研究員兼今天發(fā)表的研究論文的共同作者Pin-Yu Chen說。
創(chuàng)建釋義的例子
過去關(guān)于對(duì)文本模型的對(duì)抗性攻擊的工作涉及改變句子中的單個(gè)單詞。雖然這種方法成功地改變了AI算法的輸出,但它經(jīng)常導(dǎo)致修改后的句子聽起來是人為的。陳和他的同事們不僅關(guān)注改變?cè)~語,而且還關(guān)注改寫句子和以有意義的方式改變更長的序列。
“我們正在解釋單詞和句子。這通過創(chuàng)建在語義上與目標(biāo)句子類似的序列來為攻擊提供更大的空間。然后我們看看模型是否將它們歸類為原始句子,“陳說。
研究人員開發(fā)了一種算法,可以在句子中找到可以操縱NLP模型行為的最佳變化。“主要的限制是確保文本的修改版本在語義上與原始版本相似。我們開發(fā)了一種算法,可以在非常大的空間中搜索單詞和句子,這些修改將對(duì)AI模型的輸出產(chǎn)生最大的影響。在該空間中找到最佳對(duì)抗性示例非常耗時(shí)。該算法具有計(jì)算效率,并且提供了理論上的保證,它是您可以找到的最佳搜索,“IBM研究院的科學(xué)家,該論文的另一位合著者Lingfei Wu說。
在他們的論文中,研究人員提供了改變情緒分析算法,假新聞檢測器和垃圾郵件過濾器行為的修改示例。例如,在產(chǎn)品評(píng)論中,通過簡單地交換句子“定價(jià)也比那里的一些大牌集團(tuán)便宜”,“價(jià)格比下面的一些大牌更便宜”,評(píng)論的情緒是從100%正面變?yōu)?00%負(fù)面。
人類無法看到釋義攻擊
釋義攻擊成功的關(guān)鍵在于它們是人類難以察覺的,因?yàn)樗鼈儽A袅嗽嘉谋镜恼Z境和意義。
“我們將原始段落和修改后的段落給了人類評(píng)估員,他們很難看到意義上的差異。但對(duì)于機(jī)器而言,它完全不同,“吳說。
Merity指出,釋義攻擊不需要與人類完全一致,特別是當(dāng)他們沒有預(yù)料到機(jī)器人篡改文本時(shí)。“人類不是嘗試檢測這類攻擊的正確級(jí)別,因?yàn)樗鼈兠刻於紩?huì)處理錯(cuò)誤的輸入。除了對(duì)我們來說,錯(cuò)誤的輸入只是來自真人的不連貫的句子,“他說。“當(dāng)人們現(xiàn)在看到拼寫錯(cuò)誤時(shí),他們認(rèn)為這不是一個(gè)安全問題。但在不久的將來,它可能是我們必須應(yīng)對(duì)的。“
Merity還指出,釋義和對(duì)抗性攻擊將引發(fā)安全風(fēng)險(xiǎn)的新趨勢。“許多科技公司依靠自動(dòng)化決策對(duì)內(nèi)容進(jìn)行分類,實(shí)際上并沒有涉及人與人之間的互動(dòng)。這使得該過程容易受到此類攻擊,“Merity說。“它將與數(shù)據(jù)泄露同時(shí)發(fā)生,除了我們將發(fā)現(xiàn)邏輯漏洞。”
例如,一個(gè)人可能會(huì)欺騙仇恨言語分類器來批準(zhǔn)他們的內(nèi)容,或利用簡歷處理模型中的釋義漏洞將他們的工作申請(qǐng)推送到列表的頂部。
“這些類型的問題將成為一個(gè)新的安全時(shí)代,我擔(dān)心公司將花費(fèi)與安全性一樣少,因?yàn)樗麄儗W⒂谧詣?dòng)化和可擴(kuò)展性,”Merity警告說。
充分利用技術(shù)
研究人員還發(fā)現(xiàn),通過逆轉(zhuǎn)釋義攻擊,他們可以構(gòu)建更健壯,更準(zhǔn)確的模型。
在生成模型錯(cuò)誤分類的釋義句子之后,開發(fā)人員可以使用修改后的句子及其正確的標(biāo)簽來重新訓(xùn)練他們的模型。這將使模型更能抵御釋義攻擊。它還將使它們更準(zhǔn)確并概括其功能。
“這是我們?cè)谶@個(gè)項(xiàng)目中的驚人發(fā)現(xiàn)之一。最初,我們從穩(wěn)健的角度開始。但我們發(fā)現(xiàn)這種方法不僅可以提高穩(wěn)健性,還可以提高普遍性,“吳說。“如果不是攻擊,你只考慮增強(qiáng)模型的最佳方法,釋義是一種非常好的泛化工具,可以提高模型的能力。”
研究人員在對(duì)抗訓(xùn)練之前和之后測試了不同的單詞和句子模型,并且在所有情況下,他們都經(jīng)歷了性能和抗攻擊的穩(wěn)健性方面的改進(jìn)。