卡托琳·賈穆爾(Katharine Jarmul)在2018年Goto Berlin大會上指出,輸入清理可以通過過濾掉不太可能的輸入,然后將其過濾掉,從而幫助我們。我們需要開始考慮將模型和放入其中的培訓(xùn)數(shù)據(jù)視為潛在的安全漏洞。
數(shù)據(jù)科學(xué)家,O'Reilly的作者,KIProtect的聯(lián)合創(chuàng)始人Katharine Jarmul在2018年柏林柏林國際Going大會上談到了如何保護(hù)人工智能。InfoQ將通過問答,摘要和文章涵蓋本次會議。InfoQ采訪了Jarmul,介紹了如何愚弄AI應(yīng)用程序,創(chuàng)建健壯且安全的神經(jīng)網(wǎng)絡(luò)以及減輕數(shù)據(jù)隱私和道德數(shù)據(jù)風(fēng)險。
關(guān)于如何基于神經(jīng)網(wǎng)絡(luò)的模型如何對抗對抗性示例以及這些方法將在多大程度上取得成功,已有許多積極的研究。我認(rèn)為,最有趣和可行的方法之一是輸入清理。我們可以認(rèn)為該模型接受任何輸入,無論該輸入多么不切實際或不可能。對抗示例經(jīng)常使用的是創(chuàng)建幾乎不可能的輸入(在較暗色塊中間為亮橙色的像素),并使用這些輸入增加不確定性或更改模型的決策。當(dāng)我們想到許多不同類型的模型中的對抗性示例時,諸如輸入清理之類的諸如輸入之前的特征壓縮或其他降維等方法可能是最實用,可擴(kuò)展的方法。
就是說,我在GOTO所說的只是處理對抗性圖像或示例之外的一兩個步驟,因為我認(rèn)為我們在機(jī)器學(xué)習(xí)中的主要關(guān)注點不是對抗性示例-而是隱私和數(shù)據(jù)安全性問題。從機(jī)器學(xué)習(xí)模型中提取信息相對容易,并且我們正在將更多模型部署到生產(chǎn)系統(tǒng)中,在這些系統(tǒng)中,它們接觸外部互聯(lián)網(wǎng)并向潛在的對手開放。當(dāng)我們使用個人或敏感數(shù)據(jù)訓(xùn)練模型,然后將其API向其他人開放時,我會將其與將您的數(shù)據(jù)庫打開到互聯(lián)網(wǎng)進(jìn)行比較。我們需要開始考慮將模型和我們放入模型中的訓(xùn)練數(shù)據(jù)視為潛在的安全漏洞。關(guān)于這些提取方法已經(jīng)進(jìn)行了積極的研究,利用置信度信息的模型反轉(zhuǎn)攻擊和基本對策)以及Reza Shokri教授關(guān)于成員推斷攻擊的獲獎?wù)撐?,該論文展示了如何以高精度確定數(shù)據(jù)點是否是訓(xùn)練數(shù)據(jù)集的一部分。保護(hù)送入機(jī)器學(xué)習(xí)模型的數(shù)據(jù)是我的公司KIProtect致力于的工作之一-即,我們?nèi)绾问箶?shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的安全性和隱私性變得更容易。
當(dāng)我們將私有或敏感數(shù)據(jù)放入機(jī)器學(xué)習(xí)模型時,我們正在要求模型學(xué)習(xí)其中的一些數(shù)據(jù),并將其用于以后的決策。這些數(shù)據(jù)的元素實際上將存儲在模型中-意味著可以像從嵌入文檔中那樣提取這些元素。攻擊者可以利用這種信息暴露來學(xué)習(xí)訓(xùn)練數(shù)據(jù)或模型決策過程-將私有數(shù)據(jù)或敏感邏輯暴露給可以訪問模型或模型API的任何人。因此,作為個人,這意味著如果將我的個人信息或數(shù)據(jù)用于創(chuàng)建模型,尤其是保留較大信息(例如某些神經(jīng)網(wǎng)絡(luò))的模型,則可以使用該模型來提取關(guān)于我的信息。模型已創(chuàng)建。
由于越來越多的公司正在使用機(jī)器學(xué)習(xí)和MLaaS,因此我認(rèn)為,作為消費者,我們應(yīng)該擔(dān)心擁有個人數(shù)據(jù)或關(guān)于我們的數(shù)據(jù)以及我們的行為在公開可用的模型中的潛在隱私和安全風(fēng)險。作為機(jī)器學(xué)習(xí)的從業(yè)者,我們需要越來越關(guān)注模型的基本安全措施,并確定模型中已經(jīng)暴露了多少敏感信息。如果將這些因素納入我們的評估標(biāo)準(zhǔn),我們有望在模型成功與隱私問題之間找到一個很好的平衡。在KIProtect,我們已經(jīng)使用ML模型評估了我們的假名化過程,對于在受保護(hù)的數(shù)據(jù)上訓(xùn)練的機(jī)器學(xué)習(xí)模型,其準(zhǔn)確性僅下降了很小的一部分(1-2%);所以我們認(rèn)為這不僅是可能的。