SenseTime的AI生成逼真的Deepfake視頻

2020-01-23 15:03:11    來源:    作者:

Deepfake(一種將人帶入現(xiàn)有圖像,音頻記錄或視頻中,并用其他人的頭像代替它們的媒體)變得越來越具有說服力。在2019年末,總部位于首爾的Hyperconnect的研究人員開發(fā)了一種工具(MarioNETte),該工具可以僅使用網(wǎng)絡(luò)攝像頭和靜態(tài)圖像來操縱歷史人物,政客或CEO的面部特征。最近,來自香港科技巨頭SenseTIme,南洋理工大學(xué)和中國(guó)科學(xué)院自動(dòng)化研究所的一個(gè)團(tuán)隊(duì)提出了一個(gè)建議。一種通過獲取音頻序列以合成逼真的視頻來編輯目標(biāo)肖像素材的方法。與MarioNETte相反,SenseTime的技術(shù)是動(dòng)態(tài)的,這意味著它可以更好地處理以前從未遇到過的媒體。盡管考慮到涉及深造的最新進(jìn)展令人擔(dān)憂,但結(jié)果令人印象深刻。

SenseTime的AI生成逼真的Deepfake視頻

該研究的共同作者描述了該工作,指出“多對(duì)多”音頻到視頻翻譯的任務(wù)(即,不具有源視頻和目標(biāo)視頻的單一標(biāo)識(shí)的翻譯)是一項(xiàng)艱巨的任務(wù)。通常,只有很少數(shù)量的視頻可用于訓(xùn)練AI系統(tǒng),并且任何方法都必須應(yīng)對(duì)受試者之間較大的音頻視頻變化以及對(duì)場(chǎng)景幾何,材質(zhì),照明和動(dòng)態(tài)的知識(shí)缺乏。

為了克服這些挑戰(zhàn),團(tuán)隊(duì)的方法使用表情參數(shù)空間或與訓(xùn)練開始之前設(shè)置的面部特征相關(guān)的值作為音頻到視頻映射的目標(biāo)空間。他們說,這有助于系統(tǒng)比全像素更有效地學(xué)習(xí)映射,因?yàn)楸磉_(dá)式在語義上與音頻源更相關(guān),并且可以通過機(jī)器學(xué)習(xí)算法生成參數(shù)來進(jìn)行操作。

在研究人員的框架中,生成的表情參數(shù)(與目標(biāo)對(duì)象的幾何和姿勢(shì)參數(shù)結(jié)合)為三維面部網(wǎng)格的重建提供了相同的身份和頭部姿勢(shì),但嘴唇運(yùn)動(dòng)與源音頻音素相匹配(聲音上在感知上截然不同的單位)。一個(gè)專門的組件使音頻到表達(dá)的翻譯與源音頻的身份無關(guān),從而使翻譯對(duì)于不同的人和源音頻的聲音變化具有魯棒性。然后系統(tǒng)從人的嘴巴區(qū)域提取特征(地標(biāo))以確保精確地映射每個(gè)動(dòng)作,首先將其表示為熱圖,然后將熱圖與源視頻中的幀合并,將熱圖和幀作為輸入以完成嘴巴區(qū)域。

SenseTime的AI生成逼真的Deepfake視頻

研究人員說,在一項(xiàng)要求100名志愿者評(píng)估168個(gè)視頻剪輯的真實(shí)性的研究中,其中一半是由系統(tǒng)合成的,合成視頻的55%的時(shí)間被標(biāo)記為“真實(shí)”,而90%的時(shí)間標(biāo)記為“真實(shí)”?;臼聦?shí)。他們將此歸因于其系統(tǒng)捕獲牙齒和面部紋理細(xì)節(jié)的出色能力,以及嘴角和鼻唇溝等特征(嘴兩側(cè)的壓痕線從鼻子邊緣延伸到嘴的外角)。 。

研究人員承認(rèn),他們的系統(tǒng)可能出于“各種惡意目的”而被濫用或?yàn)E用,例如媒體操縱或“散布惡意宣傳”。作為補(bǔ)救措施,他們建議采取“保護(hù)措施”以及頒布和執(zhí)行授權(quán)編輯視頻的立法。被這樣標(biāo)記。他們寫道:“在開發(fā)創(chuàng)意和創(chuàng)新技術(shù)的最前沿,我們努力開發(fā)方法來檢測(cè)編輯的視頻,作為對(duì)策。” “我們還鼓勵(lì)公眾充當(dāng)哨兵向[當(dāng)局]報(bào)告任何看似可疑的視頻。共同努力,我們將能夠在不損害公眾個(gè)人利益的情況下推廣尖端和創(chuàng)新技術(shù)。”

不幸的是,這些提議似乎不太可能阻止像上面描述的那樣由AI產(chǎn)生的深層造假。總部位于阿姆斯特丹的網(wǎng)絡(luò)安全創(chuàng)業(yè)公司Deeptrace在6月和7月的最新統(tǒng)計(jì)中發(fā)現(xiàn)了14698個(gè)互聯(lián)網(wǎng)上的Deepfake視頻,高于去年12月的7964個(gè),在短短七個(gè)月內(nèi)增長(zhǎng)了84%。令人不安的不僅是因?yàn)樯钤旒儇浛赡軙?huì)在選舉中被用來影響公眾輿論,或者將某人卷入他們未曾犯下的罪行中,而且還因?yàn)樵摷夹g(shù)已經(jīng)產(chǎn)生了色情材料 并使 數(shù)以百萬計(jì)的公司陷于癱瘓美元。

SenseTime的AI生成逼真的Deepfake視頻

為了對(duì)抗深造的傳播,F(xiàn)acebook –以及Amazon Web Services(AWS),微軟,人工智能合作伙伴關(guān)系以及康奈爾科技大學(xué)的學(xué)者;麻省理工學(xué)院 牛津大學(xué) 加州大學(xué)伯克利分校 馬里蘭大學(xué)學(xué)院公園分校; 和紐約州立大學(xué)奧爾巴尼分校—共同領(lǐng)導(dǎo)了9月宣布的Deepfake檢測(cè)挑戰(zhàn)賽。該挑戰(zhàn)于12月啟動(dòng),是在與Google內(nèi)部技術(shù)孵化器Jigsaw合作生產(chǎn)的大型可視化深層假冒發(fā)布之后,該軟件包被并入了基準(zhǔn),可供研究人員免費(fèi)用于合成視頻檢測(cè)系統(tǒng)開發(fā)。在今年早些時(shí)候,Google公開了一系列語音數(shù)據(jù) 包含公司的文本語音轉(zhuǎn)換模型說出的短語,作為AVspoof 2019競(jìng)賽的一部分,以開發(fā)可以區(qū)分真實(shí)語音和計(jì)算機(jī)生成語音的系統(tǒng)。

伴隨著這些努力,F(xiàn)acebook,Twitter和其他在線平臺(tái)已承諾實(shí)施有關(guān)處理AI操縱的媒體的新規(guī)則。

鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除,多謝。