Google LLC今天推出了 VideoBERT,這是一種人工智能,可以觀看視頻的一部分,并像人類一樣推斷未來幾秒鐘會(huì)發(fā)生的事情。
要使計(jì)算機(jī)具備從視覺場景中理解和得出正確結(jié)論的能力,就需要非常復(fù)雜的算法。但是,對于Google的研究人員而言,面臨的挑戰(zhàn)不是構(gòu)建算法,而是找到足夠的數(shù)據(jù)進(jìn)行訓(xùn)練。機(jī)器學(xué)習(xí)模型必須吸收大量信息才能理解甚至是基本概念,并且通常必須手動(dòng)準(zhǔn)備信息。
對于VideoBERT來說,這是不可行的,因?yàn)榻淌谀P腿绾晤A(yù)測未來事件需要更多的示例視頻,而這些視頻是Google研究人員可以手工組裝的。他們還必須為每個(gè)剪輯的每個(gè)單獨(dú)的幀編寫描述,以便AI可以跟蹤正在發(fā)生的事情。因此,團(tuán)隊(duì)提出了一個(gè)替代方案:免費(fèi)提供的教學(xué)視頻。
在顯示如何烹飪煎蛋或填充輪胎的視頻中,演示任務(wù)的人通常會(huì)在執(zhí)行任務(wù)時(shí)解釋每個(gè)步驟,并敘述了研究人員用來替代他們本應(yīng)做的逐幀描述否則為AI創(chuàng)建。該團(tuán)隊(duì)編輯了超過一百萬個(gè)剪輯,涵蓋烹飪和園藝等類別。然后,他們將他們喂給VideoBERT,以教該模型如何跟蹤常見活動(dòng)的進(jìn)度。
訓(xùn)練后,該模型被放到以前從未見過的烹飪錄像上。當(dāng)視頻片段顯示一碗面粉和可可粉的視頻片段時(shí),VideoBERT巧妙地預(yù)測到這些成分將被放入烤箱,變成布朗尼蛋糕或蛋糕。研究人員還設(shè)法利用算法的觀察技巧從視頻中提取食譜,其中廚師解釋了如何烹飪牛排。
Google開發(fā)的訓(xùn)練VideoBERT的方法最終可以在更嚴(yán)重的應(yīng)用程序中找到用處。例如,如果自動(dòng)駕駛汽車能夠準(zhǔn)確預(yù)測未來幾秒鐘內(nèi)附近的車輛的位置,它們可能會(huì)變得更加安全。對于那些在人類工人附近操作的無人機(jī)和工業(yè)機(jī)器人來說,這種遠(yuǎn)見也可能是一項(xiàng)重要資產(chǎn)。