谷歌利用本地化敘事增強(qiáng)了開(kāi)放圖像數(shù)據(jù)集以推進(jìn)人工智能

2020-03-19 16:57:26    來(lái)源:    作者:

Google LLC今天推出了新版本的Open Images(其用于人工智能研究的照片數(shù)據(jù)集),其中添加了數(shù)百萬(wàn)個(gè)其他數(shù)據(jù)點(diǎn),并提供了一個(gè)被稱為“本地化敘事”的功能,旨在幫助學(xué)術(shù)項(xiàng)目。

谷歌利用本地化敘事增強(qiáng)了開(kāi)放圖像數(shù)據(jù)集以推進(jìn)人工智能

Open Images于2016年首次發(fā)布,其中包含900萬(wàn)張帶有描述性標(biāo)簽的照片。此類數(shù)據(jù)集在AI生態(tài)系統(tǒng)中起著重要作用。研究人員使用它們來(lái)開(kāi)發(fā)用于目標(biāo)識(shí)別和自動(dòng)駕駛等任務(wù)的新型機(jī)器學(xué)習(xí)模型。

除了提供可免費(fèi)使用的照片外,Open Images還包含數(shù)百萬(wàn)條對(duì)AI培訓(xùn)有價(jià)值的注釋。未經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)無(wú)法自行識(shí)別照片中的對(duì)象,因此需要諸如注釋之類的元數(shù)據(jù)來(lái)了解屏幕上的內(nèi)容。元數(shù)據(jù)越詳細(xì),AI可以學(xué)習(xí)的越好。

今天發(fā)布的新版本的“開(kāi)放圖像”增加了2350萬(wàn)張“照片級(jí)”標(biāo)簽,這些標(biāo)簽已經(jīng)過(guò)人類驗(yàn)證,可以對(duì)圖像中發(fā)生的事情提供一般描述。該數(shù)據(jù)庫(kù)現(xiàn)在總共有5990萬(wàn)個(gè)這樣的標(biāo)簽。Google還添加了更多情境注釋,包括250萬(wàn)個(gè)用于描述照片中人物所執(zhí)行動(dòng)作的標(biāo)簽,以及另外391,000個(gè)用于描述對(duì)象之間關(guān)系的標(biāo)簽。

但是,主要亮點(diǎn)是Google的本地化敘述。這些是搜索巨頭開(kāi)發(fā)的一種新型注釋,它希望AI模型能夠比舊的注釋方法收集更多有關(guān)圖像的信息。

谷歌利用本地化敘事增強(qiáng)了開(kāi)放圖像數(shù)據(jù)集以推進(jìn)人工智能

Google通過(guò)讓人類注釋者將鼠標(biāo)懸停在照片中的每個(gè)對(duì)象上并使用自己的文字進(jìn)行描述來(lái)生成本地化的敘事。然后將光標(biāo)移動(dòng)的記錄與自然語(yǔ)言描述配對(duì),以便每個(gè)單詞都可以與其所應(yīng)用的對(duì)象相關(guān)聯(lián)。谷歌說(shuō),這種方法將使AI模型在Open Images數(shù)據(jù)集上進(jìn)行訓(xùn)練時(shí)可以更有效地學(xué)習(xí)。

“為了了解這些本地化敘述所代表的更多數(shù)據(jù)量,鼠標(biāo)軌跡的總長(zhǎng)度約為6400公里,如果不停地大聲朗讀,所有敘述都將花費(fèi)約1.5年的時(shí)間來(lái)聆聽(tīng),” Google研究科學(xué)家Jordi Pont-Tuset在博客文章中進(jìn)行了詳細(xì)介紹。

谷歌利用本地化敘事增強(qiáng)了開(kāi)放圖像數(shù)據(jù)集以推進(jìn)人工智能

到目前為止,Google已經(jīng)為約500,000個(gè)Open Images文件創(chuàng)建了本地化的敘述。Pont-Tuset寫道,此次更新代表著“在改善圖像分類,物體檢測(cè),視覺(jué)關(guān)系檢測(cè)和實(shí)例分割的統(tǒng)一注釋方面,邁出了重要的定性和定量步驟。” “我們希望Open Images V6能夠進(jìn)一步刺激人們對(duì)真實(shí)場(chǎng)景的理解。”

鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除,多謝。