谷歌利用本地化敘事增強(qiáng)了開(kāi)放圖像數(shù)據(jù)集以推進(jìn)人工智能

2020-03-19 16:57:26 來(lái)源：作者：

Google LLC今天推出了新版本的Open Images(其用于人工智能研究的照片數(shù)據(jù)集)，其中添加了數(shù)百萬(wàn)個(gè)其他數(shù)據(jù)點(diǎn)，并提供了一個(gè)被稱為“本地化敘事”的功能，旨在幫助學(xué)術(shù)項(xiàng)目。

Open Images于2016年首次發(fā)布，其中包含900萬(wàn)張帶有描述性標(biāo)簽的照片。此類數(shù)據(jù)集在AI生態(tài)系統(tǒng)中起著重要作用。研究人員使用它們來(lái)開(kāi)發(fā)用于目標(biāo)識(shí)別和自動(dòng)駕駛等任務(wù)的新型機(jī)器學(xué)習(xí)模型。

除了提供可免費(fèi)使用的照片外，Open Images還包含數(shù)百萬(wàn)條對(duì)AI培訓(xùn)有價(jià)值的注釋。未經(jīng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)無(wú)法自行識(shí)別照片中的對(duì)象，因此需要諸如注釋之類的元數(shù)據(jù)來(lái)了解屏幕上的內(nèi)容。元數(shù)據(jù)越詳細(xì)，AI可以學(xué)習(xí)的越好。

今天發(fā)布的新版本的“開(kāi)放圖像”增加了2350萬(wàn)張“照片級(jí)”標(biāo)簽，這些標(biāo)簽已經(jīng)過(guò)人類驗(yàn)證，可以對(duì)圖像中發(fā)生的事情提供一般描述。該數(shù)據(jù)庫(kù)現(xiàn)在總共有5990萬(wàn)個(gè)這樣的標(biāo)簽。Google還添加了更多情境注釋，包括250萬(wàn)個(gè)用于描述照片中人物所執(zhí)行動(dòng)作的標(biāo)簽，以及另外391,000個(gè)用于描述對(duì)象之間關(guān)系的標(biāo)簽。

但是，主要亮點(diǎn)是Google的本地化敘述。這些是搜索巨頭開(kāi)發(fā)的一種新型注釋，它希望AI模型能夠比舊的注釋方法收集更多有關(guān)圖像的信息。

谷歌利用本地化敘事增強(qiáng)了開(kāi)放圖像數(shù)據(jù)集以推進(jìn)人工智能

Google通過(guò)讓人類注釋者將鼠標(biāo)懸停在照片中的每個(gè)對(duì)象上并使用自己的文字進(jìn)行描述來(lái)生成本地化的敘事。然后將光標(biāo)移動(dòng)的記錄與自然語(yǔ)言描述配對(duì)，以便每個(gè)單詞都可以與其所應(yīng)用的對(duì)象相關(guān)聯(lián)。谷歌說(shuō)，這種方法將使AI模型在Open Images數(shù)據(jù)集上進(jìn)行訓(xùn)練時(shí)可以更有效地學(xué)習(xí)。

“為了了解這些本地化敘述所代表的更多數(shù)據(jù)量，鼠標(biāo)軌跡的總長(zhǎng)度約為6400公里，如果不停地大聲朗讀，所有敘述都將花費(fèi)約1.5年的時(shí)間來(lái)聆聽(tīng)，” Google研究科學(xué)家Jordi Pont-Tuset在博客文章中進(jìn)行了詳細(xì)介紹。

谷歌利用本地化敘事增強(qiáng)了開(kāi)放圖像數(shù)據(jù)集以推進(jìn)人工智能

到目前為止，Google已經(jīng)為約500,000個(gè)Open Images文件創(chuàng)建了本地化的敘述。Pont-Tuset寫道，此次更新代表著“在改善圖像分類，物體檢測(cè)，視覺(jué)關(guān)系檢測(cè)和實(shí)例分割的統(tǒng)一注釋方面，邁出了重要的定性和定量步驟。” “我們希望Open Images V6能夠進(jìn)一步刺激人們對(duì)真實(shí)場(chǎng)景的理解。”

鄭重聲明：本文版權(quán)歸原作者所有，轉(zhuǎn)載文章僅為傳播更多信息之目的，如作者信息標(biāo)記有誤，請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除，多謝。