教一臺(tái)計(jì)算機(jī)在沒有人為輸入的情況下感知世界

2019-07-24 15:30:50    來源:    作者:

人類可以看到一個(gè)物體 - 例如一把椅子 - 并且理解他們所看到的東西,即使它的某些東西發(fā)生變化,例如它的位置。另一方面,計(jì)算機(jī)無法做到這一點(diǎn)。它可以學(xué)會(huì)識(shí)別椅子,但不一定能識(shí)別不同的椅子,或者如果角度發(fā)生變化,甚至不能識(shí)別同一把椅子。

“如果我給孩子看一把椅子,他會(huì)知道它是一把椅子,如果我給他看一把不同的椅子,他仍然可以發(fā)現(xiàn)它是一把椅子,”楊明軒說,他是電氣工程和計(jì)算機(jī)的助理教授。加州大學(xué)默塞德分校的科學(xué)。“如果我將椅子的角度改變45度,外觀會(huì)有所不同,但孩子仍然可以識(shí)別它。但教電腦看東西是非常困難的。他們非常善于處理數(shù)字,但不善于推廣事物。“

楊的目標(biāo)是改變這一點(diǎn)。他正在開發(fā)計(jì)算機(jī)算法,他希望能夠使用單個(gè)攝像頭為計(jì)算機(jī)提供檢測,跟蹤和識(shí)別物體的能力,包括物品漂移,消失,重新出現(xiàn)或其他物體遮擋物體的場景。目標(biāo)是在沒有人為輸入的情況下模擬人類的認(rèn)知。

大多數(shù)人可以毫不費(fèi)力地在各種環(huán)境中定位移動(dòng)物體,因?yàn)樗麄儾粩嗍占嘘P(guān)他們看到的東西的信息,但這對(duì)計(jì)算機(jī)來說是一個(gè)挑戰(zhàn)。楊希望他正在開發(fā)的算法將使計(jì)算機(jī)能夠做同樣的事情,即不斷收集有關(guān)他們正在跟蹤的對(duì)象的信息。

“雖然不可能列舉所有可能的物體外觀變化,但可以教計(jì)算機(jī)從各種訓(xùn)練樣本中插入,從而使機(jī)器能夠感知世界,”他說。

目前,“對(duì)于計(jì)算機(jī)來說,圖像由一長串?dāng)?shù)字組成,”楊說。“如果椅子移動(dòng),這兩個(gè)圖像的數(shù)字將會(huì)非常不同。我們想要做的是從大量數(shù)據(jù)中概括所有示例,因此計(jì)算機(jī)仍然能夠識(shí)別它,即使它發(fā)生了變化。我們怎么知道什么時(shí)候有足夠的數(shù)據(jù)?我們不能涵蓋所有可能性,因此我們試圖根據(jù)其功能來定義“主席”。“

潛在地,能夠“看到”并跟蹤移動(dòng)物體的計(jì)算機(jī)可以改善視障人士的輔助技術(shù),并且還可以在醫(yī)學(xué)中應(yīng)用,例如定位和跟蹤細(xì)胞; 跟蹤昆蟲和動(dòng)物的運(yùn)動(dòng); 用于“智能”建筑的交通建模,以及改進(jìn)機(jī)器人的導(dǎo)航和監(jiān)視。

“對(duì)于視障人士來說,最重要的是深度和障礙,”楊說。“這可以幫助他們看到周圍的世界。他們不需要看得很遠(yuǎn),只是為了看看它們附近是否有障礙物,兩三英尺遠(yuǎn)。例如,計(jì)算機(jī)程序可能處于拐杖中。相機(jī)將能夠創(chuàng)建一個(gè)三維世界并給予他們反饋。計(jì)算機(jī)可以告訴他們表面不平整,所以他們會(huì)知道或感覺到他們面前的人或車。“

楊正在根據(jù)2012年獲得的國家科學(xué)基金會(huì)早期職業(yè)發(fā)展(CAREER)獎(jiǎng)項(xiàng)進(jìn)行研究。該獎(jiǎng)項(xiàng)支持初級(jí)教師通過杰出的研究,優(yōu)秀的教育和教育的整合來體現(xiàn)教師學(xué)者的作用,并在其組織的使命范圍內(nèi)進(jìn)行研究。他五年內(nèi)收到473,797美元。

Yang的項(xiàng)目還包括開發(fā)跟蹤算法代碼庫和大型數(shù)據(jù)集,這些代碼庫將公開發(fā)布。該補(bǔ)助金還提供了一個(gè)涉及本科生和研究生的教育部分,重點(diǎn)是鼓勵(lì)來自加利福尼亞中央山谷的代表性不足的少數(shù)群體學(xué)習(xí)計(jì)算機(jī)科學(xué)和相關(guān)領(lǐng)域。目標(biāo)是將計(jì)算機(jī)視覺材料整合到本科課程中,以便學(xué)生希望繼續(xù)在該領(lǐng)域?qū)W習(xí)。

此外,楊正在幫助幾名本科生設(shè)計(jì)手機(jī)視覺應(yīng)用程序,并嘗試編寫程序,使計(jì)算機(jī)能夠推斷深度和距離,以及解釋它“看到”的圖像。

“目前還不清楚人類視覺究竟是如何工作的,但解釋視覺深度感的一種方法是基于人的兩只眼睛和三角函數(shù),”他說。“通過計(jì)算點(diǎn)的幾何形狀,我們可以計(jì)算出深度。我們一直這樣做,不假思索。但對(duì)于計(jì)算機(jī)來說,這仍然很難做到。

“計(jì)算機(jī)視覺的圣杯是用圖像或視頻講故事,并讓計(jì)算機(jī)在某種程度上理解它所看到的內(nèi)容,”他補(bǔ)充道。“如果你給孩子一個(gè)形象,并讓孩子講故事,那孩子就可以做到。但是如果你要求一個(gè)計(jì)算機(jī)程序來做,現(xiàn)在它只能做一些原始的事情。一個(gè)孩子已經(jīng)具有基于圖像講述故事的認(rèn)知知識(shí),但計(jì)算機(jī)只是按原樣看待事物,但沒有任何背景信息。我們希望給計(jì)算機(jī)一些解釋,但我們還沒有。

鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請第一時(shí)間聯(lián)系我們修改或刪除,多謝。