自從人工智能誕生以來,研究人員一直試圖通過讓機(jī)器與人類玩游戲來測(cè)試機(jī)器系統(tǒng)的智能。人們通常認(rèn)為,人類智慧的標(biāo)志之一是能夠創(chuàng)造性地思考,考慮各種可能性并在制定短期決策時(shí)牢記長(zhǎng)期目標(biāo)。如果計(jì)算機(jī)可以像人類一樣玩困難的游戲,那么它們肯定可以處理更復(fù)雜的任務(wù)。從1950年代開發(fā)的具有早期跳棋功能的機(jī)器人到如今具有深層學(xué)習(xí)能力的機(jī)器人,在象棋,圍棋和DOTA等游戲中甚至可以擊敗世界上最好的玩家,可以找到謎題解決方案的機(jī)器的想法早已古老。 AI本身,如果還不算老的話。
因此,組織開發(fā)的AI的核心模式之一就是目標(biāo)驅(qū)動(dòng)的系統(tǒng)模式,這是有道理的。像其他AI模式一樣,我們看到這種形式的人工智能用于解決一系列常見問題,這些問題原本需要人類的認(rèn)知能力。在這種特定模式下,機(jī)器要解決的挑戰(zhàn)是找到問題的最佳解決方案的需求。問題可能是找到穿過迷宮的路徑,優(yōu)化供應(yīng)鏈或優(yōu)化駕駛路線和空閑時(shí)間。無論有什么特殊需求,我們?cè)谶@里尋找的力量都是通過反復(fù)試驗(yàn)來學(xué)習(xí),并確定解決問題的最佳方法的想法,即使這不是最顯而易見的。
通過反復(fù)試驗(yàn)加強(qiáng)學(xué)習(xí)
增強(qiáng)學(xué)習(xí)是最有趣但使用最少的機(jī)器學(xué)習(xí)形式之一。 與監(jiān)督學(xué)習(xí)的方法(其中機(jī)器通過人為訓(xùn)練,具有良好標(biāo)簽的數(shù)據(jù)進(jìn)行培訓(xùn)來學(xué)習(xí))或無監(jiān)督的學(xué)習(xí)方法(其中機(jī)器嘗試通過發(fā)現(xiàn)信息集群和其他分組來學(xué)習(xí))不同,強(qiáng)化學(xué)習(xí)嘗試通過嘗試性學(xué)習(xí)來學(xué)習(xí)。錯(cuò)誤,使用環(huán)境反饋和總體目??標(biāo)來迭代成功。
在不使用AI的情況下,組織依靠人類來創(chuàng)建基于程序和基于規(guī)則的系統(tǒng),以指導(dǎo)軟件和硬件系統(tǒng)如何操作。如果計(jì)劃和規(guī)則在管理資金,員工,時(shí)間和其他資源方面可能有些有效,那么它們就會(huì)變得脆弱而僵化。這些系統(tǒng)僅與人類制定的規(guī)則一樣強(qiáng)大,并且機(jī)器根本沒有真正在學(xué)習(xí)。而是將人的智力納入規(guī)則中才能使系統(tǒng)正常工作。
另一方面,目標(biāo)學(xué)習(xí)型AI系統(tǒng)只有很少的規(guī)則,需要通過迭代來學(xué)習(xí)該系統(tǒng)如何獨(dú)立工作。這樣,AI可以完全優(yōu)化整個(gè)系統(tǒng),而不必依賴于人類設(shè)定的易碎規(guī)則。目標(biāo)驅(qū)動(dòng)的系統(tǒng)已證明其價(jià)值,表明系統(tǒng)找到解決挑戰(zhàn)性問題的“隱藏規(guī)則”的超強(qiáng)能力。在必須進(jìn)行資源優(yōu)化的領(lǐng)域中,由目標(biāo)驅(qū)動(dòng)的系統(tǒng)多么有用就不足為奇了。
AI可以有效地用于場(chǎng)景模擬和資源優(yōu)化。通過將這種通用方法應(yīng)用于學(xué)習(xí),可以將支持AI的系統(tǒng)設(shè)置為優(yōu)化特定目標(biāo)或方案,并找到許多解決方案,其中一些對(duì)于他們更具創(chuàng)造力的人類同行甚至都不是很明顯。這樣,盡管目標(biāo)驅(qū)動(dòng)的系統(tǒng)模式?jīng)]有像其他模式(例如識(shí)別,預(yù)測(cè)性分析或?qū)υ捘J?那樣被廣泛實(shí)施,但在廣泛的行業(yè)中潛力卻是巨大的。
在金融領(lǐng)域,基于強(qiáng)化學(xué)習(xí)的目標(biāo)驅(qū)動(dòng)系統(tǒng)正在用于“機(jī)器人咨詢”等用例,“機(jī)器人咨詢”利用學(xué)習(xí)來識(shí)別可滿足個(gè)人特定需求的儲(chǔ)蓄和投資計(jì)劃。目標(biāo)驅(qū)動(dòng)系統(tǒng)模式的其他應(yīng)用已用于交通信號(hào)燈系統(tǒng)的控制中,從而找到了控制交通信號(hào)燈而不引起中斷的最佳方法。供應(yīng)鏈和物流行業(yè)的其他用途是尋找包裝和交付貨物的最佳方法。進(jìn)一步的用途包括幫助訓(xùn)練物理機(jī)器人,創(chuàng)建使機(jī)器人可以運(yùn)行和跳躍的機(jī)制和算法。
目標(biāo)驅(qū)動(dòng)系統(tǒng)甚至被用于電子商務(wù)和廣告中,以找到商品的最佳價(jià)格并自動(dòng)進(jìn)行廣告空間的出價(jià)。目標(biāo)驅(qū)動(dòng)系統(tǒng)甚至在制藥行業(yè)中用于執(zhí)行蛋白質(zhì)折疊和發(fā)現(xiàn)疾病的新方法和創(chuàng)新方法。這些系統(tǒng)能夠選擇最佳的試劑和反應(yīng)參數(shù),以獲得所需的產(chǎn)品,從而使其成為復(fù)雜而精致的藥物或治療過程中的資產(chǎn)。
目標(biāo)驅(qū)動(dòng)的系統(tǒng)模式是人工智能(AGI)的關(guān)鍵嗎?
通過反復(fù)試驗(yàn)學(xué)習(xí)的想法很有效,并且可以應(yīng)用于任何問題。值得一提的是,DeepMind是一家將機(jī)器變成現(xiàn)實(shí)的組織,該組織可以解決一臺(tái)曾經(jīng)被人類打敗的機(jī)器而無法解決的問題,該組織認(rèn)為,強(qiáng)化學(xué)習(xí)型目標(biāo)驅(qū)動(dòng)系統(tǒng)可能是解鎖機(jī)器人最終目標(biāo)的關(guān)鍵。一臺(tái)可以學(xué)到任何東西并完成任何任務(wù)的機(jī)器。“一般情報(bào)”的概念就像人類的大腦一樣。人工智能(AGI)不再像今天所有現(xiàn)實(shí)世界AI系統(tǒng)那樣專注于狹窄的單一學(xué)習(xí)任務(wù),而是可以學(xué)習(xí)任何任務(wù)并將學(xué)習(xí)從一個(gè)領(lǐng)域應(yīng)用于另一個(gè)領(lǐng)域,而無需進(jìn)行大量的重新培訓(xùn)。
深心,該公司在英國(guó)成立,并于2014年被Google收購(gòu),旨在通過突破目標(biāo)驅(qū)動(dòng)系統(tǒng)和其他AI模式的能力界限,解決一些最復(fù)雜的機(jī)器智能問題。從專門為學(xué)習(xí)如何與人類對(duì)手玩Go游戲而專門設(shè)計(jì)的AlphaGo開始,該公司迅速擴(kuò)展了AlphaZero,后者可以從頭開始學(xué)習(xí)任何游戲。以前需要AlphaGo花費(fèi)幾個(gè)月的時(shí)間來學(xué)習(xí),現(xiàn)在AlphaZero可以使用增強(qiáng)型學(xué)習(xí)在短短幾天內(nèi)完成。從零開始,以提高勝率的唯一目標(biāo),AlphaZero在所有100款測(cè)試游戲中均勝過AlphaGo。AlphaZero通過簡(jiǎn)單地對(duì)自己玩游戲并通過反復(fù)試驗(yàn)來實(shí)現(xiàn)這一目標(biāo)。通過這種簡(jiǎn)單的方法,通用學(xué)習(xí)系統(tǒng)不僅能夠創(chuàng)建模式,而且本質(zhì)上可以為提供給它的任何輸入設(shè)計(jì)最佳條件和結(jié)果??梢灶A(yù)見,這成為DeepMind的最高榮耀,也是AI行業(yè)的圣杯。
自然,就像技術(shù)行業(yè)中的人們經(jīng)常使用新技術(shù)一樣,他們將想法轉(zhuǎn)向可能的實(shí)際應(yīng)用。AlphaZero是利用當(dāng)時(shí)可用的最佳技術(shù)創(chuàng)建的,例如機(jī)器學(xué)習(xí)和應(yīng)用其他領(lǐng)域,例如神經(jīng)科學(xué)和行為心理學(xué)研究。這些技術(shù)被用于強(qiáng)大的通用學(xué)習(xí)算法的開發(fā)中,也許我們距離AGI研究的真正突破可能還需要幾年的時(shí)間。
人工智能行業(yè)在機(jī)器學(xué)習(xí)研究方面處于一個(gè)十字路口。當(dāng)今使用最廣泛的算法正在解決重要但相對(duì)簡(jiǎn)單的問題。盡管機(jī)器已經(jīng)證明了它們能夠識(shí)別圖像,理解語音,查找模式,發(fā)現(xiàn)異常并做出預(yù)測(cè)的能力,但它們?nèi)砸蕾囉谟?xùn)練數(shù)據(jù)和狹窄的學(xué)習(xí)任務(wù)來以任何精確度完成任務(wù)。在這種情況下,機(jī)器學(xué)習(xí)非常耗費(fèi)數(shù)據(jù),并且計(jì)算量很大。如果您有足夠復(fù)雜的學(xué)習(xí)任務(wù),則可能需要PB或更多的訓(xùn)練數(shù)據(jù),數(shù)十萬美元的GPU密集型計(jì)算以及數(shù)月的訓(xùn)練。顯然,僅靠暴力手段無法解決AGI。
目標(biāo)驅(qū)動(dòng)的系統(tǒng)模式雖然今天已成為七個(gè)模式中最少實(shí)施的模式之一,但它可能是掌握數(shù)據(jù)和計(jì)算密集型知識(shí)的關(guān)鍵。目標(biāo)驅(qū)動(dòng)的系統(tǒng)越來越多地在具有實(shí)際用例的項(xiàng)目中實(shí)施。因此,由于其潛在的前景,它是最有趣的模式之一。