在計算神經(jīng)網(wǎng)絡(luò)時,常規(guī)的計算機芯片已達到極限。由NVIDIA和Google等公司開發(fā)的圖形處理器和用于AI的特殊硬件功能更為強大。神經(jīng)形態(tài)芯片基本上類似于真實的神經(jīng)元,并且工作效率很高。量子計算機還可以極大地提高計算能力。
沒有人工智能,就不可能實現(xiàn)自動駕駛和自動駕駛功能。所需的計算能力由專門從事并行計算的專用芯片提供。但是研究人員也在研究新的,受生物學(xué)啟發(fā)的解決方案,以及在有望實現(xiàn)更大計算能力的量子計算機上。
幾十年來,電子技術(shù)在汽車中變得越來越普遍。如今,數(shù)十種聯(lián)網(wǎng)控制設(shè)備控制引擎,變速器,信息娛樂系統(tǒng)和許多其他功能。汽車早已成為滾動式計算中心,但如今,計算機功能的新飛躍正在等待著他們,因為自動駕駛功能和自動駕駛需要越來越強大的計算機。而且由于傳統(tǒng)的芯片無法實現(xiàn)所需的性能,因此圖形處理器,張量處理單元(TPU)和其他專門為計算神經(jīng)網(wǎng)絡(luò)而設(shè)計的硬件的時機已到。
盡管常規(guī)的CPU(中央處理單元)可以普遍使用,但它們?nèi)狈τ糜贏I的最佳架構(gòu)。這是由于在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和推理過程中發(fā)生的典型計算。“神經(jīng)網(wǎng)絡(luò)中的矩陣乘法非常復(fù)雜,”卡爾斯魯厄技術(shù)學(xué)院(KIT)Steinbuch計算中心的MarkusGötz博士解釋說。“但是這些計算非常適合并行化,尤其是圖形卡。具有24個內(nèi)核和矢量命令的高端CPU可以每個周期執(zhí)行24次4計算。配備現(xiàn)代圖形卡的顯卡已超過5,000個。”
圖形處理器(GPU,圖形處理單元)從一開始就專為并行工作而設(shè)計,并為此目的量身定制了內(nèi)部架構(gòu):GPU包含成百上千個用于整數(shù)和浮點運算的簡單計算模塊,這些模塊可以同時應(yīng)用相同的功能對不同數(shù)據(jù)進行操作(單指令多個數(shù)據(jù))。因此,它們能夠在每個時鐘周期執(zhí)行數(shù)千個計算操作-例如,計算虛擬景觀的像素或神經(jīng)網(wǎng)絡(luò)的矩陣乘法。因此,毫無疑問,GPU制造商NVIDIA的芯片目前處于理想的位置,成為一般和特別是自動駕駛中人工智能的主力軍。大眾汽車使用美國公司的硬件。保時捷工程技術(shù)軟件開發(fā)高級經(jīng)理Ralf Bauer說:“自動駕駛需要特殊的硬件。” “ GPU是起點;稍后,可能會推出專用芯片。”
NVIDIA當(dāng)前提供專門用于自動駕駛的Xavier流程。一個硅芯片配備了八個常規(guī)CPU和一個專門針對機器學(xué)習(xí)而優(yōu)化的GPU。對于2級以上的自動駕駛(有限的縱向和橫向控制以及與2級相比,基于標(biāo)準(zhǔn)傳感器的增強功能),可以使用Drive AGX Xavier平臺,該平臺每秒最多可以執(zhí)行30萬億次計算操作(30 TOPS,每秒Tera操作數(shù))。對于高度自動化和自動駕駛,NVIDIA擁有Drive AGX飛馬(320 TOPS),在沒有人為干預(yù)的情況下,測試車可以行駛至80公里,而無需經(jīng)過硅谷。作為Xavier的繼任者,NVIDIA目前正在開發(fā)Orin GPU,盡管目前對其性能數(shù)據(jù)知之甚少。
并非所有汽車制造商都使用GPU。2016年,特斯拉開始開發(fā)自己的神經(jīng)網(wǎng)絡(luò)處理器。這家美國公司自2019年初開始在其車輛中安裝FSD(全自動駕駛)芯片,而不是NVIDIA的圖形處理器。除了兩個神經(jīng)處理單元(NPU)(每個單元72個TOPS)之外,它還包含十二個用于常規(guī)計算的常規(guī)CPU內(nèi)核和用于圖像和視頻數(shù)據(jù)的后處理的GPU。像GPU這樣的NPU都是并行專用的,因此可以快速執(zhí)行加法和乘法運算。
適用于AI應(yīng)用的Google芯片
谷歌是芯片業(yè)務(wù)的又一新興市場:自2015年以來,這家技術(shù)公司一直在其數(shù)據(jù)中心中使用自主開發(fā)的TPU。該名稱來自數(shù)學(xué)術(shù)語“張量”,其中包括向量和矩陣以及其他元素。這就是Google廣泛使用的人工智能軟件庫稱為TensorFlow的原因,并且為此芯片進行了優(yōu)化。Google在2018年推出了第三代TPU,其中包含四個“矩陣乘法單元”,據(jù)說可以實現(xiàn)90 TFLOPS(每秒的每秒浮點運算)。Google的子公司W(wǎng)aymo使用TPU訓(xùn)練神經(jīng)網(wǎng)絡(luò)進行自動駕駛。
諸如Tesla的FSD或Google的TPU之類的專用芯片只有大量使用時才變得經(jīng)濟。一種替代方法是FPGA(現(xiàn)場可編程門陣列)。這些通用的數(shù)字芯片包含無數(shù)的計算和存儲塊,可以通過編程將它們相互組合在一起,并可以將算法實質(zhì)上注入到硬件中(例如使用專用芯片,但價格便宜得多)。FPGA可以輕松地適應(yīng)AI應(yīng)用程序的特定要求(例如指定的數(shù)據(jù)類型),從而在性能和能耗方面產(chǎn)生好處??偛课挥谀侥岷诘某鮿?chuàng)公司Kortiq已開發(fā)出用于FPGA的AIScale架構(gòu),
一些研究人員正在尋求與AI專用芯片的神經(jīng)細(xì)胞功能更加緊密的聯(lián)系。海德堡大學(xué)的研究人員開發(fā)了神經(jīng)形態(tài)系統(tǒng)BrainScaleS,其人工神經(jīng)元被實現(xiàn)為硅芯片上的模擬開關(guān):細(xì)胞體由大約1,000個晶體管和兩個電容器組成,突觸大約需要150個晶體管。可以將單個細(xì)胞體作為模塊組合以形成各種類型的人工神經(jīng)元。這些突觸可以像自然界中那樣形成牢固的連接,并且還具有興奮性和抑制性類型。神經(jīng)元的輸出由“尖峰”組成,持續(xù)數(shù)微秒的短電壓脈沖充當(dāng)其他人工神經(jīng)元的輸入。
能神經(jīng)芯片
但是BrainScaleS不僅用于研究人腦。技術(shù)神經(jīng)元還可以用于解決技術(shù)問題,例如自動駕駛的目標(biāo)檢測。一方面,它們提供了約200萬個神經(jīng)元的每個模塊約1萬億次運算操作(1,000 TOPS)的高計算能力。另一方面,模擬解決方案也消耗很少的能量。“例如,在數(shù)字電路中,每次操作使用大約10,000個晶體管,”海德堡大學(xué)的Johannes Schemmel解釋說。“我們的耗電量大大減少,這使我們能夠達到每瓦約100 TOPS。” 研究人員剛剛開發(fā)了第二代電路,并正在與行業(yè)合作伙伴討論可能的合作。
來自云的量子能量
將來,甚至量子計算機也可以用于AI領(lǐng)域。它們的基本單位不是二進制位,而是具有無限數(shù)量可能值的qubit。借助量子力學(xué)定律,可以使計算高度并行化,從而加速計算。同時,由于量子位由諸如電子,光子和離子之類的敏感物理系統(tǒng)表示,因此量子計算機很難實現(xiàn)。例如,IBM Q System One演示了這一點,該公司在拉斯維加斯舉行的CES 2019電子貿(mào)易展上推出了IBM Q System One。量子計算機的內(nèi)部必須嚴(yán)格屏蔽振動,電場和溫度波動。
神經(jīng)細(xì)胞和人工神經(jīng)元
神經(jīng)細(xì)胞 通過突觸接收其他神經(jīng)元發(fā)出的信號,這些突觸位于樹突上或直接位于細(xì)胞體上。突觸可具有興奮作用或抑制作用。所有輸入都在軸突崗進行匯總,如果在此過程中超過閾值,則神經(jīng)細(xì)胞會發(fā)出一個大約毫秒級的信號,該信號沿著軸突傳播并到達其他神經(jīng)元。
人工神經(jīng)元 或多或少準(zhǔn)確地模仿了這種行為。在具有多層的傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中,每個“神經(jīng)細(xì)胞”都接收加權(quán)和作為輸入。它由前一層神經(jīng)元的輸出和加權(quán)因子w i組成,其中存儲了神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)經(jīng)驗。這些加權(quán)因子對應(yīng)于突觸,也可以是興奮性的或抑制性的。像神經(jīng)細(xì)胞一樣,可配置的閾值確定何時人工神經(jīng)元觸發(fā)。
從神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)和推理
自然和人工神經(jīng)網(wǎng)絡(luò)從突觸連接強度和加權(quán)因子的變化中學(xué)習(xí)。在深度神經(jīng)網(wǎng)絡(luò)中,在訓(xùn)練過程中,將數(shù)據(jù)饋送到輸入和輸出,并與所需結(jié)果進行比較。使用數(shù)學(xué)方法, 不斷調(diào)整加權(quán)系數(shù)w ij,直到神經(jīng)網(wǎng)絡(luò)可以可靠地放置圖像(例如指定類別)。通過推論,例如,數(shù)據(jù)被饋送到輸入,而輸出則被用于決策。
在深度神經(jīng)網(wǎng)絡(luò)(具有多層人工神經(jīng)元的網(wǎng)絡(luò))的訓(xùn)練和推理中,相同的數(shù)學(xué)運算會重復(fù)發(fā)生。如果將第1層神經(jīng)元的輸出和第2層神經(jīng)元的輸入都作為列向量相加,則所有計算都可以表示為矩陣乘法。在此過程中,發(fā)生了許多相互獨立的乘法和加法,這些運算可以并行執(zhí)行。常規(guī)CPU并非為此目的而設(shè)計的-這就是圖形處理器,TPU和其他AI加速器在很大程度上優(yōu)于它們的原因。