半導(dǎo)體是數(shù)字時(shí)代的基礎(chǔ)技術(shù)。它給硅谷起了個(gè)名字。它是過去半個(gè)世紀(jì)改變了社會(huì)各個(gè)方面的計(jì)算機(jī)革命的核心。
自從英特爾在1971年推出世界上第一個(gè)微處理器以來,計(jì)算能力的提高步伐令人嘆為觀止,而且不懈。根據(jù)摩爾定律,當(dāng)今的計(jì)算機(jī)芯片比50年前的功能強(qiáng)大了數(shù)百萬倍。
然而,盡管數(shù)十年來處理能力飛速增長(zhǎng),但直到最近,計(jì)算機(jī)芯片的基本體系結(jié)構(gòu)仍基本上保持靜態(tài)。在大多數(shù)情況下,硅的創(chuàng)新需要進(jìn)一步使晶體管小型化,以便將更多晶體管壓縮到集成電路中。幾十年來,英特爾和AMD等公司通過可靠地提高CPU性能而取得了長(zhǎng)足發(fā)展,克萊頓·克里斯滕森(Clayton Christensen)將其視為“持續(xù)創(chuàng)新”。
今天,這種情況正在以戲劇性的方式改變。AI迎來了半導(dǎo)體創(chuàng)新的新黃金時(shí)代。數(shù)十年來,機(jī)器學(xué)習(xí)的獨(dú)特需求和無限的機(jī)會(huì)第一次激發(fā)了企業(yè)家重新思考和重新思考芯片架構(gòu)的最基本原則。
他們的目標(biāo)是設(shè)計(jì)一種專為AI設(shè)計(jì)的新型芯片,它將為下一代計(jì)算提供動(dòng)力。它是當(dāng)今所有硬件中最大的市場(chǎng)機(jī)會(huì)之一。
在計(jì)算的大部分歷史中,主要的芯片體系結(jié)構(gòu)一直是CPU或中央處理器。如今,CPU無處不在:它們?yōu)楣P記本電腦,移動(dòng)設(shè)備和大多數(shù)數(shù)據(jù)中心供電。
1945年,傳奇的約翰·馮·諾伊曼(John von Neumann )設(shè)計(jì)了 CPU的基本體系結(jié)構(gòu)。值得注意的是,此后其設(shè)計(jì)基本上保持不變:今天生產(chǎn)的大多數(shù)計(jì)算機(jī)仍是馮·諾依曼機(jī)器。
CPU在用例中的優(yōu)勢(shì)是其靈活性的結(jié)果:CPU是通用計(jì)算機(jī),能夠有效執(zhí)行軟件所需的任何計(jì)算。但是,盡管CPU的主要優(yōu)勢(shì)是多功能性,但是當(dāng)今領(lǐng)先的AI技術(shù)需要非常特殊且密集的一組計(jì)算。
深度學(xué)習(xí)需要迭代執(zhí)行數(shù)百萬或數(shù)十億個(gè)相對(duì)簡(jiǎn)單的乘法和加法步驟。在接地的線性代數(shù),深學(xué)習(xí)是根本試錯(cuò)誤基于:參數(shù)微調(diào),矩陣相乘,和附圖被求和一遍一遍整個(gè)神經(jīng)網(wǎng)絡(luò)作為模型逐漸本身優(yōu)化。
這種重復(fù)的,計(jì)算量大的工作流程對(duì)硬件體系結(jié)構(gòu)具有一些重要意義。并行化(處理器能夠同時(shí)而不是一個(gè)接一個(gè)地執(zhí)行許多計(jì)算的能力)變得至關(guān)重要。與此相關(guān)的是,由于深度學(xué)習(xí)涉及大量數(shù)據(jù)的連續(xù)轉(zhuǎn)換,因此將芯片的內(nèi)存和計(jì)算核心盡可能靠近地放置,可以通過減少數(shù)據(jù)移動(dòng)來獲得巨大的速度和效率。
CPU 配備不足以支持機(jī)器學(xué)習(xí)的獨(dú)特需求。CPU按順序而不是并行地處理計(jì)算。它們的計(jì)算核心和內(nèi)存通常位于單獨(dú)的模塊上,并通過帶寬受限的通信系統(tǒng)(總線)連接。這在數(shù)據(jù)移動(dòng)中產(chǎn)生了瓶頸,稱為“馮·諾依曼瓶頸”。結(jié)果:在CPU上訓(xùn)練神經(jīng)網(wǎng)絡(luò)效率極低。
鑒于普遍的機(jī)器學(xué)習(xí)應(yīng)用在整個(gè)社會(huì)中正變得越來越普遍,傳統(tǒng)芯片無法處理現(xiàn)代AI算法變得更加重要。正如AI偉大的Yann LeCun最近說的那樣:“如果您走到未來的五,十年,您會(huì)發(fā)現(xiàn)計(jì)算機(jī)大部分時(shí)間都花在做什么上,我認(rèn)為他們會(huì)做深度學(xué)習(xí)之類的事情。”
至此,推動(dòng)AI繁榮的芯片是GPU(圖形處理單元)。GPU架構(gòu)是Nvidia在1990年代后期為游戲應(yīng)用發(fā)明的。為了以高幀速率渲染計(jì)算機(jī)游戲的詳細(xì)圖形,GPU專門用于連續(xù)處理大量數(shù)據(jù)。與CPU不同,GPU可以并行完成數(shù)千個(gè)計(jì)算。
在2010年代初,AI社區(qū)開始意識(shí)到 Nvidia的游戲芯片實(shí)際上非常適合處理機(jī)器學(xué)習(xí)算法所需的工作負(fù)載類型。通過巨大的運(yùn)氣,GPU找到了巨大的新市場(chǎng)。Nvidia抓住機(jī)遇,將自己定位為AI硬件市場(chǎng)領(lǐng)先的提供商。結(jié)果,該公司收獲了驚人的收益:從2013年到2018年,英偉達(dá)的市值躍升了 20倍。
然而,正如Gartner分析師馬克·洪(Mark Hung)所說,“每個(gè)人都同意GPU并非針對(duì)AI工作負(fù)載進(jìn)行了優(yōu)化。” GPU已被AI社區(qū)采用,但它并非為AI而生。
近年來,一大批企業(yè)家和技術(shù)人員開始重新構(gòu)想計(jì)算機(jī)芯片,從頭開始對(duì)其進(jìn)行優(yōu)化,以釋放AI的無限潛力。用艾倫·凱(Alan Kay)令人難忘的話來說:“真正認(rèn)真對(duì)待軟件的人們應(yīng)該自己制造硬件。”
在過去的24個(gè)月中,出現(xiàn)了五只AI芯片獨(dú)角獸。令人eye目結(jié)舌的估值吸引了更多新貴。隨著傳統(tǒng)CPU的在職者試圖避免中斷,僅英特爾一家就完成了這一類別的兩項(xiàng)重大收購:Nervana Systems(2016年4月以4.08億美元收購)和Habana Labs(2019年12月以20億美元收購)。在未來幾年中,隨著這場(chǎng)競(jìng)賽的進(jìn)行,將有數(shù)千億美元的企業(yè)價(jià)值被爭(zhēng)奪。
下一個(gè)英特爾?
巨大的市場(chǎng)機(jī)會(huì)和藍(lán)天技術(shù)的挑戰(zhàn)相結(jié)合,激發(fā)了寒武紀(jì)創(chuàng)造出驚人的創(chuàng)意-有時(shí)是驚人的-設(shè)計(jì)理想的AI芯片的方法。
新一代AI芯片初創(chuàng)企業(yè)中最引人注目的就是Cerebras Systems。簡(jiǎn)單地說,Cerebras的大膽方法是制造有史以來最大的芯片。最近該公司的價(jià)值為$ 1.7B,該公司已從包括Benchmark和Sequoia在內(nèi)的頂級(jí)投資者籌集了$ 200M。
Cerebras芯片的規(guī)格令人難以置信。它比典型的微處理器大60倍左右。它是歷史上第一個(gè)容納超過1萬億個(gè)晶體管(準(zhǔn)確地說是1.2萬億個(gè))的芯片。它的片上內(nèi)存為18 GB,這是有史以來最多的。
將所有計(jì)算能力打包到單個(gè)硅基板上可帶來誘人的好處:數(shù)據(jù)傳輸效率大大提高,內(nèi)存與處理并置,大規(guī)模并行化。但是,要輕描淡寫,工程上的挑戰(zhàn)是荒謬的。幾十年來,制造晶圓級(jí)芯片一直是半導(dǎo)體行業(yè)夢(mèng)ho以求的夢(mèng)想,但從未實(shí)現(xiàn)。
Cerebras首席執(zhí)行官安德魯·費(fèi)爾德曼(Andrew Feldman)說: “每個(gè)規(guī)則,每個(gè)工具和每個(gè)制造設(shè)備都是為正常尺寸的巧克力曲奇設(shè)計(jì)的,我們提供了整個(gè)曲奇紙大小的產(chǎn)品。” “方法的每一步,我們都必須發(fā)明。”
Cerebras的AI芯片已經(jīng)投入商業(yè)使用:就在上周,阿貢國家實(shí)驗(yàn)室(Argonne National Laboratory)宣布將使用Cerebras的芯片來幫助對(duì)抗冠狀病毒。
另一家采用全新的芯片設(shè)計(jì)新方法的公司是基于灣區(qū)的Groq。與Cerebras相比,Groq的芯片專注于推理,而不是模型訓(xùn)練。創(chuàng)始團(tuán)隊(duì)擁有世界一流的領(lǐng)域?qū)I(yè)知識(shí):Groq的團(tuán)隊(duì)包括Google TPU項(xiàng)目的十個(gè)原始成員中的八個(gè),這是迄今為止最成功的AI芯片工作之一。
Groq顛覆了業(yè)界的傳統(tǒng)常識(shí),正在構(gòu)建批量大小為1的芯片,這意味著它可以一次處理一個(gè)數(shù)據(jù)樣本。據(jù)該公司稱,這種架構(gòu)幾乎可以實(shí)現(xiàn)瞬時(shí)推斷(對(duì)于諸如自動(dòng)駕駛汽車等對(duì)時(shí)間敏感的應(yīng)用程序至關(guān)重要),而無需犧牲性能。Groq的芯片很大程度上是軟件定義的,從而使其具有獨(dú)特的靈活性和永不過時(shí)的特性。
該公司最近宣布其芯片達(dá)到每秒1萬億次運(yùn)算的速度。如果為真,這將使其成為歷史上最快的單芯片芯片。
也許沒有一家公司比Lightmatter具有更出色的技術(shù)愿景。由光子學(xué)專家創(chuàng)立,總部位于波士頓的Lightmatter尋求構(gòu)建一種AI微處理器,該微處理器不是由電信號(hào)而是由光束驅(qū)動(dòng)的。該公司已從GV,Spark Capital和Matrix Partners籌集了3,300萬美元,以實(shí)現(xiàn)這一愿景。據(jù)該公司稱,光的獨(dú)特性能將使其芯片性能比現(xiàn)有解決方案高十倍。
此類別中還有許多其他玩家值得關(guān)注。兩家中國公司Horizo??n Robotics和Cambricon Technologies各自以更高的估值籌集了比其他任何競(jìng)爭(zhēng)對(duì)手都更多的資金。帕洛阿爾托的SambaNova Systems 資金雄厚,技術(shù)精湛。盡管有關(guān)SambaNova計(jì)劃的細(xì)節(jié)仍然很少,但其技術(shù)似乎特別適合于自然語言處理。其他值得注意的初創(chuàng)公司包括Graphcore,Wave Computing,Blaize,Mythic和Kneron。
幾家科技巨頭已經(jīng)開始自己的內(nèi)部努力來開發(fā)專用AI芯片。這些程序中最成熟的是上面提到的Google的Tensor處理單元(TPU)。像往常一樣,在技術(shù)曲線之前,谷歌于2015年開始研發(fā)TPU。最近,亞馬遜宣布其Inferentia AI芯片在2019年12月大張旗鼓地發(fā)布。特斯拉,F(xiàn)acebook和阿里巴巴以及其他技術(shù)巨頭都在參與其中。內(nèi)部AI芯片程序。
結(jié)論
爭(zhēng)相開發(fā)將為即將到來的AI時(shí)代提供動(dòng)力的硬件的競(jìng)賽正在進(jìn)行中。自硅谷成立以來,如今的半導(dǎo)體行業(yè)正在發(fā)生比以往任何時(shí)候都更多的創(chuàng)新。不可估量的數(shù)十億美元正在發(fā)揮作用。
下一代芯片將在未來幾年中塑造人工智能領(lǐng)域的輪廓和軌跡。用Yann LeCun 的話來說:“硬件功能...激勵(lì)并限制AI研究人員將想象并允許自己追求的想法類型。我們可以使用的工具比我們?cè)敢獬姓J(rèn)的更能塑造我們的思想。”