MLPerf聯(lián)盟的第一個(gè)基準(zhǔn)測(cè)試結(jié)果已經(jīng)發(fā)布,Nvidia顯然是推理性能的贏家。
對(duì)于那些不知道的人,推理采用了深度學(xué)習(xí)模型并處理傳入的數(shù)據(jù),但是經(jīng)過了訓(xùn)練。
MLPerf是一個(gè)聯(lián)盟,旨在為推理性能提供“公平且有用的”標(biāo)準(zhǔn)化基準(zhǔn)。可以將MLPerf視為推斷SPEC在基準(zhǔn)CPU和總體系統(tǒng)性能方面所做的工作。
該聯(lián)盟已經(jīng)發(fā)布了首個(gè)基準(zhǔn)測(cè)試結(jié)果,這是一項(xiàng)艱苦的工作,涉及30多家公司以及200多名工程師和從業(yè)人員。MLPerf的首次征集征集活動(dòng)導(dǎo)致對(duì)14個(gè)公司和44個(gè)系統(tǒng)進(jìn)行了600多次測(cè)量。
但是,對(duì)于數(shù)據(jù)中心推斷,只有四個(gè)處理器在商業(yè)上可用:
英特爾至強(qiáng)P9282
哈瓦那·戈雅(Habana Goya)
谷歌TPUv3
Nvidia圖靈
Nvidia毫不猶豫地在服務(wù)器和離線情況下?lián)魯「鞣N神經(jīng)網(wǎng)絡(luò)中的其他三個(gè)處理器擊敗其他三個(gè)處理器:
在ImageNet ResNet-50 v1.6脫機(jī)方案中,最主要的參與者和初創(chuàng)公司提交的結(jié)果最多,因此可以進(jìn)行最簡(jiǎn)單的直接比較。
在這種情況下,英偉達(dá)再次憑借其Titan RTX GPU在每個(gè)處理器上擁有最佳性能。盡管使用8個(gè)Intel Skylake處理器提交了2倍的Google Cloud TPU v3-8,但其性能卻與使用4枚Titan RTX卡的SCAN 3XS DBP T496X2 Fluid相似(65,431.40 vs. 66,250.40輸入/秒)。
NVIDIA總經(jīng)理兼加速計(jì)算副總裁Ian Buck說:
“人工智能正處于轉(zhuǎn)折點(diǎn),因?yàn)樗褟难芯垦杆龠w移到針對(duì)實(shí)際應(yīng)用的大規(guī)模部署。
AI推理是一個(gè)巨大的計(jì)算挑戰(zhàn)。NVIDIA將業(yè)界最先進(jìn)的可編程加速器,CUDA-X AI算法套件以及我們?cè)贏I計(jì)算方面的深厚專業(yè)知識(shí)相結(jié)合,可以幫助數(shù)據(jù)中心部署龐大且不斷增長(zhǎng)的復(fù)雜AI模型。”
但是,值得注意的是,Titan RTX不支持ECC內(nèi)存,因此盡管具有出色的性能,但這種遺漏可能會(huì)阻止它在某些數(shù)據(jù)中心中的使用。
將Cloud TPU結(jié)果與Nvidia進(jìn)行比較時(shí),另一個(gè)有趣的收獲是從脫機(jī)到服務(wù)器方案的性能差異。
離線Google Cloud TPU v3:32,716.00
Google Cloud TPU v3服務(wù)器:16,014.29
Nvidia SCAN 3XS DBP T496X2離線流體:66,250.40
Nvidia SCAN 3XS DBP T496X2流體服務(wù)器:60,030.57
如您所見,在服務(wù)器方案中使用時(shí),Cloud TPU系統(tǒng)性能降低了一半以上。相比之下,SCAN 3XS DBP T496X2流體系統(tǒng)性能僅下降約10%。