Mira,這臺 10 PB觸發(fā)器 IBM Blue Gene / Q超級計算機(jī)于2012年在美國能源部(DOE)的阿貢國家實(shí)驗(yàn)室 首次啟動,將于今年年底退役。
當(dāng)一位珍貴而受人尊敬的同事快退休時,同事們會為自己的辛勤工作和勤奮工作所取得的成就和成就彰顯自己的情感。事實(shí)證明,對于達(dá)到使用壽命極限的超級計算機(jī)而言,情況同樣如此。
Mira,這臺 10 PB觸發(fā)器 IBM Blue Gene / Q超級計算機(jī)于2012年在美國能源部(DOE)的阿貢國家實(shí)驗(yàn)室 首次啟動,將于今年年底退役。它的工作跨越了七年多,交付了 39年。60 億個核心小時,涉及 800多個 項(xiàng)目,解決了從藥理學(xué)到天體物理學(xué)等科學(xué)領(lǐng)域近乎棘手的問題。
“米拉肯定會被錯過,”阿貢領(lǐng)導(dǎo)計算設(shè)施(主管Michael Papka說ALCF),一個 美國能源部 科學(xué)辦公室用戶的設(shè)施,房屋米拉。“服務(wù)作為我們的主力超級多年,米拉是心愛 ALCF 用戶社區(qū)以及我們的應(yīng)對大科學(xué)問題,以及其卓越的可靠性能力的員工。”
領(lǐng)導(dǎo)級別的超級計算機(jī)是Argonne在IBM Blue Gene體系結(jié)構(gòu)系列中的第三個也是最后一個系統(tǒng),該系統(tǒng) 始于實(shí)驗(yàn)室5的部署 。2005年推出了7 teraflop的Blue Gene / L機(jī)器 。緊隨其后的是Intrepid,這是一款 557兆位觸發(fā)器的 IBM Blue Gene / P系統(tǒng),從2008年 到2013 年為 科學(xué)計算社區(qū)服務(wù) 。當(dāng)Mira在 2012年上線時,當(dāng)時只有 20歲 是Intrepid的三倍,因此為研究人員提供了一種工具,使人們有可能以前所未有的規(guī)模進(jìn)行仿真,并創(chuàng)建更精確的模型,從內(nèi)燃機(jī)到血流的一切。
米拉仍可用于開放科學(xué)中最強(qiáng)大的系統(tǒng)中,坐在數(shù) 22 最近在 TOP 500 是世界上最快的超級計算機(jī)名單。當(dāng)Mira首次發(fā)布時,它被列為第三快的系統(tǒng),并榮登“綠色500強(qiáng)” 榜單,該榜單認(rèn)可了世界上最節(jié)能的超級計算機(jī)。它還是Graph 500 列表中排名第三的系統(tǒng),該方法 側(cè)重于超級計算機(jī)處理數(shù)據(jù)密集型應(yīng)用程序的能力。
使Mira如此高效和節(jié)能的必要進(jìn)步之一包括直接用裝有水的管道冷卻機(jī)器,而不是將空氣吹到切屑上。“水冷卻更快地讓您有機(jī)會從芯片帶走大量的熱量更比空氣冷卻,”蘇珊·科格倫說 ALCF 項(xiàng)目總監(jiān)誰領(lǐng)導(dǎo)米拉的開發(fā)和部署在阿貢。
為了使Mira能夠解決可能最具挑戰(zhàn)性的問題,其設(shè)計師需要重新考慮超級計算機(jī)的外觀。以前的超級計算機(jī)都是用功能越來越強(qiáng)大的處理器構(gòu)建的,但是最終工程師限制了每個內(nèi)核中可以容納多少個晶體管。答案是以IBM Blue Gene體系結(jié)構(gòu)的形式出現(xiàn)的,該 體系最終產(chǎn)生了Mira,并在單個節(jié)點(diǎn)上安裝了16個內(nèi)核。
“ Mira是Blue Gene多核架構(gòu)產(chǎn)品線的巔峰之作,它提供了前所未有的強(qiáng)大功能和可靠性,” Coghlan說。
Mira的近50個,000個 節(jié)點(diǎn)中的每個 節(jié)點(diǎn)都像神經(jīng)細(xì)胞一樣起作用,以光速將信息通過光纖電纜傳遞到機(jī)器的其他部分。以最佳配置組織這些連接以減少計算機(jī)不同部分交換信息所花費(fèi)的時間,這是設(shè)計超級計算機(jī)的一項(xiàng)基本挑戰(zhàn)。
“是什么使米拉因此在解決這些復(fù)雜的科學(xué)挑戰(zhàn)非常有效的一個重要組成部分是機(jī)器是如何有效地能夠在其節(jié)點(diǎn)進(jìn)行通信,”格利揚(yáng)(庫馬爾)庫馬蘭,在技術(shù)總監(jiān)說 ALCF。“即使在不同的模擬,在系統(tǒng)的不同部分同時運(yùn)行,米拉能夠通過隔離流量為每個作業(yè)以消除通信的干擾。”
Mira的光纖網(wǎng)絡(luò)幾何結(jié)構(gòu)稱為互連,可以像州際公路系統(tǒng)一樣路由來自每個節(jié)點(diǎn)的信號。互連的復(fù)雜性是由于引入了額外的尺寸而導(dǎo)致的,這些尺寸會縮小信號需要覆蓋的總空間。Blue Gene架構(gòu)的早期版本具有更簡單的互連,但是Mira的確是一項(xiàng)成就。根據(jù)ALCF科學(xué)總監(jiān)Katherine Riley的 說法,當(dāng)前沒有現(xiàn)成的技術(shù)可以替代Mira的互連并具有競爭力。
從某種意義上說,Mira互連的獨(dú)特拓?fù)浣Y(jié)構(gòu)將使其難以被提供大量純計算能力的未來系統(tǒng)取代。“七年后,大多數(shù)時候人們是完全準(zhǔn)備好進(jìn)入到下一個平臺,因?yàn)樗鼤谧龈鞣N各樣的科學(xué)家們希望解決的問題,以便更有效,”萊利說。“但坦率地說,這不是與米拉的情況下-這是一個令人難以置信的強(qiáng)大,有競爭力的制度,即使它沒有那么大的計算,其效果是如此之好,這將是積極地使用,直到最后一分鐘。”
Mira的另一個顯著方面是研究人員的數(shù)量和種類繁多,他們能夠利用需要使用其所有節(jié)點(diǎn)的大規(guī)模仿真來利用系統(tǒng)的全部計算能力。在Mira的整個生命周期中,ALCF 用戶已經(jīng)在Mira上 進(jìn)行了700多次 全機(jī)運(yùn)行,研究范圍從宇宙學(xué)到材料科學(xué)。
“許多超級計算機(jī)通常在一生中就只運(yùn)行一次完整的機(jī)器運(yùn)行,以后再也不會運(yùn)行,但是我們的用戶經(jīng)常在Mira上運(yùn)行它們,” ALCF的運(yùn)營總監(jiān)Mark Fahey說 。“那米拉能夠處理定期這些全機(jī)工作的事實(shí)證明了其卓越的可靠性。在其他大型系統(tǒng)上,通常在全機(jī)運(yùn)行期間少數(shù)處理器出現(xiàn)故障或宕機(jī),這可能會阻止用戶首先嘗試使用它們。”
當(dāng)米拉被退役,阿貢國家實(shí)驗(yàn)室的現(xiàn)任領(lǐng)導(dǎo)級的超級計算機(jī),西塔,將作為該實(shí)驗(yàn)室的主要系統(tǒng)為開放式科學(xué)到即將推出的百億億次機(jī),極光,在到達(dá) 2021。
盡管ALCF 用戶和員工都會錯過Mira ,但即使關(guān)閉電源,該系統(tǒng)仍將對科學(xué)產(chǎn)生持久影響。從大規(guī)模的實(shí)驗(yàn)設(shè)施研究和宇宙學(xué)調(diào)查到加速新材料和候選藥物的發(fā)現(xiàn),Mira開展了許多突破性的研究,這些研究將科學(xué)的界限推向了各個學(xué)科。
一臺機(jī)器“一在十億次”模擬
七年來,Mira被用于處理從微小到宇宙的科學(xué)問題。瑞士大型強(qiáng)子對撞機(jī)(LHC)的科學(xué)家們花費(fèi)了數(shù)年的時間從??他們的實(shí)驗(yàn)中生成許多PB的粒子碰撞數(shù)據(jù),而回到Argonne的研究人員一直在Mira上進(jìn)行模擬,以測試亞原子宇宙的不同模型如何符合觀測結(jié)果。
“以前,我們有很多努力在像Mira這樣的超級計算機(jī)上運(yùn)行代碼之前就遇到了很多麻煩,其中包括檢測模擬中非常罕見的事件,”曾擔(dān)任ATLAS 實(shí)驗(yàn)物理協(xié)調(diào)員的Argonne高能物理學(xué)家Tom LeCompte說。 在 LHC。“在模擬中,非同尋常的事件迅速類似普通的事件,所以你必須通過很多很多看似平常的事件排序找到他們。”
網(wǎng)格計算(用于高能物理應(yīng)用的超級計算的前身)的掙扎在于,它一次只能容納這么多的碰撞,因此某些模型提出的模擬事件無法記錄,而實(shí)際上卻不存在。
LeCompte說:“有了Mira,看到正在發(fā)生的事情就變得容易多了-您會發(fā)現(xiàn)自己并沒有真正遇到過失敗,看到這些十億分之一的事件實(shí)在是罕見得多。” “如果你正在尋找一個‘黑天鵝’,你不得不看更多的白天鵝與黑天鵝出現(xiàn)前的能力。”
然后,將模擬中的這些黑天鵝事件用于驗(yàn)證或無效由理論和實(shí)驗(yàn)產(chǎn)生的數(shù)據(jù)。Mira使粒子物理學(xué)家能夠快速運(yùn)行整個模型,以確定它們?nèi)绾螣o法真正描繪出現(xiàn)實(shí)。
大型強(qiáng)子 對撞機(jī) 每年大約發(fā)表 150篇論文 ,其中一半用于尋找新的物理學(xué)。“作為實(shí)驗(yàn)者,我們可以做的是使用在米拉產(chǎn)生地說,這些事件“這一理論可能是正確的,這個其他的理論是不正確的,這第三個理論是正確的一組特定的參數(shù),” LeCompte說。“我們真的可以測試數(shù)據(jù)和理論的協(xié)議,因?yàn)槲覀兞私獾谋尘氨纫郧拔覀冮_始尋找米拉好得多。”
盡管迄今為止還沒有任何模型能夠完全代表實(shí)驗(yàn)中看到的所有物理學(xué),但Mira仍在幫助科學(xué)家發(fā)展更好的理論。“雖然這本來是很好的挑選贏家馬上蝙蝠,米拉使我們能夠改進(jìn)我們的假設(shè),我們的模型,以更接近一個更準(zhǔn)確的解決方案,”勒孔特說。“我們既產(chǎn)生更高的沖突數(shù)量和較高質(zhì)量的碰撞比我們以前都做過。”
Mira的其他直接優(yōu)勢之一在于,可以很容易地將最初為網(wǎng)格計算應(yīng)用程序編寫的代碼修改為可在超級計算機(jī)上工作。“這是真的,我們怎么能做出這樣的運(yùn)行,以做最好的科學(xué),我們不是可以使代碼運(yùn)行在所有的問題較多,”勒孔特說。
從某種意義上說,Mira使具有特定領(lǐng)域?qū)I(yè)知識的科學(xué)家能夠按照他們熟悉的方式解決計算問題,而不必僅僅為了啟動和運(yùn)行而解決大量其他計算機(jī)科學(xué)難題。“我是一個物理學(xué)家,而不是計算機(jī)科學(xué)家,米拉是第一個機(jī)器,通常是可供選擇,讓我想想就像一個物理學(xué)家的問題,”勒孔特說。
隨著Mira使用壽命的結(jié)束,LeCompte反映出該機(jī)器已成功解決了其設(shè)計所面臨的所有挑戰(zhàn)。“大部分可以與需要解決的問題 10 -petaflop計算機(jī)已經(jīng)解決,”他說。“現(xiàn)在是時候讓那些需要的問題, 1000 -petaflop電腦。”
這些問題將涉及大型強(qiáng)子對撞機(jī)的大量附加數(shù)據(jù) (可能多達(dá)10 到 20倍) ,據(jù)LeCompte稱,這將為新科學(xué)打開更多機(jī)會。