Meta昨(24)日宣布正在打造全球最快AI超級(jí)電腦,志在用以訓(xùn)練數(shù)兆參數(shù)的大型模型,加速實(shí)現(xiàn)元宇宙(metaverse)愿景。
名為AI Research SuperCluster(RSC)的超級(jí)電腦預(yù)計(jì)2022年中打造完成。Meta執(zhí)行長(zhǎng)Mark Zuckerberg表示目前RSC是全球運(yùn)行中最快AI超級(jí)電腦之一,但等建造完成時(shí)將成為全球最快。
目前Meta研究人員已經(jīng)用RSC來(lái)訓(xùn)練自然語(yǔ)言處理(NLP)及電腦視覺(jué)(computer vision)研究使用的大型模型。他們希望RSC未來(lái)可以處理數(shù)兆參數(shù)的模型。
Meta表示由于有些實(shí)驗(yàn)要進(jìn)行好幾個(gè)星期,且涉及數(shù)千個(gè)GPU,因此RSC架構(gòu)必須極穩(wěn)定,此外又必須好操作以支援研究人員進(jìn)行各種AI模型的訓(xùn)練。
RSC由數(shù)個(gè)運(yùn)算節(jié)點(diǎn)組成,并以高速網(wǎng)絡(luò)串連而成。Meta表示RSC目前已包含760個(gè)Nvidia DGX A100系統(tǒng)節(jié)點(diǎn),總和達(dá)6,080顆GPU。和Meta現(xiàn)有訓(xùn)練系統(tǒng)相較,早期標(biāo)竿測(cè)試顯示RSC的電腦視覺(jué)作業(yè)運(yùn)算速度提升20倍,執(zhí)行Nvidia Collective Communication Library(NCCL)的速度快9倍有余,而訓(xùn)練大型NLP模型的效能則提升3倍。這表示一個(gè)擁有數(shù)百億參數(shù)的模型訓(xùn)練完成時(shí)間,可以從過(guò)去的9個(gè)星期縮短為3周。
其他規(guī)格方面,RSC每座DGX節(jié)點(diǎn)透過(guò)Nvidia Quantum 1600 Gb/s InfiniBand 二層Clos網(wǎng)絡(luò)架構(gòu)串連,以減少網(wǎng)絡(luò)超載(oversubscription)問(wèn)題。RSC儲(chǔ)存系統(tǒng)將采用175 PB的Pure Storage FlashArray、46 PB的Penguin Altus快取儲(chǔ)存及10 PB Pure Storage FlashBlade。
等年中打造完成時(shí),RSC將搭載1.6萬(wàn)顆GPU,而混合精度運(yùn)算(mixed precision compute)效能達(dá)到將近5 Exaflops,使其成為全球最快超級(jí)電腦AI。RSC的快取及儲(chǔ)存系統(tǒng)設(shè)計(jì),未來(lái)計(jì)畫可提供16TB/s頻寬及1 Exabyte儲(chǔ)存容量。
目前RSC已經(jīng)和去年5月美國(guó)國(guó)家能源研究科學(xué)計(jì)算中心(National Energy Research Scientific Computing Center,NERSC)揭示的勞倫斯伯克利國(guó)家實(shí)驗(yàn)室的AI超級(jí)電腦Perlmutter相當(dāng),后者采用了6,159顆Nvidia A100 GPU。
HPCwire估計(jì),據(jù)現(xiàn)行Top500超級(jí)電腦排名,Meta RSC第一階段約為第4名,完成后浮點(diǎn)運(yùn)算速度約為227 petaflop/s,可望躍居全球第2快。