當(dāng)AI大模型參數(shù)邁向萬億級,萬卡乃至十萬卡級智算集群成為行業(yè)標(biāo)配,網(wǎng)絡(luò)通信不再是簡單的數(shù)據(jù)通道,而是決定算力效率的核心大動脈。
3月12日,中科曙光(603019)正式發(fā)布首款全棧自研400G無損高速網(wǎng)絡(luò)——scaleFabric,實(shí)現(xiàn)國產(chǎn)高端原生RDMA技術(shù)重大突破,一舉填補(bǔ)國內(nèi)超大規(guī)模智算互聯(lián)領(lǐng)域的空白。
這款從底層芯片到上層軟件100%自主研發(fā)的產(chǎn)品,不僅性能比肩國際頂尖水平,更讓中國智算產(chǎn)業(yè)擺脫了高端高速網(wǎng)絡(luò)的“卡脖子”困境,為國家算力基礎(chǔ)設(shè)施安全筑牢了技術(shù)根基。
網(wǎng)絡(luò)成智算互聯(lián)致命短板
AI大模型的飛速發(fā)展,讓智算集群的規(guī)模不斷突破,萬卡級已成主流,十萬卡級成為未來發(fā)展方向。但一個殘酷的現(xiàn)實(shí)是,大規(guī)模分布式訓(xùn)練中,網(wǎng)絡(luò)通信耗時占比已達(dá)到30-50%,網(wǎng)絡(luò)性能直接決定了算力系統(tǒng)的實(shí)際效能。
“計算決定了計算系統(tǒng)性能的上限,但是如果網(wǎng)絡(luò)系統(tǒng)拉垮的話,有可能會把整個性能下限歸零?!?span>中科曙光(603019)高級副總裁李斌在發(fā)布會中直言,從邊緣計算到AI大模型訓(xùn)練,行業(yè)對網(wǎng)絡(luò)的要求愈發(fā)苛刻,網(wǎng)絡(luò)已成為大規(guī)模智算集群的核心關(guān)鍵。
更嚴(yán)峻的是,高端智算集群必需的RDMA(遠(yuǎn)程直接內(nèi)存訪問)網(wǎng)絡(luò)技術(shù),長期被海外廠商牢牢壟斷。作為當(dāng)前全球頂級超算與AI集群的主流選擇,InfiniBand網(wǎng)絡(luò)(IB網(wǎng)絡(luò))憑借低時延與原生無損傳輸能力占據(jù)全球約60%的高性能計算系統(tǒng)市場,但從高速SerDes IP、核心芯片到IB網(wǎng)卡、IB交換機(jī),整條產(chǎn)業(yè)鏈基本被海外企業(yè)掌控。2020年邁絡(luò)思被英偉達(dá)(NVDA)收購后,國內(nèi)市場更是面臨供貨受限、成本高昂、維保困難的三重壓力,中國的計算產(chǎn)業(yè)發(fā)展,已經(jīng)感受到了網(wǎng)絡(luò)‘卡脖子’的危機(jī)。
與此同時,國內(nèi)現(xiàn)有替代方案均存在明顯短板。傳統(tǒng)以太網(wǎng)完全無法滿足低延遲、真無損的智算需求;基于以太網(wǎng)嫁接RDMA技術(shù)的RoCE網(wǎng)絡(luò),不僅帶寬低、時延高,還存在運(yùn)維復(fù)雜、大規(guī)模組網(wǎng)能力弱的問題,且核心網(wǎng)卡仍依賴英偉達(dá)(NVDA)CX系列,國產(chǎn)化程度嚴(yán)重不足。
中國工程院院士鄔賀銓指出,高速網(wǎng)絡(luò)作為算力基礎(chǔ)設(shè)施的核心關(guān)鍵技術(shù),其自主可控性直接關(guān)系到國家算力基礎(chǔ)設(shè)施的安全與發(fā)展質(zhì)量。在大模型訓(xùn)練和智算集群規(guī)?;渴鸨尘跋?,網(wǎng)絡(luò)需要同時具備超低延遲、超高帶寬與無損傳輸能力,而RDMA高速網(wǎng)絡(luò)正是智算集群的“算力大動脈”。
全棧自研造“算力大動脈”,性能對標(biāo)國際頂尖
面對行業(yè)困局,中科曙光(603019)歷時三年研發(fā),終于打造出scaleFabric這款國產(chǎn)原生無損RDMA高速網(wǎng)絡(luò)產(chǎn)品,實(shí)現(xiàn)了從底層112G SerDes IP、交換芯片、網(wǎng)卡到交換機(jī)、驅(qū)動與管理軟件的全棧自研,構(gòu)建起完整的自主技術(shù)體系。
“我們最開始做的時候,也沒有那么多信心能達(dá)到IB的水平,這個過程確實(shí)經(jīng)歷了很多艱辛,最核心的鏈路技術(shù)終于在國家的支持下做成了?!?span>中科曙光(603019)高速網(wǎng)絡(luò)互聯(lián)產(chǎn)品部總工程師萬偉向記者道出了研發(fā)背后的挑戰(zhàn)。
而這份艱辛,最終換來了比肩甚至趕超國際頂尖水平的硬核性能。在核心指標(biāo)上,scaleFabric展現(xiàn)出強(qiáng)大的技術(shù)實(shí)力:scaleFabric400網(wǎng)卡基于PCIe5.0接口,端口帶寬達(dá)400Gbps,端到端通信時延低至0.9微秒,這和英偉達(dá)(NVDA)CX7在同一個水平線上。
穩(wěn)定性與擴(kuò)展性的突破,更是直擊行業(yè)痛點(diǎn)。該產(chǎn)品采用基于信用的無損流控機(jī)制,從根源規(guī)避擁塞丟包風(fēng)險,搭配自研的112G SerDes IP,實(shí)現(xiàn)了業(yè)內(nèi)領(lǐng)先的驅(qū)動能力,為鏈路穩(wěn)定性筑牢基礎(chǔ);鏈路故障恢復(fù)時間小于1毫秒,“時延不會隨著網(wǎng)絡(luò)規(guī)模的增長而增長,保障應(yīng)用無感?!比f偉表示。
目前,scaleFabric已支撐近萬卡集群持續(xù)穩(wěn)定運(yùn)行驗(yàn)證超10個月,在國家超算互聯(lián)網(wǎng)鄭州核心節(jié)點(diǎn),更是支撐三套萬卡級scaleX智算集群上線運(yùn)行,總規(guī)模達(dá)3萬卡,完成了國產(chǎn)最大規(guī)模的真實(shí)負(fù)載驗(yàn)證。
在組網(wǎng)能力與成本上,scaleFabric單子網(wǎng)互連規(guī)??蛇_(dá)11.4萬卡,是傳統(tǒng)IB的2.33倍,“能輕松支持十萬卡級集群部署,而從萬卡到十萬卡的突破,最核心的技術(shù)正是來自互聯(lián)系統(tǒng)?!崩畋髲?qiáng)調(diào);同時,相比國外同類產(chǎn)品,scaleFabric的網(wǎng)絡(luò)總成本可降低30%,在實(shí)現(xiàn)高性能的同時,大幅提升了產(chǎn)品的市場性價比。
三重賦能,夯實(shí)智算自主底座
scaleFabric的發(fā)布,不僅是一款產(chǎn)品的技術(shù)突破,更是我國智算產(chǎn)業(yè)在高端高速網(wǎng)絡(luò)領(lǐng)域的里程碑事件,為行業(yè)發(fā)展帶來三重核心賦能,更推動了國產(chǎn)智算生態(tài)的重構(gòu)。
一是補(bǔ)齊產(chǎn)業(yè)短板,筑牢國家算力安全防線。作為國內(nèi)首款原生無損RDMA高速網(wǎng)絡(luò),scaleFabric打破了海外廠商在高端RDMA領(lǐng)域的長期壟斷,讓我國智算基礎(chǔ)設(shè)施實(shí)現(xiàn)了“算—存—網(wǎng)”的協(xié)同發(fā)展?!皊caleFabric本身定位為超大算力規(guī)?;A(chǔ)設(shè)施最重要的環(huán)節(jié),與芯片、存儲缺一不可,是算力基礎(chǔ)設(shè)施的核心組成部分?!崩畋笤诿襟w群訪中明確了產(chǎn)品的核心定位,而這款產(chǎn)品的落地,也意味著我國在智算互聯(lián)這一關(guān)鍵環(huán)節(jié)形成了自主技術(shù)路徑,徹底擺脫了對海外高端高速網(wǎng)絡(luò)設(shè)備的依賴。
二是釋放海量算力,提升全行業(yè)研發(fā)與生產(chǎn)效率。網(wǎng)絡(luò)瓶頸的打破,讓智算集群的算力得以充分釋放。在AI大模型訓(xùn)練中,scaleFabric讓典型訓(xùn)練任務(wù)的網(wǎng)絡(luò)效率大幅提升。
在工程計算領(lǐng)域,更是實(shí)現(xiàn)了通信開銷的大幅降低,“傳統(tǒng)工程計算軟件的網(wǎng)絡(luò)通信開銷基本能達(dá)到40%以上,基于scaleFabric優(yōu)化后,輻照材料分子動力學(xué)軟件的通信開銷從50%降至10%,并行效率從千卡到萬卡保持86%?!北本┛萍即髮W(xué)計算機(jī)與通信學(xué)院儲根深在發(fā)布會中分享了實(shí)際應(yīng)用效果,他還表示,硬件上補(bǔ)齊通信性能后,應(yīng)用軟件能更充分地利用計算資源,“之前算力利用率能到百分之六七十,現(xiàn)在能到80%、90%?!?/p>
對于高端制造、生命科學(xué)、能源(850101)勘探等需要大規(guī)模并行計算的領(lǐng)域,算力效率的提升直接意味著研發(fā)周期(883436)的縮短和創(chuàng)新效率的提高。以工業(yè)仿真為例,延遲每增加10微秒,整體效能就會下降20%,而scaleFabric的低時延特性,能最大程度保障仿真計算的效率與精度,為產(chǎn)業(yè)升級提供核心算力支撐。
三是推動生態(tài)共建,凝聚國產(chǎn)智算產(chǎn)業(yè)合力。曙光在打造scaleFabric的同時,始終秉持極致開放的態(tài)度,致力于推動國產(chǎn)高性能網(wǎng)絡(luò)生態(tài)的建設(shè)。發(fā)布會上,光合組織高性能計算專委會AIDC高速網(wǎng)絡(luò)工作組正式成立,曙光攜手聯(lián)想(K80992)開天、中興通訊(HK0763)等眾多產(chǎn)業(yè)鏈伙伴,共同推動國產(chǎn)高速網(wǎng)絡(luò)的生態(tài)發(fā)展。
“未來我們會把相關(guān)的技術(shù)開放出來,建立統(tǒng)一標(biāo)準(zhǔn),打造生態(tài)適配系統(tǒng),聯(lián)合科研力量做好產(chǎn)學(xué)研用體系?!笔锕庑畔a(chǎn)業(yè)(北京)有限公司副總裁李柳向記者介紹了生態(tài)建設(shè)的核心方向。
李斌也表示,曙光不會走封閉的生態(tài)路線,而是希望“把整個技術(shù)做開放,市場的蛋糕大家共享”,不僅會讓scaleFabric適配國內(nèi)不同的算力芯片,還會推動芯片互聯(lián)協(xié)議的共享,與產(chǎn)業(yè)鏈上下游緊密合作,讓國產(chǎn)智算產(chǎn)業(yè)形成合力。而儲根深也認(rèn)為,曙光scaleFabric的出現(xiàn),為國產(chǎn)高速網(wǎng)絡(luò)生態(tài)建設(shè)奠定了硬件基礎(chǔ),“曙光的生態(tài)建設(shè)需要大的環(huán)境和單位來支持,未來隨著更多伙伴的加入,生態(tài)會不斷發(fā)展壯大?!?/p>
國產(chǎn)智算邁入高速發(fā)展新階段
隨著scaleFabric的發(fā)布與落地,我國智算產(chǎn)業(yè)正式邁入了高端高速網(wǎng)絡(luò)自主可控的新階段,而這也為超大規(guī)模智算集群的建設(shè)鋪平了道路。
“去年千億級參數(shù)模型讓大家震撼,今年已經(jīng)進(jìn)入萬億級參數(shù)時代,未來萬卡、十萬卡集群會成為常態(tài)化的算力需求?!崩盍硎?,面對這樣的行業(yè)趨勢,scaleFabric的超高可靠、超高擴(kuò)展特性,正是為未來的超大規(guī)模智算集群量身打造。
李斌在媒體群訪中預(yù)判,未來高速互聯(lián)市場的空間將迎來爆發(fā)式增長,“相比原來的數(shù)據(jù)中心高速網(wǎng)絡(luò)用量,基本上會提高10到20倍,因?yàn)楝F(xiàn)在以GPU為中心的計算節(jié)點(diǎn),一臺機(jī)器會出八張或者更多的網(wǎng)卡,網(wǎng)絡(luò)端口的增量非常明顯?!倍鴖caleFabric作為國產(chǎn)IB技術(shù)路線的核心產(chǎn)品,將在這一市場中實(shí)現(xiàn)對國外產(chǎn)品的國產(chǎn)化替代,“我們期待在IB的技術(shù)路線上實(shí)現(xiàn)技術(shù)和市場占比的雙重替代?!?/p>
同時,scaleFabric的落地也為全國一體化算力網(wǎng)的建設(shè)提供了核心支撐。當(dāng)前國家正推進(jìn)“十五五”一體化全國算力網(wǎng)的構(gòu)建,而國家超算互聯(lián)網(wǎng)作為重要試點(diǎn),已經(jīng)納入全國一體化算力網(wǎng)系統(tǒng)。
“未來的算力網(wǎng)會讓算力用起來像用電、用水一樣方便,且會更貼近用戶,不是提供冷冰冰的算力,而是幫用戶解決實(shí)際問題?!崩畋竺枥L了未來算力網(wǎng)的發(fā)展方向,而scaleFabric作為自主可控的“算力大動脈”,將成為連接全國算力節(jié)點(diǎn)的核心紐帶,推動算力資源的跨區(qū)域調(diào)度與高效利用。
從技術(shù)突破到產(chǎn)業(yè)落地,從生態(tài)共建到算力網(wǎng)支撐,中科曙光(603019)scaleFabric的發(fā)布,不僅為國產(chǎn)智算產(chǎn)業(yè)注入了全新動能,更讓中國算力擁有了屬于自己的“高速通路”。在“人工智能(885728)+”的國家戰(zhàn)略指引下,這款自主研發(fā)的高端高速網(wǎng)絡(luò)產(chǎn)品,將與國產(chǎn)算力芯片、存儲產(chǎn)品協(xié)同發(fā)展,共同構(gòu)建起自主可控的算力底座,推動我國智算產(chǎn)業(yè)從跟跑到并跑、再到領(lǐng)跑,讓中國算力更好地跑在中國網(wǎng)絡(luò)上。
