從探索人類前沿科技的超算,到普通人掏出手機就能體驗的智能推薦算法,每套以至高算力為目標的集群系統(tǒng)都需要解決一個算力之外的關(guān)鍵問題——網(wǎng)絡(luò)。
是的,分布式技術(shù)用“把大問題拆成小問題”的方法為人們提供了一條以量變實現(xiàn)質(zhì)變的可行路徑。但分開進行的海量計算總還是需要一個匯總結(jié)果并繼續(xù)推進計算的過程。而這一過程對網(wǎng)絡(luò)的帶寬、延遲和丟包率都提出了極高要求。以目前流行的深度學習算法為例,0.1%的丟包率就會帶來50%的集群效率降低。
在構(gòu)建算力集群時,用戶通常有兩種選擇:一種是沒有丟包困擾成本較高且生態(tài)封閉的Infiniband網(wǎng)絡(luò),另一種則是性價比更高但需要花費精力降低延遲和丟包率的以太網(wǎng)技術(shù)。而對于更看重效率效果的互聯(lián)網(wǎng)行業(yè)來說,答案只有一個——這些特性全都要!
嗶哩嗶哩基于業(yè)務(wù)發(fā)展需求?需要建設(shè)一張高性能計算網(wǎng)絡(luò)
嗶哩嗶哩,簡稱“B站”,一個有用有趣的綜合性視頻社區(qū),被用戶們親切地稱為“百科全書式的網(wǎng)站、沒有圍墻的圖書館,成長道路上的加油站,創(chuàng)作者的舞臺”。截止2024年第二季度,B站日均活躍用戶達1.02億。圍繞用戶、創(chuàng)作者和內(nèi)容,B站構(gòu)建了一個源源不斷產(chǎn)生優(yōu)質(zhì)內(nèi)容的生態(tài)系統(tǒng)。基于AI的“千人千面”內(nèi)容推薦算法,B站能把好內(nèi)容推薦給感興趣的用戶,進入內(nèi)容量與用戶活躍度雙向激勵的正循環(huán)。而要在海量內(nèi)容、龐大訪問量、億級用戶的背景下,完成精準的內(nèi)容推薦,B站需要一套高性能網(wǎng)絡(luò)為用戶提供服務(wù)。
面對實時更新的內(nèi)容和快速變化的用戶關(guān)注點,B站的AI算力集群要盡可能快地完成“樣本導入——訓練——模型導出——推理”的完整業(yè)務(wù)流程,縮短AI技術(shù)與業(yè)務(wù)應(yīng)用之間的距離。需求看似稀松平常,但這個“快”字卻對應(yīng)了多維度的底層技術(shù)挑戰(zhàn)。
其一,拉通整個AI業(yè)務(wù)流程,實現(xiàn)業(yè)務(wù)整體的快。
“樣本導入——訓練——模型導出——推理”等各個功能的子集群需置于同一張網(wǎng)絡(luò)之中,形成一張龐大的算力網(wǎng)絡(luò);盡可能讓數(shù)據(jù)和模型更快傳輸,讓不同功能形成整體,實現(xiàn)業(yè)務(wù)層面的快。
其二,在關(guān)鍵的訓練集群內(nèi)部,網(wǎng)絡(luò)延遲要足夠低。
大模型訓練過程對網(wǎng)絡(luò)延遲非常敏感,高延遲不僅會影響GPU節(jié)點之間的同步性和一致性,讓GPU花費更多時鐘周期來等待計算結(jié)果和參數(shù)的同步,更會影響整個集群的可擴展性和算力利用率。
其三,在“算網(wǎng)一體”的宏觀趨勢之下,算力方案與網(wǎng)絡(luò)架構(gòu)應(yīng)保持高度匹配。
算與網(wǎng)就如同車和路,二者的高度匹配才能大幅提升系統(tǒng)整體運行效率,并為后續(xù)的運維管理和升級擴容帶來更大提升空間。
一面是業(yè)務(wù)層面的嚴苛需求,另一面則是缺貨、禁售等外部因素所帶來的巨大不確定風險;經(jīng)過對網(wǎng)絡(luò)、計算、經(jīng)驗和供貨等諸多因素的考察比對之后,B站選擇牽手華為,共同構(gòu)建新一代AI算力集群。
用以太網(wǎng)統(tǒng)一承載?讓AI算網(wǎng)一體高度統(tǒng)一融合
圖1.多網(wǎng)融合網(wǎng)絡(luò)架構(gòu)圖
B站網(wǎng)絡(luò)技術(shù)團隊與華為聯(lián)合設(shè)計了基于以太網(wǎng)的“一張網(wǎng)”算力集群建設(shè)方案。該方案通過華為CE16800系列核心框式交換機,能夠?qū)⒑A繕颖緮?shù)據(jù)的存儲集群、包含海量GPU計算節(jié)點的訓練集群和負責業(yè)務(wù)應(yīng)用的推理集群整合成一張龐大的業(yè)務(wù)網(wǎng)絡(luò),為每個業(yè)務(wù)功能提供足夠的數(shù)據(jù)帶寬。使用一張網(wǎng)聯(lián)接數(shù)據(jù)和業(yè)務(wù)、訓練和推理,打通功能之間的煙囪壁壘,提升業(yè)務(wù)整體運行效率。相對于私有化的Infiniband網(wǎng)絡(luò),使用統(tǒng)一且開放的以太網(wǎng)通訊協(xié)議也有助于降低系統(tǒng)總體建設(shè)成本,并保持“一張網(wǎng)”內(nèi)部的架構(gòu)統(tǒng)一、協(xié)議統(tǒng)一,繼而降低建設(shè)、運維的成本及難度。
在網(wǎng)絡(luò)架構(gòu)確定之后,接下來是選擇AI算力網(wǎng)絡(luò)的硬件選型和組網(wǎng)方案。在組網(wǎng)硬件選型上,華為提供多種硬件組網(wǎng)方式,典型的有盒盒組網(wǎng)方案,盒框組網(wǎng)方案,框框組網(wǎng)方案。通過雙方多次技術(shù)交流,綜合B站機房現(xiàn)場環(huán)境條件、硬件成本等多方面考慮,B站選擇盒盒組網(wǎng)的方案,如下圖所示,構(gòu)建的是一張千卡規(guī)模的AI算力集群。
圖2.華為昇騰組網(wǎng)架構(gòu)圖
為了滿足AI算力訓練集群對網(wǎng)絡(luò)延遲的苛刻需求,B站技術(shù)人員聯(lián)合華為工程師一起對整張網(wǎng)絡(luò)實施了細致入微的架構(gòu)設(shè)計和配置優(yōu)化。AI算力網(wǎng)絡(luò)總體按經(jīng)典的Spine-Leaf兩層CLOS組網(wǎng)設(shè)計落地,但基于大模型訓練對于網(wǎng)絡(luò)通信特點,在接入層稍微做了些變動,同時使用4臺LEAF交換機連接GPU服務(wù)器的多個網(wǎng)口。整個網(wǎng)由8個POD構(gòu)成,每個POD包含8臺GPU節(jié)點,每臺GPU配置8張400G以太網(wǎng)卡,每個POD可容納128張GPU卡,從而整個集群規(guī)模可達1024張GPU卡。在SPINE層面,使用16臺400G交換機來實現(xiàn)8個POD網(wǎng)絡(luò)聯(lián)接的對稱對等。路由設(shè)計方面全網(wǎng)使用了EBGP路由協(xié)議,當鏈路出現(xiàn)故障時網(wǎng)絡(luò)自動收斂。在高帶寬和低延遲要求方面,全網(wǎng)使用RDMA技術(shù)且同時啟用華為交換機特性NSLB(Network?Service Load Balance,網(wǎng)絡(luò)服務(wù)負載均衡)功能。RDMA技術(shù)無需CPU和系統(tǒng)內(nèi)存參與的顯存數(shù)據(jù)交換,能夠提高通訊效率,減少系統(tǒng)開銷;而NSLB則是華為的獨有技術(shù),可結(jié)合管理模塊實現(xiàn)全流量的秒級感知來,繼而通過高效網(wǎng)絡(luò)編排來減少網(wǎng)絡(luò)擁塞、丟包和鎖死情況的發(fā)生,提升訓練過程的可靠性,減少重新加載checkpoint的次數(shù),以達成加快訓練的效果。通過網(wǎng)絡(luò)架構(gòu)的合理設(shè)計和多種先進技術(shù)的綜合應(yīng)用,在訓練集群內(nèi)部實現(xiàn)400G高帶寬互聯(lián)、互聯(lián)鏈路冗余、通信路徑最優(yōu)、Leaf上下行帶寬1:1等眾多先進特性。而在業(yè)務(wù)層面這些技術(shù)與特性便意味著低延遲和全網(wǎng)無阻塞。
在多種網(wǎng)絡(luò)流量模型和GPU通訊庫(NCCL和HCCL)驗證過程中,華為昇騰整套網(wǎng)絡(luò)方案在同Leaf下點對點網(wǎng)絡(luò)帶寬利用率超98%,延遲最低2.8微秒;“多對一”帶寬利用率80%,All-to-All和AllReduce過程帶寬利用率超98%。而在跨Spine測試中,華為昇騰整套網(wǎng)絡(luò)方案仍能實現(xiàn)超98%的帶寬利用率和最低5.6微秒的延遲;并能在“多對一”通訊中實現(xiàn)80%的帶寬利用率和超90%的All-to-All、AllReduce帶寬利用率。
圖3.服務(wù)器集群布線
圖4.網(wǎng)絡(luò)集群布線
以上圖3和圖4為華為昇騰整套網(wǎng)絡(luò)解決方案在B站數(shù)據(jù)中心落地示意圖,在部署實施層面,華為配合B站網(wǎng)絡(luò)技術(shù)團隊完成網(wǎng)絡(luò)規(guī)劃、實施前期準備、交付前全網(wǎng)參數(shù)調(diào)優(yōu)、HCCL通訊集參數(shù)調(diào)優(yōu)和驗收測試等流程,為業(yè)務(wù)上線做好充分的準備。同時為了保障整個集群的長期穩(wěn)定運行,華為與B站一起對機房現(xiàn)場網(wǎng)絡(luò)布線做了高標準落地,每條線纜有序布放、捆扎,降低排查鏈路故障等問題的難度,提升運維效率。
算網(wǎng)一體?讓互聯(lián)網(wǎng)+AI盛放未來
不僅B站,流量大、數(shù)據(jù)多、用戶多是所有互聯(lián)網(wǎng)業(yè)務(wù)的典型特征。而在AI業(yè)務(wù)落地的過程中,對單卡算力的錙銖必較已成過去時;借助先進網(wǎng)絡(luò)來構(gòu)建千卡、甚至萬卡集群來應(yīng)對業(yè)務(wù)挑戰(zhàn)才是主流選擇。因此,“算網(wǎng)一體、高度匹配、相互優(yōu)化”也順勢成為互聯(lián)網(wǎng)企業(yè)構(gòu)建新一代基礎(chǔ)架構(gòu)時關(guān)注的重點。
對于廣大行業(yè)客戶而言,華為所擁有網(wǎng)絡(luò)解決方案能力、算力解決方案能力、龐大合作伙伴體系、豐富的規(guī)劃和實施經(jīng)驗正是構(gòu)建新型基礎(chǔ)架構(gòu)、落地AI業(yè)務(wù)之所需。與此同時,華為亦在通過不斷的底層技術(shù)創(chuàng)新和上層體驗優(yōu)化來實現(xiàn)解決方案與服務(wù)的持續(xù)精進,為互聯(lián)網(wǎng)企業(yè)鋪就通向未來的寬闊坦途。雙方的相向而行也造就了華為與互聯(lián)網(wǎng)企業(yè)聯(lián)合創(chuàng)新、共同探索的一段段佳話。
十年前,脫胎于互聯(lián)網(wǎng)業(yè)務(wù)邏輯的“互聯(lián)網(wǎng)+”概念火遍全國,助力千行百業(yè)實現(xiàn)了業(yè)務(wù)和經(jīng)營理念的跨越式升級;十年之后,互聯(lián)網(wǎng)又成為了擁抱AI技術(shù)、引領(lǐng)基礎(chǔ)架構(gòu)和業(yè)務(wù)升級的先鋒軍。
能夠與互聯(lián)網(wǎng)產(chǎn)業(yè)相伴同行、共赴未來,不僅是華為的榮幸,也是ICT產(chǎn)業(yè)技術(shù)探索、實現(xiàn)價值的絕佳路徑。