什么是RDMA
在介紹RDMA網(wǎng)絡(luò)之前,我們先來(lái)了解下什么是DMA 。DMA(Direct Memory Access)是一種允許外部IO設(shè)備直接訪問(wèn)內(nèi)存,而不需要通過(guò)CPU的技術(shù)。DMA技術(shù)可以顯著提高數(shù)據(jù)傳輸?shù)男屎退俣?,因?yàn)樗苊饬薈PU和Memory之間的數(shù)據(jù)拷貝,從而減少了CPU的負(fù)擔(dān),并提高了數(shù)據(jù)傳輸?shù)男?。RDMA(Remote Direct Memory Access )則是允許一臺(tái)服務(wù)器直接訪問(wèn)其他服務(wù)器上的Memory 。在智算時(shí)代,RDMA技術(shù)被廣泛應(yīng)用于大規(guī)模分布式訓(xùn)練和推理場(chǎng)景中。
為什么要使用 RDMA
隨著AI大模型的快速發(fā)展,模型參數(shù)量、數(shù)據(jù)量的不斷增加,單個(gè)GPU服務(wù)器已經(jīng)難以滿(mǎn)足模型訓(xùn)練和推理的算力資源要求,分布式多機(jī)多卡的訓(xùn)練與推理已經(jīng)成為必然。多機(jī)多卡的訓(xùn)推場(chǎng)景對(duì)算力網(wǎng)絡(luò)提出了以下要求:
1. 高吞吐量:大模型參數(shù)量、數(shù)據(jù)量巨大,每一次訓(xùn)練推理都是幾百G,甚至幾十T的數(shù)據(jù)量;
2. 低延遲:大模型訓(xùn)練推理過(guò)程中,數(shù)據(jù)的傳輸延遲對(duì)訓(xùn)練推理的效率影響很大,當(dāng)網(wǎng)絡(luò)延遲成為瓶頸時(shí),會(huì)導(dǎo)致GPU空閑等待數(shù)據(jù)傳輸完成,從而降低整體的訓(xùn)練效率,進(jìn)而造成算力的浪費(fèi);
3. 高可靠性 :大模型訓(xùn)練推理過(guò)程中,數(shù)據(jù)的傳輸可靠性對(duì)訓(xùn)練推理的效率影響很大,當(dāng)網(wǎng)絡(luò)有丟包重傳時(shí),會(huì)導(dǎo)致所有GPU閑置,同樣造成算力的巨大浪費(fèi)。
傳統(tǒng)以太網(wǎng)的設(shè)計(jì)和實(shí)現(xiàn)無(wú)法滿(mǎn)足以上要求,已經(jīng)成為大模型訓(xùn)推場(chǎng)景下算力集群的瓶頸。基于RDMA 技術(shù)的網(wǎng)絡(luò)從底層技術(shù)原理和設(shè)計(jì)實(shí)現(xiàn)上,滿(mǎn)足了高吞吐、低延遲、無(wú)丟包的要求,從而提升了算力集群的效率。
RDMA的網(wǎng)絡(luò)實(shí)現(xiàn)
在AI大模型訓(xùn)推場(chǎng)景中使用 RMDA技術(shù)的網(wǎng)絡(luò)包括:
? In?niband簡(jiǎn)稱(chēng)IB網(wǎng)絡(luò);
? RoCE(RDMA over Coveraged Ethernet)網(wǎng)絡(luò)
IB網(wǎng)絡(luò)
IB網(wǎng)絡(luò)設(shè)計(jì)為無(wú)損網(wǎng)絡(luò),在發(fā)送端會(huì)動(dòng)態(tài)監(jiān)測(cè)接收端的緩存能力,只有在接收端緩存區(qū)有足夠空間時(shí),才會(huì)發(fā)送數(shù)據(jù)。這得益于其完全區(qū)別于傳統(tǒng)以太網(wǎng)的,自定義的4層網(wǎng)絡(luò)架構(gòu)(物理層、鏈路層、網(wǎng)絡(luò)層、傳輸層)。在鏈路層集成了流控協(xié)議,保障發(fā)送端速率不會(huì)超出接收端的接收速率。傳輸層中創(chuàng)建的虛擬通道可直接被上層應(yīng)用使用,不再需要通過(guò)操作系統(tǒng)協(xié)議棧。
*圖片來(lái)源于IBTA(InfiniBand Trade Association )
IB網(wǎng)絡(luò)的主要廠商是已經(jīng)被英偉達(dá)收購(gòu)的Mellanox公司,其擁有IB網(wǎng)絡(luò)的核心技術(shù)專(zhuān)利,占有全球?qū)⒔?0%的市場(chǎng)份額,是高性能計(jì)算集群的首選。IB網(wǎng)絡(luò)的優(yōu)勢(shì)在于超低延遲,高吞吐,交付部署簡(jiǎn)單,但需要專(zhuān)門(mén)的網(wǎng)卡和交換機(jī)支持。IB網(wǎng)絡(luò)的發(fā)展路線圖如下:
*圖片來(lái)源于IBTA(InfiniBand Trade Association )
對(duì)應(yīng)英偉達(dá)公司的產(chǎn)品線如下:
RoCE網(wǎng)絡(luò)
RoCE由IBTA(In?niBand Trade Association)制定,通過(guò)ECN和PFC實(shí)現(xiàn)流量控制,進(jìn)而實(shí)現(xiàn)無(wú)損網(wǎng)絡(luò)。市場(chǎng)上很多網(wǎng)絡(luò)設(shè)備廠商都有提供相應(yīng)的產(chǎn)品。特點(diǎn)是兼容現(xiàn)有以太網(wǎng),成本相對(duì)較低,交付部署相對(duì)復(fù)雜。
Spectrum是英偉達(dá)公司的RoCE網(wǎng)絡(luò)交換機(jī),其產(chǎn)品線如下: