展會信息港展會大全

Meta 構(gòu)建分布式 RoCEv2 網(wǎng)絡(luò):探索串聯(lián)數(shù)萬片 GPU 訓(xùn)練 AI
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-08-07 14:40:32   瀏覽:10036次  

導(dǎo)讀:IT之家 8 月 7 日消息,Meta 公司于 8 月 5 日發(fā)布博文,表示為了滿足大規(guī)模分布式 AI 訓(xùn)練對網(wǎng)絡(luò)的需求,構(gòu)建了基于 RoCEv2 協(xié)議的大規(guī)模 AI 網(wǎng)絡(luò)。 RoCEv2 的全稱是 RDMA Over Converged Ethernet version 2,是一種節(jié)點間通信傳輸方式,用于大部分人工智...

IT之家 8 月 7 日消息,Meta 公司于 8 月 5 日發(fā)布博文,表示為了滿足大規(guī)模分布式 AI 訓(xùn)練對網(wǎng)絡(luò)的需求,構(gòu)建了基于 RoCEv2 協(xié)議的大規(guī)模 AI 網(wǎng)絡(luò)。

RoCEv2 的全稱是 RDMA Over Converged Ethernet version 2,是一種節(jié)點間通信傳輸方式,用于大部分人工智能容量。

Meta 公司已成功擴展了 RoCE 網(wǎng)絡(luò),從原型發(fā)展到部署了眾多集群,每個集群可容納數(shù)千個 GPU。

這些 RoCE 集群支持廣泛的生產(chǎn)型分布式 GPU 訓(xùn)練工作,包括排名、內(nèi)容推薦、內(nèi)容理解、自然語言處理和 GenAI 模型訓(xùn)練等工作負載。

Meta 公司為分布式 AI 訓(xùn)練專門建立了一個專用的后端網(wǎng)絡(luò),能夠獨立于數(shù)據(jù)中心網(wǎng)絡(luò)的其他部分進行發(fā)展、運行和擴展。

訓(xùn)練集群依賴于兩個獨立的網(wǎng)絡(luò):前端(FE)網(wǎng)絡(luò)用于數(shù)據(jù)攝娶檢查點和日志記錄等任務(wù),后端(BE)網(wǎng)絡(luò)用于訓(xùn)練,如下圖所示:

訓(xùn)練機架連接到數(shù)據(jù)中心網(wǎng)絡(luò)的 FE 和 BE。FE 的網(wǎng)絡(luò)層次包括機架交換機 (RSW)、結(jié)構(gòu)交換機(FSW)等,其中包含存儲倉庫,為 GPU 提供訓(xùn)練工作負載所需的輸入數(shù)據(jù)。

后端結(jié)構(gòu)是一個專門的結(jié)構(gòu),它以無阻塞的架構(gòu)連接所有 RDMA 網(wǎng)卡,無論它們的物理位置如何,在集群中的任意兩個 GPU 之間提供高帶寬、低延遲和無損傳輸。

為了應(yīng)對 LLM 模型訓(xùn)練對 GPU 規(guī)模的需求,Meta 設(shè)計了聚合訓(xùn)練交換機(ATSW)層,將多個 AI 區(qū)域互連起來。此外,Meta 還優(yōu)化路由、擁塞控制等方面,以提升網(wǎng)絡(luò)性能。

IT之家附上參考地址

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港