展會信息港展會大全

機器學習帶來電力和熱管理新挑戰(zhàn),Google的解決方案
來源:互聯(lián)網(wǎng)   發(fā)布日期:2025-02-16 22:02:40   瀏覽:312次  

導讀:芝能智芯出品隨著機器學習應用的迅猛發(fā)展,數(shù)據(jù)中心的電力需求呈現(xiàn)出前所未有的增長,特別是在大規(guī)模的批量同步訓練工作負載下。這些工作負載的功率波動模式與傳統(tǒng)的數(shù)據(jù)中心有顯著不同,因此在保證機器學習基礎設施的可靠性和可用性方面面臨巨大的挑戰(zhàn)。為了應對這一問題,Google提出了一種基于全棧協(xié)同設計的創(chuàng)新方法,通過主動電源整形和智能功率調(diào)節(jié)緩解大規(guī)模ML工作負載所 ......

芝能智芯出品

隨著機器學習應用的迅猛發(fā)展,數(shù)據(jù)中心的電力需求呈現(xiàn)出前所未有的增長,特別是在大規(guī)模的批量同步訓練工作負載下。

這些工作負載的功率波動模式與傳統(tǒng)的數(shù)據(jù)中心有顯著不同,因此在保證機器學習基礎設施的可靠性和可用性方面面臨巨大的挑戰(zhàn)。

為了應對這一問題,Google提出了一種基于全棧協(xié)同設計的創(chuàng)新方法,通過主動電源整形和智能功率調(diào)節(jié)緩解大規(guī)模ML工作負載所帶來的功率和熱波動。

根據(jù)google提供的信息,來看看這一方法的實現(xiàn)原理、效果及其對行業(yè)的影響,并呼吁產(chǎn)業(yè)鏈各方共同合作,共同應對未來機器學習基礎設施中電力和熱波動的挑戰(zhàn)。

Part 1

機器學習帶來的功率挑戰(zhàn)


機器學習帶來電力和熱管理新挑戰(zhàn),Google的解決方案

與傳統(tǒng)數(shù)據(jù)中心工作負載的“長尾分布”不同,ML訓練任務具有強同步性。

數(shù)萬個加速器需在同一時鐘周期內(nèi)執(zhí)行矩陣運算,導致集群級功率需求呈現(xiàn)“脈沖式”特征,當所有TPU同時進入計算密集階段時,功率瞬時拉升至峰值;

而在同步通信或數(shù)據(jù)加載階段,功率驟降。這種波動幅度可達數(shù)十兆瓦,且頻率極高(秒級周期重復),根源在于ML模型的訓練機制:批處理數(shù)據(jù)分割、參數(shù)同步更新的迭代過程必然引發(fā)計算-通信交替的“鋸齒形”功率曲線。

高幅度、高頻次的功率波動對基礎設施造成連鎖反應,芯片最高溫度可控,但頻繁的溫度波動(如20°C峰谷差)會引發(fā)熱膨脹系數(shù)差異導致的機械應力,加速熱界面材料老化,并加劇電遷移效應,鋁互連線的電阻率隨溫度變化,導致電流密度重新分布,可能引發(fā)局部斷路。

傳統(tǒng)數(shù)據(jù)中心通過錯峰調(diào)度平滑負載,但ML集群的功率脈沖可能觸發(fā)電網(wǎng)保護機制(如過載跳閘)。若多個ML集群接入同一區(qū)域電網(wǎng),其波動疊加可能超出變壓器瞬時容量,導致區(qū)域性電壓驟降甚至停電。

傳統(tǒng)數(shù)據(jù)中心設計基于“平均功率”假設,依賴被動式散熱(如風冷)和超配電路(允許短期過載)。然而,ML負載的功率密度(如30kW/機架)和波動速度遠超傳統(tǒng)場景。

風冷系統(tǒng)響應延遲約為分鐘級,無法匹配秒級溫度波動;超配設計的冗余容量被ML負載持續(xù)占滿,失去緩沖作用,迫使基礎設施進入“硬約束”模式,進一步限制ML任務吞吐量。

這些問題不僅影響數(shù)據(jù)中心的穩(wěn)定性和長期運行,還可能導致運營成本的增加,在新興的機器學習應用環(huán)境中,如何有效管理功率和熱波動已成為提升數(shù)據(jù)中心效能和可持續(xù)性的一項關鍵任務。

Part 2

Google的

全棧協(xié)同設計解決方案


機器學習帶來電力和熱管理新挑戰(zhàn),Google的解決方案

為了應對這些挑戰(zhàn),Google提出了一種創(chuàng)新的解決方案,通過全棧協(xié)同設計來主動調(diào)節(jié)工作負載的功率分布,從而緩解功率和熱波動,結合了從硬件(如TPU加速器)到數(shù)據(jù)中心基礎設施的多個層面的優(yōu)化,使得功率波動得到有效的管理。

Google在其Tensor Processing Unit(TPU)編譯器中加入了儀器化功能,以監(jiān)測與功率波動相關的工作負載特征,特別是同步標志。

通過動態(tài)平衡TPU計算塊的活動,Google能夠平滑計算負載的分布,從而減緩功率波動的幅度,顯著減少功率波動,還能夠控制系統(tǒng)的溫度波動,避免因熱量不均而引發(fā)硬件故障。

Google的核心創(chuàng)新在于將功率管理前移至編譯階段。TPU編譯器通過靜態(tài)代碼分析識別計算-通信邊界(如AllReduce操作),并插入“功率平滑指令”。例如,在同步通信階段,編譯器可動態(tài)調(diào)度計算塊的激活時序,使部分TPU核心提前進入低功耗狀態(tài),而非瞬時全部關閉。

此舉將功率下降斜率從垂直陡降改為漸進式過渡,避免電網(wǎng)側出現(xiàn)電流沖擊。在測試中,功率波動幅度從基線情況下降低了近50%,溫度波動幅度也從約20℃降至約10℃。

為了實現(xiàn)這一目標,系統(tǒng)的平均功耗略有增加,但性能影響幾乎可以忽略不計,這一方法在降低功率波動和溫度波動方面的高效性。

這種全棧協(xié)同設計的優(yōu)勢在于,通過從硬件到軟件的緊密配合,能夠在不顯著犧牲性能的情況下,顯著降低功率和熱波動的影響。

更重要的是,這種方法具有高度的可擴展性,可以在大規(guī)模數(shù)據(jù)中心中得到廣泛應用,并且能夠與其他節(jié)能技術協(xié)同工作,如水冷、垂直電力輸送等。

● 全棧方法的關鍵在于打通芯片-機架-數(shù)據(jù)中心的控制環(huán)路:

◎芯片級:集成溫度傳感器與DVFS(動態(tài)電壓頻率調(diào)節(jié))聯(lián)動,當檢測到局部熱點時,優(yōu)先遷移計算任務至低溫區(qū)域,而非全局降頻。

◎機架級:引入RLCB(機架級電容組)作為“波動緩沖器”,在秒級時間尺度吸收/釋放電能,平滑上游供電壓力。

◎數(shù)據(jù)中心級:水冷系統(tǒng)與負載調(diào)度協(xié)同,例如在功率峰值期優(yōu)先冷卻高負載區(qū)域,并通過工作負載遷移實現(xiàn)熱均衡。

● Google 的方案并非單純追求技術最優(yōu),而是兼顧成本與行業(yè)協(xié)同

◎通過編譯器優(yōu)化使性能代價可控,任務執(zhí)行時間增加

◎在硬件兼容性上,TPU 定制化設計利于編譯器優(yōu)化的同時,借助 OCP 推動標準化接口(如 RLCB 規(guī)格)讓其他廠商可復用部分模塊;

◎在軟件生態(tài)擴展方面,向 ML 框架(如 TensorFlow)開放功耗 API,允許開發(fā)者定義任務優(yōu)先級以實現(xiàn) “能效感知” 的模型訓練。

● 人工智能的算力的指數(shù)級增長已使單點技術創(chuàng)新難以應對系統(tǒng)性風險,全棧方法揭示了兩大趨勢:

其一,算力效率的競爭正從“峰值性能”轉向“可持續(xù)性能”,需在硬件設計、軟件調(diào)度、能源供給間實現(xiàn)全局最優(yōu);

其二,基礎設施可靠性成為ML模型迭代的隱形瓶頸,電熱波動可能直接制約模型訓練周期與成本。

電力公司需重新定義電網(wǎng)容限標準,硬件供應商應開發(fā)抗波動元件(如寬溫域電容),開發(fā)者需將“功率效率”納入模型評估指標,通過OCP推動的開放標準,或將成為下一代綠色算力基礎設施的基石。

小結

大規(guī)模同步的訓練工作負載在電力和熱管理方面提出了新的挑戰(zhàn),基于全棧協(xié)同設計的主動電源整形方法,通過優(yōu)化硬件與軟件的協(xié)同作用,成功減緩了功率波動和溫度波動,提高了系統(tǒng)的可靠性和能源效率。

贊助本站

相關內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港