▲頭圖由AI生成
智東西(公眾號(hào):zhidxcom)
作者 | 三北
編輯 | 漠影
城市大模型正處于爆發(fā)前夕,數(shù)據(jù)很可能成為一只“攔路虎”。
當(dāng)下,北京、上海、深圳等多地都推出了AI新政策,提出“在城市大腦建設(shè)中應(yīng)用大模型”、“構(gòu)建開放式城市大模型服務(wù)平臺(tái)”等明確指示。沉睡的城市數(shù)據(jù)成為大模型的“養(yǎng)料”,同時(shí)數(shù)量巨大、種類異構(gòu)等特征也加大了大模型落地的難度。
數(shù)據(jù)存儲(chǔ)是數(shù)據(jù)價(jià)值挖掘的第一關(guān)口,大模型正倒逼產(chǎn)業(yè)進(jìn)化。過(guò)去一年多,包括曙光、華為等基礎(chǔ)設(shè)施龍頭,以及阿里云、騰訊云、百度智能云等云廠商都面向大模型進(jìn)行了數(shù)據(jù)存儲(chǔ)產(chǎn)品優(yōu)化,動(dòng)輒達(dá)數(shù)倍模型訓(xùn)練效率提升。
曙光存儲(chǔ)運(yùn)營(yíng)總監(jiān)石靜告訴智東西:“從過(guò)去一年多次與客戶的溝通情況來(lái)看,大家從早期直接要PB級(jí)的存儲(chǔ)容量,到咨詢存儲(chǔ)如何讓GPU發(fā)揮更大效能,到現(xiàn)在則更加關(guān)注契合應(yīng)用需求的變化,這都推動(dòng)曙光存儲(chǔ)產(chǎn)品不斷進(jìn)化。”
據(jù)悉,目前,曙光ParaStor分布式存儲(chǔ)產(chǎn)品能將AI整體表現(xiàn)提升超20倍,已落地了北京、泉州、中國(guó)移動(dòng)等多個(gè)AI智能化項(xiàng)目,并在大模型、具身智能機(jī)器人、自動(dòng)駕駛、智算中心等各個(gè)領(lǐng)域落地,打造了AI大模型應(yīng)用標(biāo)桿案例。
▲曙光ParaStor分布式全閃系列產(chǎn)品
隨著算力、模型的價(jià)格降低,數(shù)據(jù)成為AI產(chǎn)業(yè)落地的“牛鼻子”。如何挖掘城市中的海量數(shù)據(jù)價(jià)值,讓AI助力城市智能化發(fā)展,進(jìn)而滲透到千行百業(yè)?從存儲(chǔ)環(huán)節(jié)來(lái)看,整個(gè)AI落地的成本壓縮邏輯是什么樣的?
通過(guò)對(duì)話曙光存儲(chǔ)運(yùn)營(yíng)總監(jiān)石靜,沿著曙光AI數(shù)據(jù)存儲(chǔ)落地的足跡,我們對(duì)這些問(wèn)題有了深入了解。
一、AI城市大腦進(jìn)化時(shí),向數(shù)據(jù)存儲(chǔ)要成本和效率
當(dāng)下,城市已成為AI落地的第一站,數(shù)據(jù)存儲(chǔ)成為不容忽視的短板環(huán)節(jié)。
北京、上海、廣東等一線城市及省份均發(fā)布了將大模型與城市治理相結(jié)合的相關(guān)政策。比如《北京市推動(dòng)“人工智能+”行動(dòng)計(jì)劃(2024-2025年)》提出“構(gòu)建開放式城市大模型服務(wù)平臺(tái),打造智慧城市大腦”;《廣東省加快數(shù)字政府領(lǐng)域通用人工智能應(yīng)用工作方案》提出“探索人工智能與城市大腦等場(chǎng)景創(chuàng)新”。各地都在加速推動(dòng)AI與城市智能化建設(shè)融合發(fā)展,落地城市治理、數(shù)字政務(wù)、智慧交通、智能制造、商業(yè)等各個(gè)領(lǐng)域。
▲城市智能化領(lǐng)域AI及大模型部分核心政策(智東西梳理)
石靜告訴智東西,在AI時(shí)代,城市智能化建設(shè)發(fā)生了較大變化。
此前,“城市大腦”更側(cè)重抓取城市數(shù)據(jù)去做智能分析,現(xiàn)在更主要的是借助大模型去輔助城市決策和管理;此前很多項(xiàng)目用CPU算力就行了,現(xiàn)在則更多考慮異構(gòu)算力,GPU等AI算力占比投入大大提升。
以泉州聯(lián)合曙光推進(jìn)的智慧城市項(xiàng)目為例,項(xiàng)目涉及圖片、語(yǔ)音、視頻等多種業(yè)務(wù)數(shù)據(jù),要將這些數(shù)據(jù)匯聚接入AI大模型,不僅對(duì)存儲(chǔ)性能和安全可靠提出更高要求,對(duì)異構(gòu)數(shù)據(jù)的納管能力要求也很高。其在方案中兼顧了這些多方面需求,從而實(shí)現(xiàn)城市數(shù)據(jù)快速互聯(lián),支持城市大腦中樞決策。
再以智慧交通場(chǎng)景為例,此前各地主要是將數(shù)據(jù)匯聚后來(lái)做簡(jiǎn)單分析,現(xiàn)在則是通過(guò)交通垂直大模型輔助決策。曙光存儲(chǔ)也跟業(yè)界專門做交通大模型的廠商做了相關(guān)適配,以提供整個(gè)城市交通態(tài)勢(shì)掌控、更科學(xué)的交通調(diào)配等更多服務(wù)。
在這一過(guò)程中,忽略存儲(chǔ)是比較要命的。
石靜說(shuō):“算力越來(lái)越快,如果存儲(chǔ)跟不上,這很可能導(dǎo)致GPU算力空轉(zhuǎn)或等待,從而使資源效率難以發(fā)揮;如果忽略存儲(chǔ),一些數(shù)據(jù)質(zhì)量問(wèn)題的出現(xiàn),也可能導(dǎo)致大模型效果出現(xiàn)偏差。”
具體來(lái)說(shuō),當(dāng)下城市智能化進(jìn)程對(duì)數(shù)據(jù)存儲(chǔ)提出了以下新要求:
1、存儲(chǔ)性能要更極致。只有足夠快的存儲(chǔ),才能匹配上足夠快的GPU或者AI芯片。2、存儲(chǔ)更加契合用戶業(yè)務(wù)。從通用大模型到行業(yè)生產(chǎn)大模型需要針對(duì)性調(diào)優(yōu),要求存儲(chǔ)具有一定的可定制化能力。3、數(shù)據(jù)安全要求更高。大模型訓(xùn)練若出現(xiàn)中斷往往損失慘重,保障數(shù)據(jù)安全可靠尤為關(guān)鍵。4、更強(qiáng)異構(gòu)數(shù)據(jù)的納管能力。面向大模型,非結(jié)構(gòu)化數(shù)據(jù)的采集、匯聚、分析、處理能力提升。
“百模大戰(zhàn)”快速發(fā)展一年,得益于數(shù)據(jù)存儲(chǔ)技術(shù)進(jìn)步,城市智能化項(xiàng)目的計(jì)算效率大幅提升。
石靜告訴智東西,在帶寬指標(biāo)方面,曙光存儲(chǔ)ParaStor分布式全閃單個(gè)節(jié)點(diǎn)已經(jīng)做到最高150GB/s帶寬,也就是一秒鐘可為用戶提供150G的數(shù)據(jù)吞吐,這個(gè)指標(biāo)還在快速提升中,早在兩個(gè)月前還是130GB/s。
在IOPS指標(biāo)方面,智存ParaStor產(chǎn)品可以提供320萬(wàn)IOPS/s,也就是一秒鐘可以處理320萬(wàn)個(gè)I/O請(qǐng)求,相較于以前有了十倍以上的提升。而同樣的硬件配置下,當(dāng)前市場(chǎng)主流產(chǎn)品的單節(jié)點(diǎn)帶寬能力普遍在100GB/s以內(nèi),單節(jié)點(diǎn)的IOPS能力基本在200萬(wàn)以下。
▲曙光ParaStor分布式全閃在相關(guān)指標(biāo)情況
二、從城市體到千行百業(yè),數(shù)據(jù)成AI落地的“牛鼻子”
眾所周知,AI大模型落地,受到算力、算法和數(shù)據(jù)“三駕馬車”牽引。
石靜談道,在前期大家更多關(guān)心模型、算力如何,但隨著AI的發(fā)展,數(shù)據(jù)應(yīng)該排到更靠前的位置。大模型能否很好地指導(dǎo)各行各業(yè)的發(fā)展?存儲(chǔ)所承載的數(shù)據(jù)質(zhì)量非常關(guān)鍵。
今年1月4日,國(guó)家數(shù)據(jù)局等17部門聯(lián)合印發(fā)《“數(shù)據(jù)要素×”三年行動(dòng)計(jì)劃(20242026年)》(簡(jiǎn)稱:行動(dòng)計(jì)劃),提出選取工業(yè)制造、現(xiàn)代農(nóng)業(yè)、商貿(mào)流通、交通運(yùn)輸、金融服務(wù)等12個(gè)行業(yè)和領(lǐng)域,推動(dòng)發(fā)揮數(shù)據(jù)要素乘數(shù)效應(yīng),釋放數(shù)據(jù)要素價(jià)值。
從城市到千行百業(yè),新一代智存技術(shù)已經(jīng)在促進(jìn)“數(shù)據(jù)要素x”發(fā)展。
在熱門的具身智能領(lǐng)域,“天才少年”稚輝君創(chuàng)辦的智元機(jī)器人剛剛在8月發(fā)布了第一代具身智能機(jī)器人遠(yuǎn)征A1,號(hào)稱達(dá)200TOPS算力。基于曙光ParaStor分布式全閃存儲(chǔ)提供與算力匹配的高性能存儲(chǔ)池,智元機(jī)器人在大模型訓(xùn)練中實(shí)現(xiàn)了存儲(chǔ)的低延時(shí)、高IO吞吐,從而釋放了強(qiáng)大的AI算力。
在自動(dòng)駕駛領(lǐng)域,國(guó)內(nèi)知名造車新勢(shì)力通過(guò)模型模擬仿真,加速新車型從量產(chǎn)走向市場(chǎng),曙光在2022~2024年連續(xù)為其提供超百PB的存儲(chǔ)資源,包括通過(guò)NVMe全閃產(chǎn)品提供單節(jié)點(diǎn)45GB/s帶寬和百萬(wàn)級(jí)IOPS,最大化提升自動(dòng)駕駛模型訓(xùn)練效率;3天內(nèi)幫助用戶從幾十個(gè)節(jié)點(diǎn)擴(kuò)展到200+節(jié)點(diǎn),應(yīng)對(duì)擴(kuò)展中的數(shù)據(jù)挑戰(zhàn);存儲(chǔ)負(fù)載率長(zhǎng)期維持在85%以上,保障數(shù)據(jù)的完整性和可靠性。
在智算中心領(lǐng)域,中國(guó)移動(dòng)在2022年啟動(dòng)了全球運(yùn)營(yíng)商最大單體智算中心,針對(duì)中心所需的海量非結(jié)構(gòu)化數(shù)據(jù)承載、多協(xié)議互融等存儲(chǔ)需求,曙光ParaStor滿足了其對(duì)存儲(chǔ)靈活性的需求,順暢完成全局統(tǒng)一調(diào)度與管理,為項(xiàng)目未來(lái)超大規(guī)模模型跨地域、多中心并行訓(xùn)練提供了存力保障。
而聚焦AI大模型生產(chǎn)本身,曙光ParaStor分布式全閃存儲(chǔ)支持某AI大模型廠商億級(jí)文件數(shù)據(jù)訓(xùn)練及推理,相比原系統(tǒng)提效50%,最終相隔兩月內(nèi)即發(fā)布上線大模型新版本;支持某科技大模型廠商整體訓(xùn)練效率提升50%以上。
可以看到,從城市體到千行百業(yè)都在加速智能化,當(dāng)模型和算力價(jià)格降低,數(shù)據(jù)正成為AI落地新的“牛鼻子”。
▲曙光存儲(chǔ)產(chǎn)品全家福
三、強(qiáng)者恒存,曙光存儲(chǔ)跑出中國(guó)AI加速度
AI大模型飛速發(fā)展,也反過(guò)來(lái)倒逼存儲(chǔ)產(chǎn)業(yè)升級(jí)。
在過(guò)去一年多時(shí)間里,包括曙光、華為等基礎(chǔ)設(shè)施龍頭企業(yè),以及阿里云、騰訊云、百度智能云等云廠商,都針對(duì)AI大模型研發(fā)與落地的全流程,對(duì)存儲(chǔ)產(chǎn)品進(jìn)行了性能優(yōu)化。各大廠商的存儲(chǔ)產(chǎn)品的優(yōu)化方向具有一致性,都強(qiáng)調(diào)高性能、多協(xié)議、可定制、高安全等提升。
其中,作為深耕AI存儲(chǔ)多年的頭部玩家,曙光ParaStor分布式全閃存儲(chǔ)將AI整體表現(xiàn)提升了超20倍。這是如何實(shí)現(xiàn)的?
石靜告訴智東西,曙光是從兩大核心去解決的,可以總結(jié)成:最強(qiáng)的數(shù)據(jù)底座、最佳的AI應(yīng)用加速套件。
在數(shù)據(jù)底座方面,存儲(chǔ)就是要去發(fā)揮極致的硬件性能,軟件要把CPU、內(nèi)存、網(wǎng)絡(luò)和硬盤介質(zhì)的性能發(fā)揮出來(lái)。在AI方面,現(xiàn)在大家都在通過(guò)高速網(wǎng)絡(luò),加上NVMe SSD閃存介質(zhì)去實(shí)現(xiàn),存儲(chǔ)軟件把高速網(wǎng)絡(luò)跟NVMe介質(zhì)的協(xié)同發(fā)揮出來(lái),實(shí)現(xiàn)最高性能。
在AI應(yīng)用加速套件方面,這需要結(jié)合AI方向特殊的一些應(yīng)用模式做優(yōu)化。曙光有五大加速技術(shù)方案,能夠通過(guò)分析AI整個(gè)的流程去盡量縮短整個(gè)I/O流程,讓GPU更加靠近存儲(chǔ),或者說(shuō)讓存儲(chǔ)更加靠近于顯存。
▲曙光AI應(yīng)用加速套件五級(jí)加速
具體展開這五級(jí)加速,覆蓋了數(shù)據(jù)流動(dòng)到GPU服務(wù)器、網(wǎng)絡(luò)和存儲(chǔ)的整個(gè)階段:
1、本地內(nèi)存加速。首先把計(jì)算節(jié)點(diǎn)本身的CPU對(duì)應(yīng)內(nèi)存利用起來(lái),將一些關(guān)鍵的數(shù)據(jù)緩存在那里,做第一層加速層,延時(shí)降至納秒級(jí)別。
2、BurstBuffer加速層。進(jìn)一步把GPU服務(wù)器本地的NVMe盤利用起來(lái),它相較本地內(nèi)存容量大很多,把這些數(shù)據(jù)緩存起來(lái)以后,就能夠保證海量數(shù)據(jù)不用跨網(wǎng)絡(luò)訪問(wèn)存儲(chǔ),把讀取性能提高幾倍甚至十倍以上。本地內(nèi)存加速和BurstBuffer都是聚焦計(jì)算節(jié)點(diǎn)本身。
3、XDS雙棧兼容,減少CPU中斷。讓GPU去直通訪問(wèn)存儲(chǔ),縮短整個(gè)I/O通路;不光實(shí)現(xiàn)GPU跟存儲(chǔ)的直接交互,還通過(guò)存儲(chǔ)技術(shù)讓AI智能芯片跟存儲(chǔ)直接打交道,從而減少CPU本身的損耗,降低延時(shí)。
4、網(wǎng)絡(luò)加速(RDMA-Based)。在網(wǎng)絡(luò)層,用RDMA技術(shù)等技術(shù),不管是IB網(wǎng)絡(luò)還是在以太網(wǎng)里,RDMA或RoCE都能夠把網(wǎng)絡(luò)帶寬給跑滿,實(shí)現(xiàn)第三層加速。
5、存儲(chǔ)節(jié)點(diǎn)高速層( NVMe SSD-Based )。最后是存儲(chǔ)本身,當(dāng)下在AI應(yīng)用最多的主要是NVMe全閃存,把全閃存本身的性能充分發(fā)揮出來(lái)。
深耕存儲(chǔ)領(lǐng)域20年,曙光不僅在技術(shù)進(jìn)化方面緊跟市場(chǎng)需求發(fā)展,還不斷推進(jìn)存儲(chǔ)產(chǎn)業(yè)開放生態(tài)建設(shè)。
石靜稱,目前,曙光存儲(chǔ)在國(guó)產(chǎn)和非國(guó)產(chǎn)硬件上都充分開放,通過(guò)軟硬件一體形態(tài)支持客戶搭建數(shù)據(jù)底座;存儲(chǔ)與多種前端應(yīng)用計(jì)算節(jié)點(diǎn)平臺(tái)兼容,支持國(guó)內(nèi)外AI芯片直通存儲(chǔ);存儲(chǔ)兼容更多AI應(yīng)用,通過(guò)智能I/O分析工具輔助其存儲(chǔ)更好地契合應(yīng)用,做到應(yīng)用開放。
強(qiáng)者恒存,曙光正跑出中國(guó)AI的加速度。
可以看到,大模型發(fā)展不僅推動(dòng)國(guó)產(chǎn)存儲(chǔ)廠家不斷實(shí)現(xiàn)技術(shù)突破,還以更加開放的心態(tài)推動(dòng)軟硬件兼容、計(jì)算平臺(tái)兼容及應(yīng)用兼容,從而強(qiáng)化AI落地。
結(jié)語(yǔ):從曙光的AI足跡,看到數(shù)字山河間的中國(guó)速度
隨著大模型落地各行各業(yè),加速已成為AI數(shù)據(jù)存儲(chǔ)的核心需求。從曙光城市智能化到各行各業(yè)的AI落地案例來(lái)看,其存儲(chǔ)方案通過(guò)縮短數(shù)據(jù)讀寫時(shí)間,大大提升了AI大模型的訓(xùn)練效率,減少算力的空轉(zhuǎn)等待時(shí)間,從而降低AI成本。
20年篳路藍(lán)縷,曙光存儲(chǔ)伴隨著中國(guó)信息化、數(shù)字化和智能化轉(zhuǎn)型一路發(fā)展。當(dāng)下,大模型成為全球科技競(jìng)賽的主賽場(chǎng),以曙光為代表的國(guó)產(chǎn)ICT龍頭正通過(guò)更精尖的技術(shù)、更貼近場(chǎng)景的服務(wù)、更開放的生態(tài)助力國(guó)內(nèi)大模型產(chǎn)業(yè)發(fā)展,跑出數(shù)字山河間的中國(guó)速度。