久久永久免费人妻精品视频,亚洲经典激情春色另类,亚洲国产精品成人久久蜜臀

效率躍升1.71倍，字節(jié)再降MoE訓(xùn)練成本，為何AI玩家接連開源最新技術(shù)？

來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-03-13 07:07:27 瀏覽：174次

導(dǎo)讀：每經(jīng)記者：楊昕怡每經(jīng)編輯：余婷婷訓(xùn)練大模型的成本之高一直是行業(yè)痛點(diǎn)，各路玩家都在思考如何用技術(shù)創(chuàng)新把成本“打”下來。3月10日，字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)發(fā)布了針對(duì)MoE（混合專家模型）架構(gòu)的通信優(yōu)化系統(tǒng)COMET，該方案通過細(xì)粒度計(jì)算-通信重疊技術(shù)，助力大模型訓(xùn)練優(yōu)化。據(jù)豆包大模型團(tuán)隊(duì)介紹，COMET已實(shí)際應(yīng)用于萬卡級(jí)生產(chǎn)集群，累計(jì)節(jié)省了數(shù)百萬GPU（圖形處理器）小時(shí)資 ......

每經(jīng)記者：楊昕怡每經(jīng)編輯：余婷婷

訓(xùn)練大模型的成本之高一直是行業(yè)痛點(diǎn)，各路玩家都在思考如何用技術(shù)創(chuàng)新把成本“打”下來。

3月10日，字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)發(fā)布了針對(duì)MoE（混合專家模型）架構(gòu)的通信優(yōu)化系統(tǒng)COMET，該方案通過細(xì)粒度計(jì)算-通信重疊技術(shù)，助力大模型訓(xùn)練優(yōu)化。據(jù)豆包大模型團(tuán)隊(duì)介紹，COMET已實(shí)際應(yīng)用于萬卡級(jí)生產(chǎn)集群，累計(jì)節(jié)省了數(shù)百萬GPU（圖形處理器）小時(shí)資源。此外，COMET還可與豆包大模型團(tuán)隊(duì)此前發(fā)布的新一代稀疏模型架構(gòu)UltraMem結(jié)合，實(shí)現(xiàn)協(xié)同優(yōu)化。

“在萬卡集群上做測(cè)試的這個(gè)經(jīng)驗(yàn)，國內(nèi)很少能有�！币晃活^部大模型算法工程師在接受《每日經(jīng)濟(jì)新聞》記者采訪時(shí)表示，“目前很可能只有字節(jié)有這一經(jīng)驗(yàn)，而且還分享出來了。雖然現(xiàn)在國內(nèi)大部分公司都沒有萬卡，但隨著行業(yè)往后發(fā)展，這一技術(shù)和先行經(jīng)驗(yàn)是很重要的�！�

可以看到的是，自DeepSeek的開源模型R1在全球范圍內(nèi)“爆紅”以來，國內(nèi)更多大模型玩家以更高的頻率進(jìn)行著技術(shù)開源。對(duì)此，北京市社會(huì)科學(xué)院副研究員王鵬向《每日經(jīng)濟(jì)新聞》記者表示，大模型公司選擇優(yōu)秀技術(shù)開源，對(duì)于擴(kuò)大市場(chǎng)份額、吸引合作伙伴構(gòu)建生態(tài)、提升公司的品牌形象和知名度等方面均有幫助。

MoE訓(xùn)練效率提升1.71倍，字節(jié)開源COMET技術(shù)

3月1日，DeepSeek在知乎發(fā)布了“開源周”后的“彩蛋”，首次公布了模型降本增效的技術(shù)細(xì)節(jié)以及理論上高達(dá)545%的利潤率。

DeepSeek通過MoE架構(gòu)的創(chuàng)新讓激活參數(shù)比大幅下降，使得同等效果的大模型所需的算力明顯下降�！�671B的模型，在處理每個(gè)問題時(shí)，被調(diào)用激活的專家模型參數(shù)僅約37B，算力需求起碼降低到原來的約二十分之一�！卑⒗镌茻o影事業(yè)部總裁張獻(xiàn)濤曾在接受《每日經(jīng)濟(jì)新聞》記者采訪時(shí)表示。

而豆包團(tuán)隊(duì)注意到，MoE架構(gòu)的稀疏特性導(dǎo)致計(jì)算和通信間的依賴動(dòng)態(tài)且復(fù)雜，其分布式訓(xùn)練仍面臨著跨設(shè)備通信開銷巨大的成本挑戰(zhàn)。

3月10日，豆包大模型團(tuán)隊(duì)發(fā)布了針對(duì)MoE模型的通信優(yōu)化系統(tǒng)COMET。據(jù)介紹，COMET具體通過共享張量依賴解析機(jī)制，將共享張量沿Token維度或隱層維度切割，使通信與計(jì)算的最小單元對(duì)齊；同時(shí)通過動(dòng)態(tài)負(fù)載分配算法，根據(jù)輸入規(guī)模和硬件環(huán)境實(shí)時(shí)調(diào)整線程塊分配，消除跨設(shè)備通信帶來的等待延遲。

一位豆包大模型的技術(shù)人員告訴《每日經(jīng)濟(jì)新聞》記者，COMET和DeepSeek的DualPipe（雙向并行流水線技術(shù)）都用于降低MoE的通信開銷，但方法不同。記者了解到，DualPipe通過創(chuàng)新的雙向流水線并行技術(shù)，大幅提高模型的訓(xùn)練效率。

豆包大模型團(tuán)隊(duì)稱，COMET這一創(chuàng)新在大規(guī)模MoE模型上可達(dá)到單層1.96倍加速，端到端平均1.71倍效率提升。目前，COMET已實(shí)際應(yīng)用于萬卡級(jí)生產(chǎn)集群，助力MoE模型高效訓(xùn)練，并已累計(jì)節(jié)省了數(shù)百萬GPU小時(shí)資源。

“用100張卡測(cè)試的波動(dòng)可能很少，因?yàn)椋@卡）出問題的概率較小，但1萬張卡的波動(dòng)就會(huì)大很多�！币晃活^部大模型算法工程師向《每日經(jīng)濟(jì)新聞》記者表示，此次字節(jié)將這一成果開源，為整個(gè)行業(yè)提供了不可多得的萬卡集群實(shí)驗(yàn)經(jīng)驗(yàn)，“國內(nèi)有1萬張卡的企業(yè)也就幾家�！贝送�，豆包大模型還表示，COMET還可與豆包大模型團(tuán)隊(duì)此前發(fā)布的新一代稀疏模型架構(gòu)UltraMem結(jié)合，實(shí)現(xiàn)協(xié)同優(yōu)化。

《每日經(jīng)濟(jì)新聞》記者2月11日從豆包大模型團(tuán)隊(duì)了解到，團(tuán)隊(duì)已經(jīng)提出了全新的稀疏模型架構(gòu)UltraMem，該架構(gòu)有效解決了MoE推理時(shí)高額的訪存問題，推理速度較MoE架構(gòu)提升2-6倍，推理成本最高可降低83%。

效率躍升1.71倍，字節(jié)再降MoE訓(xùn)練成本，為何AI玩家接連開源最新技術(shù)？

圖片來源：視覺中國 VCG211550173673

爭奪“源神”，為何AI玩家接二連三開源最新技術(shù)？

從在全球范圍內(nèi)引起熱議的DeepSeek-R1到開源周的“大放送”，DeepSeek因持續(xù)開源核心技術(shù)被業(yè)內(nèi)稱為“源神”。基于DeepSeek的動(dòng)作，國內(nèi)大模型廠商紛紛跟進(jìn)并加速了開源行動(dòng)。

2月18日，階躍星辰首次開源其Step系列基座模型。該模型分別是目前全球范圍內(nèi)參數(shù)量最大的開源視頻生成模型階躍Step-Video-T2V，以及行業(yè)內(nèi)首款產(chǎn)品級(jí)開源語音交互大模型階躍Step-Audio。MiniMax也在1月15日發(fā)布并開源新一代01系列模型，包含基礎(chǔ)語言大模型MiniMax-Text-01和視覺多模態(tài)大模型MiniMax-VL-01。

除了頭部的AI初創(chuàng)公司外，重投大模型的多家互聯(lián)網(wǎng)巨頭也在緊跟開源這股熱潮，其中阿里一直是堅(jiān)定的“開源派”。3月3日，開源社區(qū)Hugging Face最新榜單顯示，開源僅6天的阿里萬相大模型已反超DeepSeek-R1，登頂模型熱榜、空間榜兩大榜單，成為近期全球開源社區(qū)最受歡迎的大模型。3月6日凌晨，阿里再度拋出新的開源成果。阿里云通義千問官微宣布發(fā)布并開源最新的推理模型QwQ-32B。據(jù)介紹，這是一款擁有320億參數(shù)的模型，其性能可與具備6710億參數(shù)（其中370億被激活）的DeepSeek-R1媲美。

“開源優(yōu)秀技術(shù)可以獲得更多聲量，也可以吸引更多企業(yè)、開發(fā)者進(jìn)行二次開發(fā)，有助于生態(tài)構(gòu)建�！币晃欢拱竽Ｐ偷募夹g(shù)人員向《每日經(jīng)濟(jì)新聞》記者表示。

同樣，王鵬也認(rèn)為，開源模式能促進(jìn)技術(shù)發(fā)展、創(chuàng)新，既可幫助大模型公司擴(kuò)大其在全球AI市場(chǎng)的影響力和份額，也可以吸引到更多參與者加入到生態(tài)系統(tǒng)的共建中，從而降低自身研發(fā)成本。

不過，也有不同的聲音，大模型公司選擇開源模式究竟是為了名還是利？“如果開源的技術(shù)比閉源的更好用，免費(fèi)的技術(shù)比收費(fèi)的更好用，那么誰還用閉源和收費(fèi)的？”工信部信息通信經(jīng)濟(jì)專家委員會(huì)委員盤和林在接受《每日經(jīng)濟(jì)新聞》記者采訪時(shí)表示，“實(shí)際上是以DeepSeek為代表的開源應(yīng)用，在性能上追平了競(jìng)爭對(duì)手。這導(dǎo)致很多大模型選擇了開源的路徑來應(yīng)對(duì)。開源對(duì)于企業(yè)來說，并不能創(chuàng)造利潤，但能帶來用戶，互聯(lián)網(wǎng)流量為王，利潤次之�！�

每日經(jīng)濟(jì)新聞

相關(guān)熱詞： deepseek 開源字節(jié) 字節(jié)跳動(dòng) comet

效率躍升1.71倍，字節(jié)再降MoE訓(xùn)練成本，為何AI玩家接連開源最新技術(shù)？
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-03-13 07:07:27 瀏覽：174次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

效率躍升1.71倍，字節(jié)再降MoE訓(xùn)練成本，為何AI玩家接連開源最新技術(shù)？ 來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-03-13 07:07:27 瀏覽：174次