12月27日,海外社交媒體平臺X被來自中國的大模型DeepSeek-V3刷屏了,科技圈驚嘆的點(diǎn)在于,這一模型能力對標(biāo)頭部模型,但訓(xùn)練的預(yù)算卻非常低,“2048個(gè)GPU、2個(gè)月、近600萬美元”,相比之下,GPT-4o等模型的訓(xùn)練成本約為1億美元,至少在萬個(gè)GPU量級的計(jì)算集群上訓(xùn)練。
“Llama 3 405B 使用了3080萬GPU小時(shí),而DeepSeek-V3 看起來是一個(gè)更強(qiáng)大的模型,僅使用了280萬GPU 小時(shí)(計(jì)算量約為十分之一)!鼻癘pen AI 聯(lián)合創(chuàng)始人、Tesla AI 團(tuán)隊(duì)負(fù)責(zé)人Andrej Karpathy在X上發(fā)文表示,如果該模型的優(yōu)良表現(xiàn)能夠得到廣泛驗(yàn)證,這一模型將是在資源受限的情況下,在研究和工程方面讓人印象深刻的一次展示。
12月26日晚,幻方量化旗下AI公司深度求索(DeepSeek)宣布,全新系列模型DeepSeek-V3上線并同步開源,API服務(wù)已同步更新,接口配置無需改動(dòng),登錄官網(wǎng)(chat.deepseek.com)即可與最新版 V3 模型對話。當(dāng)前版本的 DeepSeek-V3 暫不支持多模態(tài)輸入輸出。
具體來說,DeepSeek-V3是一個(gè)具有6710億總參數(shù)的MoE(混合專家)模型,每token激活參數(shù)為370億,在14.8萬億token上進(jìn)行了預(yù)訓(xùn)練。
官方給出的數(shù)據(jù)顯示,DeepSeek-V3 多項(xiàng)評測成績超越了阿里通義的 Qwen2.5-72B 和Meta的Llama-3.1-405B 等其他開源模型,并在性能上和世界頂尖的閉源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。
與此同時(shí),DeepSeek表示,通過算法和工程上的創(chuàng)新,DeepSeek-V3 的生成吐字速度提高了三倍,從20 TPS提高至60 TPS,API服務(wù)價(jià)格也同步做了調(diào)整,目前為每百萬輸入tokens 0.5元(緩存命中)/2元(緩存未命中),每百萬輸出tokens 8元。但全新模型有45天的優(yōu)惠價(jià)格體驗(yàn)期,為每百萬輸入tokens 0.1元(緩存命中)/1元(緩存未命中),每百萬輸出tokens 2元。
這一價(jià)格在目前頭部模型市場中有一定的競爭力。例如OpenAI的GPT 4o定價(jià)為輸入:5美元/百萬Token,輸出:15美元/百萬Token,加總成本是20美元,約合人民幣145元。
DeepSeek此前一直走的是性價(jià)比路線,在訓(xùn)練上做了一些調(diào)整。據(jù)此次發(fā)布的技術(shù)報(bào)告,DeepSeek-V3仍然采用多頭潛在注意力(MLA)以實(shí)現(xiàn)高效推理,并采用 DeepSeek MoE以實(shí)現(xiàn)經(jīng)濟(jì)的訓(xùn)練。這兩種架構(gòu)在 DeepSeek-V2中得到了驗(yàn)證,證明了它們在保持強(qiáng)大模型性能的同時(shí),能夠?qū)崿F(xiàn)高效的訓(xùn)練和推理。
除了基本架構(gòu)外,DeepSeek還實(shí)施了兩項(xiàng)額外策略以進(jìn)一步增強(qiáng)模型能力。首先是采用了無輔助損失的負(fù)載平衡策略,其次采用了多token預(yù)測訓(xùn)練目標(biāo),這可以提升評估基準(zhǔn)的整體性能。
在已開源的論文中,DeepSeek強(qiáng)調(diào)了其訓(xùn)練成本較低通過對算法、框架和硬件的優(yōu)化協(xié)同設(shè)計(jì),在預(yù)訓(xùn)練階段,模型每訓(xùn)練1萬億token僅需要18萬個(gè)GPU小時(shí),即在團(tuán)隊(duì)配備2048個(gè)H800 GPU的集群上只需3.7天,也就是說,團(tuán)隊(duì)的預(yù)訓(xùn)練在不到2個(gè)月的時(shí)間內(nèi)完成。
此外,加上用于擴(kuò)展上下文長度所需的11.9萬個(gè) GPU小時(shí)和5000個(gè) GPU小時(shí)的后訓(xùn)練,DeepSeek-V3完整訓(xùn)練消耗了278.8萬個(gè)GPU小時(shí)。
假設(shè)H800 GPU的租用價(jià)格為每塊GPU 2美元/小時(shí),DeepSeek-V3的全部訓(xùn)練成本總計(jì)僅為557.6萬美元。DeepSeek表示,該成本僅包括DeepSeek-V3的正式訓(xùn)練,不包括與先前在架構(gòu)、算法或數(shù)據(jù)上的研究和消融實(shí)驗(yàn)相關(guān)的成本。
Karpathy在發(fā)文中肯定了這一訓(xùn)練成本的突破,他提到,作為參考,要達(dá)到V3這種級別的能力,通常需要約1.6萬個(gè)GPU的計(jì)算集群。不僅如此,當(dāng)前業(yè)界正在部署的集群規(guī)模甚至已經(jīng)達(dá)到了10萬個(gè)GPU。
但這是否意味著前沿LLM不需要大型 GPU 集群?在Karpathy看來,也并非如此,“但你必須確保不浪費(fèi)你所擁有的資源,這看起來是一個(gè)很好的證明,表明在數(shù)據(jù)和算法方面還有很多工作要做” 。
Karpathy同時(shí)夸贊了DeepSeek在開源網(wǎng)站上公布的技術(shù)報(bào)告,“這是非常好且詳細(xì)的技術(shù)報(bào)告,值得一讀!币晃粊碜訫enlo Venture的投資人也感慨,“53 頁的技術(shù)論文是黃金”(53-page technical paper is GOLD)。
英偉達(dá)高級研究科學(xué)家Jim Fan在X上轉(zhuǎn)發(fā)Karpathy的推文表示,資源限制是一件美好的事情。在殘酷的人工智能競爭環(huán)境中,生存本能是取得突破的主要?jiǎng)恿Α!拔谊P(guān)注 DeepSeek 很久了。去年他們推出了最好的開源模型之一,卓越的OSS模型給商業(yè)前沿 LLM 公司帶來了巨大壓力,迫使它們加快步伐!
Lepton AI 創(chuàng)始人、 前阿里巴巴副總裁賈揚(yáng)清也參與了這一話題的討論,他認(rèn)為,DeepSeek 的成功是簡單的智慧和實(shí)用主義在起作用,在計(jì)算和人力有限的情況下,通過智能研究產(chǎn)生最佳結(jié)果。
此前DeepSeek一直被冠以“AI界拼多多”的名頭,也是年中引發(fā)中國大模型價(jià)格戰(zhàn)的源頭。今年5月,DeepSeek發(fā)布的一款名為DeepSeek V2的開源模型,提供了一種史無前例的性價(jià)比:推理成本被降到每百萬token僅 1塊錢,在當(dāng)時(shí)約等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。隨后,字節(jié)、騰訊、百度、阿里等大廠紛紛降價(jià),大模型價(jià)格戰(zhàn)由此一觸即發(fā)。
公開信息顯示,DeepSeek成立于2023年7月,由知名量化資管巨頭幻方量化創(chuàng)立,幻方量化創(chuàng)始人梁文峰在量化投資和高性能計(jì)算領(lǐng)域具有深厚的背景和豐富的經(jīng)驗(yàn)。
在這次DeepSeek-V3發(fā)布時(shí),大模型生態(tài)社區(qū)OpenCSG(開放傳神)創(chuàng)始人陳冉第一時(shí)間關(guān)注到的是訓(xùn)練數(shù)據(jù),他對第一財(cái)經(jīng)表示,“一切都是數(shù)據(jù),數(shù)據(jù)質(zhì)量決定模型質(zhì)量”,Deepseek-V3基于14萬億token的數(shù)據(jù)訓(xùn)練,這些數(shù)據(jù)應(yīng)該非常有價(jià)值。
(本文來自第一財(cái)經(jīng))