天天操天天操,国产一级成人毛片国产在线91精品 ,国产精品视频42页

性能匹敵GPT-4o的國產(chǎn)模型在海外火了，訓(xùn)練僅花費(fèi)558萬美元

來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-28 10:24:45 瀏覽：249次

導(dǎo)讀：12月27日，海外社交媒體平臺X被來自中國的大模型DeepSeek-V3刷屏了，科技圈驚嘆的點(diǎn)在于，這一模型能力對標(biāo)頭部模型，但訓(xùn)練的預(yù)算卻非常低，“2048個(gè)GPU、2個(gè)月、近600萬美元”，相比之下，GPT-4o等模型的訓(xùn)練成本約為1億美元，至少在萬個(gè)GPU量級的計(jì)算集群上訓(xùn)練�！癓lama 3 405B 使用了3080萬GPU小時(shí)，而DeepSeek-V3 看起來是一個(gè)更強(qiáng)大的模型，僅使用了280萬GPU 小時(shí)（計(jì)算 ......

性能匹敵GPT-4o的國產(chǎn)模型在海外火了，訓(xùn)練僅花費(fèi)558萬美元

12月27日，海外社交媒體平臺X被來自中國的大模型DeepSeek-V3刷屏了，科技圈驚嘆的點(diǎn)在于，這一模型能力對標(biāo)頭部模型，但訓(xùn)練的預(yù)算卻非常低，“2048個(gè)GPU、2個(gè)月、近600萬美元”，相比之下，GPT-4o等模型的訓(xùn)練成本約為1億美元，至少在萬個(gè)GPU量級的計(jì)算集群上訓(xùn)練。

“Llama 3 405B 使用了3080萬GPU小時(shí)，而DeepSeek-V3 看起來是一個(gè)更強(qiáng)大的模型，僅使用了280萬GPU 小時(shí)（計(jì)算量約為十分之一）�！鼻癘pen AI 聯(lián)合創(chuàng)始人、Tesla AI 團(tuán)隊(duì)負(fù)責(zé)人Andrej Karpathy在X上發(fā)文表示，如果該模型的優(yōu)良表現(xiàn)能夠得到廣泛驗(yàn)證，這一模型將是在資源受限的情況下，在研究和工程方面讓人印象深刻的一次展示。

性能匹敵GPT-4o的國產(chǎn)模型在海外火了，訓(xùn)練僅花費(fèi)558萬美元

12月26日晚，幻方量化旗下AI公司深度求索（DeepSeek）宣布，全新系列模型DeepSeek-V3上線并同步開源，API服務(wù)已同步更新，接口配置無需改動(dòng)，登錄官網(wǎng)（chat.deepseek.com）即可與最新版 V3 模型對話。當(dāng)前版本的 DeepSeek-V3 暫不支持多模態(tài)輸入輸出。

具體來說，DeepSeek-V3是一個(gè)具有6710億總參數(shù)的MoE（混合專家）模型，每token激活參數(shù)為370億，在14.8萬億token上進(jìn)行了預(yù)訓(xùn)練。

官方給出的數(shù)據(jù)顯示，DeepSeek-V3 多項(xiàng)評測成績超越了阿里通義的 Qwen2.5-72B 和Meta的Llama-3.1-405B 等其他開源模型，并在性能上和世界頂尖的閉源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

性能匹敵GPT-4o的國產(chǎn)模型在海外火了，訓(xùn)練僅花費(fèi)558萬美元

與此同時(shí)，DeepSeek表示，通過算法和工程上的創(chuàng)新，DeepSeek-V3 的生成吐字速度提高了三倍，從20 TPS提高至60 TPS，API服務(wù)價(jià)格也同步做了調(diào)整，目前為每百萬輸入tokens 0.5元（緩存命中）/2元（緩存未命中），每百萬輸出tokens 8元。但全新模型有45天的優(yōu)惠價(jià)格體驗(yàn)期，為每百萬輸入tokens 0.1元（緩存命中）/1元（緩存未命中），每百萬輸出tokens 2元。

這一價(jià)格在目前頭部模型市場中有一定的競爭力。例如OpenAI的GPT 4o定價(jià)為輸入：5美元/百萬Token，輸出：15美元/百萬Token，加總成本是20美元，約合人民幣145元。

性能匹敵GPT-4o的國產(chǎn)模型在海外火了，訓(xùn)練僅花費(fèi)558萬美元

DeepSeek此前一直走的是性價(jià)比路線，在訓(xùn)練上做了一些調(diào)整。據(jù)此次發(fā)布的技術(shù)報(bào)告，DeepSeek-V3仍然采用多頭潛在注意力（MLA）以實(shí)現(xiàn)高效推理，并采用 DeepSeek MoE以實(shí)現(xiàn)經(jīng)濟(jì)的訓(xùn)練。這兩種架構(gòu)在 DeepSeek-V2中得到了驗(yàn)證，證明了它們在保持強(qiáng)大模型性能的同時(shí)，能夠?qū)崿F(xiàn)高效的訓(xùn)練和推理。

除了基本架構(gòu)外，DeepSeek還實(shí)施了兩項(xiàng)額外策略以進(jìn)一步增強(qiáng)模型能力。首先是采用了無輔助損失的負(fù)載平衡策略，其次采用了多token預(yù)測訓(xùn)練目標(biāo)，這可以提升評估基準(zhǔn)的整體性能。

在已開源的論文中，DeepSeek強(qiáng)調(diào)了其訓(xùn)練成本較低通過對算法、框架和硬件的優(yōu)化協(xié)同設(shè)計(jì)，在預(yù)訓(xùn)練階段，模型每訓(xùn)練1萬億token僅需要18萬個(gè)GPU小時(shí)，即在團(tuán)隊(duì)配備2048個(gè)H800 GPU的集群上只需3.7天，也就是說，團(tuán)隊(duì)的預(yù)訓(xùn)練在不到2個(gè)月的時(shí)間內(nèi)完成。

性能匹敵GPT-4o的國產(chǎn)模型在海外火了，訓(xùn)練僅花費(fèi)558萬美元

此外，加上用于擴(kuò)展上下文長度所需的11.9萬個(gè) GPU小時(shí)和5000個(gè) GPU小時(shí)的后訓(xùn)練，DeepSeek-V3完整訓(xùn)練消耗了278.8萬個(gè)GPU小時(shí)。

假設(shè)H800 GPU的租用價(jià)格為每塊GPU 2美元/小時(shí)，DeepSeek-V3的全部訓(xùn)練成本總計(jì)僅為557.6萬美元。DeepSeek表示，該成本僅包括DeepSeek-V3的正式訓(xùn)練，不包括與先前在架構(gòu)、算法或數(shù)據(jù)上的研究和消融實(shí)驗(yàn)相關(guān)的成本。

Karpathy在發(fā)文中肯定了這一訓(xùn)練成本的突破，他提到，作為參考，要達(dá)到V3這種級別的能力，通常需要約1.6萬個(gè)GPU的計(jì)算集群。不僅如此，當(dāng)前業(yè)界正在部署的集群規(guī)模甚至已經(jīng)達(dá)到了10萬個(gè)GPU。

但這是否意味著前沿LLM不需要大型 GPU 集群？在Karpathy看來，也并非如此，“但你必須確保不浪費(fèi)你所擁有的資源，這看起來是一個(gè)很好的證明，表明在數(shù)據(jù)和算法方面還有很多工作要做” 。

Karpathy同時(shí)夸贊了DeepSeek在開源網(wǎng)站上公布的技術(shù)報(bào)告，“這是非常好且詳細(xì)的技術(shù)報(bào)告，值得一讀�！币晃粊碜訫enlo Venture的投資人也感慨，“53 頁的技術(shù)論文是黃金”（53-page technical paper is GOLD）。

英偉達(dá)高級研究科學(xué)家Jim Fan在X上轉(zhuǎn)發(fā)Karpathy的推文表示，資源限制是一件美好的事情。在殘酷的人工智能競爭環(huán)境中，生存本能是取得突破的主要?jiǎng)恿Α！拔谊P(guān)注 DeepSeek 很久了。去年他們推出了最好的開源模型之一，卓越的OSS模型給商業(yè)前沿 LLM 公司帶來了巨大壓力，迫使它們加快步伐�！�

Lepton AI 創(chuàng)始人、前阿里巴巴副總裁賈揚(yáng)清也參與了這一話題的討論，他認(rèn)為，DeepSeek 的成功是簡單的智慧和實(shí)用主義在起作用，在計(jì)算和人力有限的情況下，通過智能研究產(chǎn)生最佳結(jié)果。

此前DeepSeek一直被冠以“AI界拼多多”的名頭，也是年中引發(fā)中國大模型價(jià)格戰(zhàn)的源頭。今年5月，DeepSeek發(fā)布的一款名為DeepSeek V2的開源模型，提供了一種史無前例的性價(jià)比：推理成本被降到每百萬token僅 1塊錢，在當(dāng)時(shí)約等于Llama3 70B的七分之一，GPT-4 Turbo的七十分之一。隨后，字節(jié)、騰訊、百度、阿里等大廠紛紛降價(jià)，大模型價(jià)格戰(zhàn)由此一觸即發(fā)。

公開信息顯示，DeepSeek成立于2023年7月，由知名量化資管巨頭幻方量化創(chuàng)立，幻方量化創(chuàng)始人梁文峰在量化投資和高性能計(jì)算領(lǐng)域具有深厚的背景和豐富的經(jīng)驗(yàn)。

在這次DeepSeek-V3發(fā)布時(shí)，大模型生態(tài)社區(qū)OpenCSG（開放傳神）創(chuàng)始人陳冉第一時(shí)間關(guān)注到的是訓(xùn)練數(shù)據(jù)，他對第一財(cái)經(jīng)表示，“一切都是數(shù)據(jù)，數(shù)據(jù)質(zhì)量決定模型質(zhì)量”，Deepseek-V3基于14萬億token的數(shù)據(jù)訓(xùn)練，這些數(shù)據(jù)應(yīng)該非常有價(jià)值。

(本文來自第一財(cái)經(jīng))

相關(guān)熱詞： deepseek AI大模型 GPT-4 模型 gpt gpu 英偉達(dá) tps 性能匹敵開源

性能匹敵GPT-4o的國產(chǎn)模型在海外火了，訓(xùn)練僅花費(fèi)558萬美元
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-28 10:24:45 瀏覽：249次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

性能匹敵GPT-4o的國產(chǎn)模型在海外火了，訓(xùn)練僅花費(fèi)558萬美元 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-28 10:24:45 瀏覽：249次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

性能匹敵GPT-4o的國產(chǎn)模型在海外火了，訓(xùn)練僅花費(fèi)558萬美元
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-28 10:24:45 瀏覽：249次