(圖片來源:Shutterstock US)
正如大家所知,“東方神秘力量”DeepSeek近期在中國、美國的科技圈受到廣泛關(guān)注,甚至被認為是大模型行業(yè)最大“黑馬”。
近期,中國 AI 大模型創(chuàng)業(yè)公司DeepSeek(深度求索)正式發(fā)布 DeepSeek-R1大模型,稱在數(shù)學、代碼、自然語言推理等任務(wù)上,性能比肩OpenAI o1正式版。
這一消息震動了全球 AI 圈,也讓美國 AI 公司研究人員感到吃驚于中國趕超了美國大模型技術(shù)。
一位Meta的工程師在美國科技公司員工社區(qū)Blind中這樣寫道,“Meta的生成式AI部門正處于恐慌中。這一切始于DeepSeek,它使得 Llama 4 在基準測試中已經(jīng)落后。雪上加霜的是:那個不知名的中國公司,僅有550萬美元的訓練預算。工程師們正在瘋狂地剖析DeepSeek,并試圖從中復制一切可能的東西!
鈦媒體AGI了解到,截至發(fā)稿前,DeepSeek移動端在蘋果 App Store應(yīng)用商店排行第八,超越Google Gemini、Microsoft Copilot等美國生成式 AI 產(chǎn)品,下載熱度僅次于ChatGPT。
同時,OpenAI、字節(jié)跳動、阿里通義以及智譜、Kimi月之暗面等國內(nèi)外團隊都在積極研究DeepSeek,OpenAI和字節(jié)跳動都在考慮與DeepSeek展開研究合作。
達沃斯世界經(jīng)濟論壇期間,Scale AI創(chuàng)始人亞歷山大王(Alexandr Wang)直言,DeepSeekAI大模型性能大致與美國最好的模型相當。他認為,過去十年來,美國可能一直在 AI 競賽中領(lǐng)先于中國,但DeepSeek的AI大模型發(fā)布可能會“改變一切”。
值得細品的是Alexandr Wang說的另一段話:“DeepSeek大約有5萬張H100計算卡,他們顯然不能談?wù)撨@件事,因為這違反了美國實施的出口管制。我認為這是真的,我認為他們的籌碼比其他人預期的要多,但也會繼續(xù)前進。他們將受到芯片控制和出口管制的限制!
美國科技企業(yè)高管:中國發(fā)布的DeepSeek性能與美國最好的AI模型不相上下
Alexandr Wang暗示DeepSeek將會受到美國管制。
DeepSeek創(chuàng)始人、頭部量化私募幻方量化創(chuàng)始人梁文鋒曾表示,DeepSeek面臨的主要制約因素不是資金,而是高端算力的使用權(quán),這些芯片對于訓練先進AI模型至關(guān)重要。
隨著AMD證實DeepSeek正在使用最強 AI 芯片之一的MI300X進行大模型訓練,對于中國 AI 如何突破圍欄實施大模型訓練,將成為關(guān)鍵話題。
DeepSeek朝美國硅谷開的“這一槍”用時4年
如果你在 AI 圈,對于DeepSeek和梁文鋒已經(jīng)有很多文章進行介紹了?偨Y(jié)來說有幾點:
1、梁文鋒是典型的“小鎮(zhèn)做題家”:出生于廣東湛江的五(三)線城市、17歲考入浙江大學,2010年碩士畢業(yè)于浙江大學信息與通信工程專業(yè)。
2、碩士畢業(yè)后,梁文鋒就帶領(lǐng)團隊開始使用機器學習等技術(shù)探索全自動量化交易。2010年,他和浙江大學校友創(chuàng)立了雅克比投資。
3、2015年6月,30歲的梁文鋒與“股東出軌女下屬”的徐進聯(lián)合創(chuàng)辦杭州幻方科技有限公司(幻方量化、High-Flyer),依靠數(shù)學與人工智能進行量化投資,立志成為世界頂級的量化對沖基金。
4、2021年,幻方量化管理規(guī)模已突破了1000億元,同一年,梁文鋒開始找尋“副業(yè)”,找供應(yīng)商買了數(shù)千張英偉達GPU顯卡(當時應(yīng)該買的是RTX4090、A100、L40等),發(fā)力AI技術(shù)。而到2023年,幻方量化管理總規(guī)模已降到400多億元。
5、2023年初,幻方量化曾宣布自身擁有1萬張英偉達A100 GPU卡,后來我們了解到,當時幻方量化說了假話,它當時僅擁有數(shù)千張A100卡而已,剩下則是消費卡、老款顯卡,還有用云服務(wù)方式租用A100顯卡。業(yè)內(nèi)人士將其視為,一個億萬富翁尋找新愛好時的“古怪行為”。
6、DeepSeek熱潮很大程度上與國內(nèi)媒體所謂“中國大模型企業(yè)超越美國”這類東升西降的熱捧是分不開。其實,DeepSeek技術(shù)并未稀奇到“驚嘆”程度,DeepSeek V1版本的時候很粗糙,當時大量使用GPT的開源數(shù)據(jù),甚至一度調(diào)用過GPT-3.5 API接口。如今的“AI界的拼多多”,本身是AI infra技術(shù)和團隊 AI 技術(shù)能力強。因此,媒體用DeepSeek單一模型證實中國 AI 技術(shù)超越美國,是邏輯上的“以偏概全”錯誤,DeepSeek是 AI 技術(shù)迭代的受益者,但這并不代表它在技術(shù)上具備了超越OpenAI等領(lǐng)先企業(yè)的實力。
7、DeepSeek的實例進一步表明,AI技術(shù)并不存在明顯的“護城河”,模型技術(shù)的超越已成為常態(tài),“六小虎”并不是唯一頭部。然而,AI算力規(guī)模的增長以及長期的模型迭代是否能夠真正超越OpenAI,才是決定AI大模型發(fā)展的關(guān)鍵因素。
8、DeepSeek不融資、短期沒有上市意愿,良好的現(xiàn)金流促使DeepSeek招聘大量 AI 研究人才,形成所謂“研究院”氛圍,只負責前沿,不負責商業(yè),甚至團隊非常懂基礎(chǔ)設(shè)施和芯片原理。此外,他還從對沖基金行業(yè)帶走了最好的團隊加入DeepSeek。
正如圖靈獎得主、Meta AI首席科學家楊樂昆(Yann LeCun)所說,“給那些看到 DeepSeek 的表現(xiàn)后,覺得‘中國在 AI 方面正在超越美國’的人,你們的解讀是錯的。正確的解讀應(yīng)該是,‘開源模型正在超越專有模型’!
事實上,從購買千張GPU搭建 AI 算力開始,DeepSeek大模型超越OpenAI之路用時4年。
去年 12 月底,DeepSeek發(fā)布的DeepSeek-V3開源基礎(chǔ)模型性能,與GPT-4o和Claude Sonnet 3.5等頂尖模型相近,但訓練成本極低。整個訓練在2048塊英偉達H800 GPU集群上完成,僅花費約557.6萬美元,不到其他頂尖模型訓練成本的十分之一。
GPT-4o等模型的訓練成本約為1億美元,至少在萬個GPU量級的計算集群上訓練,而且使用的是性能更為優(yōu)越的H100 GPU。例如,同為頂尖大模型,去年發(fā)布的Llama 3.1在訓練過程中使用了16,384塊H100 GPU,消耗了DeepSeek-V3 11倍的計算資源,成本超過6000萬美元。
如今,盡管DeepSeek現(xiàn)在尚未公布訓練推理模型R1的完整成本,但它公布了API的定價,每百萬輸入 tokens 1 元-4元人民幣,每百萬輸出 tokens 16 元。這個收費大約是 OpenAI o1運行成本的三十分之一。
成本進一步降低的同時,DeepSeek R1的技術(shù)關(guān)鍵點在于其創(chuàng)新的訓練方法DeepSeek-R1-Zero路線,該路線直接將強化學習(RL)應(yīng)用于基礎(chǔ)模型,無需依賴監(jiān)督微調(diào)(SFT)和已標注數(shù)據(jù)。通過建立簡單的準確性獎勵和格式要求規(guī)則,DeepSeek R1在無監(jiān)督數(shù)據(jù)的情況下實現(xiàn)自我進化,獲得強大的推理能力。在AIME 2024基準測試中,DeepSeek R1-Zero展現(xiàn)了高達86.7%的準確率,證明了直接強化學習在訓練高級推理模型中的有效性。
艾倫人工智能研究所科學家內(nèi)森蘭伯特(Nathan Lambert)表示,R1的論文是推理模型研究不確定性中的一個重要轉(zhuǎn)折點,因為到目前為止,AI 推理模型一直是工業(yè)研究的一個重要領(lǐng)域,但缺乏一篇具有開創(chuàng)性的論文。
據(jù)知識分子,中山大學集成電路學院助理教授王美琪表示,直接強化學習方法與 DeepSeek 團隊在多版模型迭代中的一系列工程優(yōu)化技術(shù)(如簡化獎懲模型設(shè)計等)相結(jié)合,有效降低了大模型的訓練成本。直接強化學習避免了大量人工標注數(shù)據(jù)的工作,而獎懲模型的簡化設(shè)計等則減少了對計算資源的需求。
“DeepSeek 的運行方式就像DeepMind早期一樣,”一位 AI 投資者表示,它純粹專注于研究和工程,而非商業(yè)化。
英偉達高級研究科學家Jim Fan直言,“DeepSeek是本年度開源大語言模型領(lǐng)域的最大黑馬。”
算力需求仍是大模型資源“困境”,美國出口管制影響不小
對于DeepSeek,英國《自然》雜志認為,盡管美國對華半導體出口管制進行限制,但中國公司還是成功制造了DeepSeek R1。但西雅圖 AI 研究員 Francois Chollet認為,“高效利用資源比單純的計算規(guī)模更重要!
梁文鋒此前也指出,對于DeepSeek來說,算力更高的先進 AI 芯片對于訓練先進AI模型至關(guān)重要。
如今,Alexander Wang直言不諱地表達美國政府需要為了領(lǐng)先優(yōu)勢對DeepSeek的 AI 芯片進行調(diào)查和管制。
Alexandr Wang出生于1997年,他于19歲那年從美國麻省理工學院輟學,創(chuàng)立的AI公司Scale AI估值超百億美元,獲得了包括Y Combinator、英偉達、AMD風投、亞馬遜、Meta等巨頭科技公司投資,該公司為OpenAI、谷歌和 Meta等提供訓練數(shù)據(jù)。
此前,Alexandr Wang發(fā)文表達對中國 AI 追趕美國的擔憂。他認為,DeepSeek-V3的發(fā)布給外界的教訓是,在美國人休息時,中國人在工作,并以更便宜、更快、更強的產(chǎn)品迎頭趕上。
OpenAI 首席財務(wù)官 Sarah Friar也認為,中美之間的 AI 競爭不是簡單的口水戰(zhàn),這是一場真實的競爭,雙方正在大力投資這一領(lǐng)域!拔覀円呀(jīng)看到特朗普政府愿意積極參與,無論是從經(jīng)濟角度,還是從監(jiān)管和商業(yè)競爭的角度。我們很期待開始實質(zhì)性的合作!
當前,美國出口管制成為中國 AI 行業(yè)發(fā)展的關(guān)鍵因素之一。
北京時間1月15日晚,美國商務(wù)部工業(yè)和安全局 (BIS) 修訂了《出口管制條例》(EAR),在實體清單中分兩批,共增加了25個中國實體,包括智譜旗下9個實體等。
這是首個中國AI大模型公司被美國列入“實體清單”。
對此,智譜發(fā)聲明回應(yīng)稱,“美國商務(wù)部工業(yè)和安全局(BIS)擬將智譜及子公司增列至出口管制實體清單。這一決定缺乏事實依據(jù),我們對此表示強烈反對。鑒于智譜掌握全鏈路大模型核心技術(shù)的事實,被列入實體清單不會對公司業(yè)務(wù)產(chǎn)生實質(zhì)影響。智譜有能力也將更專注地為我們的用戶和伙伴提供世界一流的大模型技術(shù)、產(chǎn)品和服務(wù)。同時公司將繼續(xù)參與全球人工智能競爭,堅持最高安全標準和公平、透明、可持續(xù)原則,推動人工智能技術(shù)發(fā)展!
在此之前,曠視、依圖、云從、摩爾線程等大量 AI 公司被列入美國“實體清”,對于一些 AI 軟件公司來說有一定影響無法再訓練出萬億規(guī)模大模型。
然而,DeepSeek、字節(jié)跳動等中國企業(yè)的出現(xiàn)和發(fā)力 AI 領(lǐng)域,讓美國意識到管制無法阻止中國對標OpenAI,持續(xù)推進 AI 技術(shù)領(lǐng)先。
《福布斯》發(fā)文指出,DeepSeek讓世界認識到,“中國并未退出這場(人工智能的)競賽。”
“如果最好的開源技術(shù)來自中國,美國開發(fā)人員將在這些技術(shù)的基礎(chǔ)上構(gòu)建他們的系統(tǒng)。從長遠來看,這可能會讓中國成為研發(fā) AI 的中心!薄都~約時報》稱。
不過,DeepSeek依然面臨競爭對手囤積大量算力挑戰(zhàn)。本周,特朗普宣布,OpenAI與甲骨文、日本軟銀集團共同創(chuàng)立一家5000億美金投資新計劃公司“星際之門”,立即在美國至少投資 1000 億美元用于 AI 基礎(chǔ)設(shè)施。同時,馬斯克的 xAI 也正在大規(guī)模擴展其超級計算機,以容納超過100萬個 GPU,以幫助訓練其 Grok AI 模型。
這時我就想起了百度創(chuàng)始人、CEO李彥宏的話:“開源模型會越來越落后”。
如今看來,DeepSeek證明開源并未落后,甚至給中國 AI 超越美國的目標帶來更多的希望。但是,DeepSeek能否因此面臨美國政府的針對性限制,最終導致模型訓練和算力層面面臨制約,依然存在巨大不確定性。
“當前,DeepSeek 擁有中國最大的先進計算集群之一,”梁文鋒的商業(yè)合作伙伴對外稱,“他們現(xiàn)在有足夠的資源容量,但不會太久!
(本文首發(fā)于鈦媒體App,作者|林志佳,編輯|胡潤峰)