過去一周,來自中國的 DeepSeek R1 模型攪動整個海外 AI 圈。一方面,它以較低的訓練成本實現了媲美 OpenAI o1 性能的效果,詮釋了中國在工程能力和規(guī)模創(chuàng)新上的優(yōu)勢;另一方面,它也秉持開源精神,熱衷分享技術細節(jié)。最近,來自加州伯克利大學在讀博士 Jiayi Pan 的研究團隊更是成功地以極低的成本(低于 30 美元)復現了 DeepSeek R1-Zero 的關鍵技術「頓悟時刻」。
所以也難怪 Meta CEO 扎克伯格、圖靈獎得主 Yann LeCun 以及 Deepmind CEO Demis Hassabis 等人都對 DeepSeek 給予了高度評價。隨著 DeepSeek R1 的熱度不斷攀升,今天下午,DeepSeek App 因用戶訪問量激增而短暫出現服務器繁忙的狀況,甚至一度「崩了」。在海外,OpenAI CEO Sam Altman 剛剛也試圖劇透 o3-mini 使用額度,來搶回國際媒體的頭版頭條ChatGPT Plus 會員每天可查詢 100 次。然而,鮮為人知的是,在 DeepSeek聲名鵲起之前,其母公司幻方量化其實是國內量化私募領域的頭部企業(yè)之一。DeepSeek 模型震撼硅谷,含金量還在上升2024 年 12 月 26 日,DeepSeek 正式發(fā)布了 DeepSeek-V3 大模型。這款模型在多項基準測試表現優(yōu)異,超越業(yè)內主流頂尖模型,特別是在知識問答、長文本處理、代碼生成和數學能力等方面。例如,在 MMLU、GPQA 等知識類任務中,DeepSeek-V3 的表現接近國際頂尖模型 Claude-3.5-Sonnet。
在數學能力方面,更是在 AIME 2024 和 CNMO 2024 等測試中創(chuàng)造了新的記錄,超越所有已知的開源和閉源模型。同時,其生成速度較上代提升了 200%,達到 60 TPS,大幅改善了用戶體驗。根據獨立評測網站 Artificial Analysis 的分析,DeepSeek-V3 在多項關鍵指標上超越了其他開源模型,并在性能上與世界頂尖的閉源模型 GPT-4o 和 Claude-3.5-Sonnet 不分伯仲。DeepSeek-V3 的核心技術優(yōu)勢包括:1.混合專家(MoE)架構:DeepSeek-V3 擁有 6710 億參數,但在實際運行中,每個輸入僅激活 370 億參數,這種選擇性激活的方式大大降低了計算成本,同時保持了高性能。2.多頭潛在注意力(MLA):該架構在 DeepSeek-V2 中已經得到驗證,能夠實現高效的訓練和推理。3.無輔助損失的負載平衡策略:這一策略旨在最小化因負載平衡對模型性能產生的負面影響。4.多 tokens 預測訓練目標:該策略提升了模型的整體性能。5.高效的訓練框架:采用 HAI-LLM 框架,支持 16-way Pipeline Parallelism(PP)、64-way Expert Parallelism(EP)和 ZeRO-1 Data Parallelism(DP),并通過多種優(yōu)化手段降低了訓練成本。更重要的是,DeepSeek-V3 的訓練成本僅為 558 萬美元,遠低于如訓練成本高達 7800 萬美元的 GPT-4。并且,其 API 服務價格也延續(xù)了過往親民的打法。
輸入 tokens 每百萬僅需 0.5元(緩存命中)或 2 元(緩存未命中),輸出 tokens 每百萬僅需 8 元!督鹑跁r報》將其描述為「震驚國際科技界的黑馬」,認為其性能已與資金雄厚的 OpenAI 等美國競爭對手模型相媲美。Maginative 創(chuàng)始人 Chris McKay 更進一步指出,DeepSeek-V3 的成功或將重新定義 AI 模型開發(fā)的既定方法。換句話說,DeepSeek-V3 的成功也被視為對美國算力出口限制的直接回應,這種外部壓力反而刺激了中國的創(chuàng)新。DeepSeek 創(chuàng)始人梁文鋒,低調的浙大天才DeepSeek 的崛起讓硅谷寢食難安,這個攪動全球 AI 行業(yè)模型的背后創(chuàng)始人梁文鋒則完美詮釋了中國傳統(tǒng)意義上天才的成長軌跡少年功成,歷久彌新。一個好的 AI 公司領導者,需要既懂技術又懂商業(yè),既要有遠見又要務實,既要有創(chuàng)新勇氣又要有工程紀律。這種復合型人才本身就是稀缺資源。17 歲考入浙江大學信息與電子工程學專業(yè),30 歲創(chuàng)辦幻方量化(Hquant),開始帶領團隊探索全自動量化交易。梁文鋒的故事印證了天才總會在正確的時間做對的事。
2010 年:隨著滬深 300 股指期貨推出,量化投資迎來發(fā)展機遇,幻方團隊乘勢而上,自營資金迅速增長。2015 年:梁文鋒與校友共同創(chuàng)立幻方量化,次年推出首個 AI 模型,上線深度學習生成的交易倉位。2017 年:幻方量化宣稱實現投資策略全面 AI 化。2018 年:確立 AI 為公司主要發(fā)展方向。2019 年:資金管理規(guī)模突破百億元,成為國內量化私募「四巨頭」一。2021 年:幻方量化成為國內首家突破千億規(guī)模的量化私募大廠。你不能只在成功的時候才想起這家公司在過去幾年坐冷板凳的日子。不過,就像量化交易公司轉型 AI,看似意外,實則順理成章 因為它們都是數據驅動的技術密集型行業(yè)。黃仁勛只想賣游戲顯卡,賺我們這些臭打游戲的三瓜兩棗,卻沒想到成了全球最大的 AI 軍火庫,幻方踏進 AI 領域也是何其相似。這種演進比當下許多行業(yè)生搬硬套 AI 大模型更有生命力;梅搅炕诹炕顿Y過程中積累了大量數據處理和算法優(yōu)化經驗,同時擁有大量 A100 芯片,為 AI 模型訓練提供了強大硬件支持。從 2017 年開始,幻方量化大規(guī)模布局 AI 算力,搭建「螢火一號」「螢火二號」等高性能計算集群,為 AI 模型訓練提供強大算力支持。
2023 年,幻方量化正式成立 DeepSeek,專注于 AI 大模型研發(fā)。DeepSeek 繼承了幻方量化在技術、人才和資源方面的積累,迅速在 AI 領域嶄露頭角。在接受《暗涌》的深度訪談中,DeepSeek 創(chuàng)始人梁文鋒同樣展現出獨特的戰(zhàn)略視野。不同于大多數選擇復制 Llama 架構的中國公司,DeepSeek 直接從模型結構入手,只為瞄準 AGI 的宏偉目標。梁文鋒毫不諱言當前的差距當前中國 AI 與國際頂尖水平存在顯著差距,在模型結構、訓練動力學和數據效率上的綜合差距導致需要投入 4 倍的算力才能達到同等效果。
圖片來自央視新聞截圖這種直面挑戰(zhàn)的態(tài)度源于梁文鋒在幻方多年的經驗積累。他強調,開源不僅是技術分享,更是一種文化表達,真正的護城河在于團隊的持續(xù)創(chuàng)新能力。DeepSeek 獨特的組織文化鼓勵自下而上的創(chuàng)新,淡化層級,重視人才的熱情和創(chuàng)造力。團隊主要由頂尖高校的年輕人組成,采用自然分工模式,讓員工自主探索和協(xié)作。在招聘時更看重員工的熱愛和好奇心,而非傳統(tǒng)意義上的經驗和背景。對于行業(yè)前景,梁文鋒認為 AI 正處于技術創(chuàng)新的爆發(fā)期,而非應用爆發(fā)期。他強調,中國需要更多原創(chuàng)技術創(chuàng)新,不能永遠處于模仿階段,需要有人站到技術前沿。即使 OpenAI 等公司目前處于領先地位,但創(chuàng)新的機會仍然存在。
卷翻硅谷,Deepseek 讓海外 AI 圈坐立不安盡管業(yè)界對 DeepSeek 的評價不盡相同,但我們還是搜集了一些業(yè)內人士的評價。英偉達 GEAR Lab 項目負責人 Jim Fan 對 DeepSeek-R1 給予了高度評價。他指出這代表著非美國公司正在踐行 OpenAI 最初的開放使命,通過公開原始算法和學習曲線等方式實現影響力,順便還內涵了一波 OpenAI。DeepSeek-R1 不僅開源了一系列模型,還披露了所有訓練秘密。它們可能是首個展示 RL 飛輪重大且持續(xù)增長的開源項目。影響力既可以通過「ASI 內部實現」或「草莓計劃」等傳說般的項目實現,也可以簡單地通過公開原始算法和 matplotlib 學習曲線來達成。華爾街頂級風投 A16Z 創(chuàng)始人 Marc Andreesen 則認為 DeepSeek R1 是他所見過的最令人驚奇和令人印象深刻的突破之一,作為開源,這是給世界的一份意義深遠的禮物。
騰訊前高級研究員、北京大學人工智能方向博士后盧菁從技術積累的角度進行分析。他指出 DeepSeek 并非突然爆火,它承接了上一代模型版本中的很多創(chuàng)新,相關模型架構、算法創(chuàng)新經過迭代驗證,震動行業(yè)也有其必然性。圖靈獎得主、Meta 首席 AI 科學家 Yann LeCun 則提出了一個新的視角:「給那些看到 DeepSeek 的表現后,覺得『中國在 AI 方面正在超越美國』的人,你們的解讀是錯的。正確的解讀應該是,開源模型正在超越專有模型」!
Deepmind CEO Demis Hassabis 的評價則透露出一絲憂慮:它(DeepSeek)取得的成就令人印象深刻,我認為我們需要考慮如何保持西方前沿模型的領先地位,我認為西方仍然領先,但可以肯定的是,中國具有極強的工程和規(guī);芰ΑN④ CEO Satya Nadella 在瑞士達沃斯世界經濟論壇上表示,DeepSeek 切實有效地開發(fā)出了一款開源模型,不僅在推理計算方面表現出色,而且超級計算效率極高。他強調,微軟必須以最高度的重視來應對中國的這些突破性進展。Meta CEO 扎克伯格評價則更加深入,他認為 DeepSeek 展現出的技術實力和性能令人印象深刻,并指出中美之間的 AI 差距已經微乎其微,中國的全力沖刺使得這場競爭愈發(fā)激烈。
來自競爭對手的反應或許是對 DeepSeek 最好的認可。據 Meta 員工在匿名職場社區(qū) TeamBlind 上的爆料,DeepSeek-V3 和 R1 的出現讓 Meta 的生成式 AI 團隊陷入了恐慌。Meta 的工程師們正在爭分奪秒地分析 DeepSeek 的技術,試圖從中復制任何可能的技術。原因在于 DeepSeek-V3 的訓練成本僅為 558 萬美元,這個數字甚至不及 Meta 某些高管的年薪。如此懸殊的投入產出比,讓 Meta 管理層在解釋其龐大的 AI 研發(fā)預算時倍感壓力。
國際主流媒體對 DeepSeek 的崛起也給予了高度關注。《金融時報》指出,DeepSeek 的成功顛覆了「AI 研發(fā)必須依賴巨額投入」的傳統(tǒng)認知,證明精準的技術路線同樣能實現卓越的研究成果。更重要的是,DeepSeek 團隊對技術創(chuàng)新的無私分享,讓這家更注重研究價值的公司成為了一個格外強勁的競爭對手!督洕鷮W人》表示,認為中國 AI 技術在成本效益方面的快速突破,已經開始動搖美國的技術優(yōu)勢,這可能會影響美國未來十年的生產力提升和經濟增長潛力。
《紐約時報》則從另一個角度切入,DeepSeek-V3 在性能上與美國公司的高端聊天機器人相當,但成本大大降低。這表明即使在芯片出口管制的情況下,中國公司也能通過創(chuàng)新和高效利用資源來競爭。并且,美國政府的芯片限制政策可能適得其反,反而推動了中國在開源 AI 技術領域的創(chuàng)新突破。DeepSeek「報錯家門」,自稱是 GPT-4在一片贊譽聲中,DeepSeek 也面臨著一些爭議。不少外界人士認為 DeepSeek可能在訓練過程中使用了 ChatGPT 等模型的輸出數據作為訓練材料,通過模型蒸餾技術,這些數據中的「知識」被遷移到 DeepSeek 自己的模型中。這種做法在 AI 領域并非罕見,但質疑者關注的是 DeepSeek 是否在未充分披露的情況下使用了 OpenAI 模型的輸出數據。這似乎在 DeepSeek-V3 的自我認知上也有所體現。早前就有用戶發(fā)現,當詢問模型的身份時,它會將自己誤認為是 GPT-4。
高質量數據一直是 AI 發(fā)展的重要因素,就連 OpenAI 也難以避免數據獲取的爭議,其從互聯網大規(guī)模爬取數據的做法同樣因此吃了許多版權官司,截至目前,OpenAI 與紐約時報的一審裁決尚未靴子落地,又再添新案。所以 DeepSeek 也因此遭到了 Sam Altman 和 John Schulman 的公開內涵!笍椭颇阒佬械猛ǖ臇|西是(相對)容易的。當你不知道它是否行得通時,做一些新的、有風險的、困難的事情是非常困難的!
不過,DeepSeek 團隊在 R1 的技術報告中明確表示未使用 OpenAI 模型的輸出數據,并表示通過強化學習和獨特的訓練策略實現了高性能。例如,采用了多階段訓練方式,包括基礎模型訓練、強化學習(RL)訓練、微調等,這種多階段循環(huán)訓練方式有助于模型在不同階段吸收不同的知識和能力。省錢也是技術活,DeepSeek 背后技術的可取之道DeepSeek-R1 技術報告里提到一個值得關注的發(fā)現,那就是 R1 zero 訓練過程里出現的「aha moment(頓悟時刻)」。在模型的中期訓練階段,DeepSeek-R1-Zero 開始主動重新評估初始解題思路,并分配更多時間優(yōu)化策略(如多次嘗試不同解法)。換句話說,通過 RL 框架,AI 可能自發(fā)形成類人推理能力,甚至超越預設規(guī)則的限制。并且這也將有望為開發(fā)更自主、自適應的 AI 模型提供方向,比如在復雜決策(醫(yī)療診斷、算法設計)中動態(tài)調整策略。
與此同時,許多業(yè)內人士正試圖深入解析 DeepSeek 的技術報告。OpenAI 前聯創(chuàng) Andrej Karpathy 則在 DeepSeek V3 發(fā)布后曾表示:DeepSeek(這家中國的 AI 公司)今天讓人感到輕松,它公開發(fā)布了一個前沿級的語言模型(LLM),并且在極低的預算下完成了訓練(2048個GPU,持續(xù) 2 個月,花費 600 萬美元)。作為參考,這種能力通常需要 16K 個 GPU 的集群來支持,而現在這些先進的系統(tǒng)大多都使用大約 100K 個 GPU。例如,Llama 3(405B參數)使用了 3080 萬個 GPU 小時,而 DeepSeek-V3 似乎是一個更強大的模型,僅用了 280 萬個 GPU 小時(約為 Llama 3 的 1/11 計算量)。如果這個模型在實際測試中也表現出色(例如,LLM 競技場排名正在進行,我的快速測試表現不錯),那么這將是一個在資源受限的情況下,展現出研究和工程能力的非常令人印象深刻的成果。那么,這是不是意味著我們不再需要大型 GPU 集群來訓練前沿 LLM 了?并非如此,但它表明,你必須確保自己使用的資源不浪費,這個案例展示了數據和算法優(yōu)化仍然能帶來很大進展。此外,這份技術報告也非常精彩和詳細,值得一讀。
面對 DeepSeek V3 被質疑使用 ChatGPT 數據的爭議,Karpathy 則表示,大語言模型本質上并不具備人類式的自我意識.模型是否能正確回答自己身份,完全取決于開發(fā)團隊是否專門構建了自我認知訓練集,如果沒有特意訓練,模型會基于訓練數據中最接近的信息作答。此外,模型將自己識別為 ChatGPT 并非問題所在,考慮到ChatGPT相關數據在互聯網上的普遍性,這種回答實際上反映了一種自然的知識涌現現象。Jim Fan 在閱讀 DeepSeek-R1 的技術報告后則指出:這篇論文的最重要觀點是:完全由強化學習驅動,完全沒有任何監(jiān)督學習(SFT)的參與,這種方法類似于AlphaZero通過「冷啟動(Cold Start)」從零開始掌握圍棋、將棋和國際象棋,而不需要模仿人類棋手的下法。使用基于硬編碼規(guī)則計算的真實獎勵,而不是那些容易被強化學習「破解」的學習型獎勵模型。模型的思考時間隨著訓練進程的推進穩(wěn)步增加,這不是預先編程的,而是一種自發(fā)的特性。出現了自我反思和探索行為的現象。使用 GRPO 代替 PPO:GRPO 去除了 PPO 中的評論員網絡,轉而使用多個樣本的平均獎勵。這是一種簡單的方法,可以減少內存使用。值得注意的是,GRPO 是由 DeepSeek 團隊在 2024 年 2 月發(fā)明的,真的是一個非常強大的團隊。同一天 Kimi 也發(fā)布了類似的研究成果時,Jim Fan 發(fā)現兩家公司的研究殊途同歸:都放棄了 MCTS 等復雜樹搜索方法,轉向更簡單的線性化思維軌跡,采用傳統(tǒng)的自回歸預測方式都避免使用需要額外模型副本的價值函數,降低了計算資源需求,提高了訓練效率都摒棄密集的獎勵建模,盡可能依靠真實結果作為指導,確保了訓練的穩(wěn)定性
但兩者也存在顯著差異:DeepSeek 采用 AlphaZero 式的純 RL 冷啟動方法,Kimi k1.5 選擇 AlphaGo-Master 式的預熱策略,使用輕量級 SFTDeepSeek 以 MIT 協(xié)議開源,Kimi 則在多模態(tài)基準測試中表現出色,論文系統(tǒng)設計細節(jié)上更為豐富,涵蓋 RL 基礎設施、混合集群、代碼沙箱、并行策略不過,在這個快速迭代的 AI 市場中,領先優(yōu)勢往往稍縱即逝。其他模型公司必將迅速汲取 DeepSeek 的經驗并加以改進,或許很快就能迎頭趕上。大模型價格戰(zhàn)的發(fā)起者很多人都知道 DeepSeek 有一個名為「AI 屆拼多多」的稱號,卻并不知道這背后的含義其實源于去年打響的大模型價格戰(zhàn)。2024 年 5 月 6 日,DeepSeek 發(fā)布了 DeepSeek-V2 開源 MoE 模型,通過如 MLA(多頭潛在注意力機制)和 MoE(混合專家模型)等創(chuàng)新架構,實現了性能與成本的雙重突破。推理成本被降至每百萬 token 僅 1 元人民幣,約為當時 Llama3 70B 的七分之一,GPT-4 Turbo 的七十分之一。這種技術突破使得 DeepSeek 能夠在不貼錢的情況下,提供極具性價比的服務,同時也給其他廠商帶來了巨大的競爭壓力。DeepSeek-V2 的發(fā)布引發(fā)了連鎖反應,字節(jié)跳動、百度、阿里、騰訊、智譜 AI 紛紛跟進,大幅下調其大模型產品的價格。這場價格戰(zhàn)的影響力甚至跨越太平洋,引起了硅谷的高度關注。DeepSeek 也因此被冠以「AI 屆的拼多多」之稱。
面對外界的質疑,DeepSeek 創(chuàng)始人梁文鋒在接受暗涌的采訪時回應稱:「搶用戶并不是我們的主要目的。我們降價一方面是因為我們在探索下一代模型的結構中,成本先降下來了;另一方面,我們也覺得無論是 API 還是 AI,都應該是普惠的、人人可以用得起的東西!故聦嵣希@場價格戰(zhàn)的意義遠超競爭本身,更低的準入門檻讓更多企業(yè)和開發(fā)者得以接觸和應用前沿 AI,同時也倒逼整個行業(yè)重新思考定價策略,正是在這個時期,DeepSeek 開始進入公眾視野,嶄露頭角。千金買馬骨,雷軍挖角 AI 天才少女幾周前,DeepSeek 還出現了一個引人注目的人事變動。據第一財經報道,雷軍花千萬年薪以千萬年薪成功挖角了羅福莉,并委以小米 AI 實驗室大模型團隊負責人重任。羅福莉于 2022 年加入幻方量化旗下的 DeepSeek,在 DeepSeek-V2 和最新的 R1 等重要技術報告中都能看到她的身影。
再后來,一度專注于 B 端的 DeepSeek 也開始布局 C 端,推出移動應用。截至發(fā)稿前,DeepSeek 的移動應用在蘋果 App Store 免費版應用最高排到第二,展現出強勁的競爭力。一連串的小高潮讓 DeepSeek 聲名鵲起,但同時也在疊加著更高的高潮,1 月 20 日晚,擁有 660B 參數的超大規(guī)模模型 DeepSeek R1 正式發(fā)布。這款模型在數學任務上表現出色,如在 AIME 2024 上獲得 79.8% 的 pass@1 得分,略超 OpenAI-o1;在 MATH-500 上得分高達97.3%,與 OpenAI-o1 相當。編程任務方面,如 Codeforces 上獲得 2029 Elo 評級,超越 96.3%的人類參與者。在 MMLU、MMLU-Pro 和 GPQA Diamond 等知識基準測試中,DeepSeek R1 得分分別為 90.8%、84.0% 和 71.5%,雖略低于 OpenAI-o1,但優(yōu)于其他閉源模型。在最新公布的大模型競技場 LM Arena 的綜合榜單中,DeepSeek R1 排名第三,與 o1 并列。在「Hard Prompts」(高難度提示詞)、「Coding」(代碼能力)和「Math」(數學能力)等領域,DeepSeek R1 位列第一。在「Style Control」(風格控制)方面,DeepSeek R1 與 o1 并列第一。在「Hard Prompt with Style Control」(高難度提示詞與風格控制結合)的測試中,DeepSeek R1 也與 o1 并列第一。
在開源策略上,R1 采用 MIT License,給予用戶最大程度的使用自由,支持模型蒸餾,可將推理能力蒸餾到更小的模型,如 32B 和 70B 模型在多項能力上實現了對標 o1-mini 的效果,開源力度甚至超越了此前一直被詬病的 Meta。DeepSeek R1 的橫空出世,讓國內用戶首次能夠免費使用到媲美 o1 級別的模型,打破了長期存在的信息壁壘。其在小紅書等社交平臺掀起的討論熱潮,堪比發(fā)布之初的 GPT-4 。走出海去,去內卷回望 DeepSeek 的發(fā)展軌跡,其成功密碼清晰可見,實力是基礎,但品牌認知才是護城河。在與《晚點 LatePost》的對話中,MiniMax CEO 閆俊杰深入分享了他對 AI 行業(yè)的思考和公司戰(zhàn)略的轉變。他強調了兩個關鍵轉折點:一是認識到技術品牌的重要性,二是理解開源策略的價值。閆俊杰認為在 AI 領域,技術進化速度比當前成就更重要,而開源可以通過社區(qū)反饋加速這一進程;其次,強大的技術品牌對吸引人才、獲取資源至關重要。以 OpenAI 為例,盡管后期遭遇管理層動蕩,但其早期樹立的創(chuàng)新形象和開源精神已為其積攢了第一波好印象。即便 Claude 后續(xù)在技術上已勢均力敵,逐步蠶食 OpenAI 的 B 端用戶,但憑借著用戶的路徑依賴,OpenAI 依然在 C 端用戶上遙遙領先。在 AI 領域,真正的競爭舞臺永遠在全球,走出海去,去內卷,去宣傳也是一條不折不扣的好路。
這股出海浪潮早已在業(yè)內激起漣漪,更早時候的 Qwen、面壁智能、以及最近 DeepSeek R1、kimi v1.5、豆包 v1.5 Pro 都早已在海外鬧起了不小的動靜。2025 年雖被冠上了智能體元年,AI 眼鏡元年等諸多標簽,但今年將是中國 AI 企業(yè)擁抱全球市場的重要元年,走出去將成為繞不開的關鍵詞。并且,開源策略也是一步好棋,吸引了大量技術博主和開發(fā)者自發(fā)成為 DeepSeek 的「自來水」?萍枷蛏疲辉撝皇强谔,從「AI for All」的口號到真正的技術普惠,DeepSeek 走出了一條比 OpenAI 更純粹的道路。如果說 OpenAI 讓我們看到了 AI 的力量,那么 DeepSeek 則讓我們相信:這股力量終將惠及每個人。