當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能應(yīng)用 > 誰說撞墻了？展望2025 Scaling law新敘事加速AI變革

誰說撞墻了？展望2025 Scaling law新敘事加速AI變革
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-21 15:06:28 瀏覽：209次

導(dǎo)讀：機(jī)器之心發(fā)布作者：達(dá)摩院首席科學(xué)家趙德麗今日，達(dá)摩院首席科學(xué)家趙德麗發(fā)表文章《2025 AI展望：Scaling Law新敘事加速AI變革》，對當(dāng)前 AI 的發(fā)展邏輯進(jìn)行梳理，同時(shí)也展望了 2025 年的 AI 趨勢。本文是對趙德麗老師文章的全文刊載。我們正身處一場技術(shù)革命的歷史開端，以 ChatGPT 為標(biāo)志的這輪 AI 科技浪潮是算法和軟件誕生以來人類科技最重要的技術(shù)變革，由此開啟了以智能 ......

機(jī)器之心發(fā)布

作者：達(dá)摩院首席科學(xué)家趙德麗

今日，達(dá)摩院首席科學(xué)家趙德麗發(fā)表文章《2025 AI展望：Scaling Law新敘事加速AI變革》，對當(dāng)前 AI 的發(fā)展邏輯進(jìn)行梳理，同時(shí)也展望了 2025 年的 AI 趨勢。本文是對趙德麗老師文章的全文刊載。

我們正身處一場技術(shù)革命的歷史開端，以 ChatGPT 為標(biāo)志的這輪 AI 科技浪潮是算法和軟件誕生以來人類科技最重要的技術(shù)變革，由此開啟了以智能為核心的第四次工業(yè)革命。這次 AI 變革是由以 Scaling law 為底層邏輯的基礎(chǔ)模型驅(qū)動(dòng)，其整體的發(fā)展脈絡(luò)由基礎(chǔ)模型的技術(shù)邏輯主導(dǎo)。

進(jìn)入 2025 年，我們清晰地看到，Scaling law 本身仍然成立，但以堆算力以及一味追求擴(kuò)大模型尺寸的迭代路徑已經(jīng)被打破。同時(shí)，基礎(chǔ)模型本身的迭代趨于階段性收斂，Transformer-like 逐漸成為統(tǒng)一的底層架構(gòu)。此外，生成模型的潛力遠(yuǎn)遠(yuǎn)還沒有得到釋放，其將快速深入科學(xué)研究在內(nèi)的多個(gè)領(lǐng)域，或大放異彩…

本文以 “DAMO 開發(fā)者矩陣” 2025 開篇為契機(jī)，對當(dāng)前 AI 的發(fā)展邏輯進(jìn)行梳理，展望 2025 年的 AI 趨勢，初探未來的景象。限于篇幅，僅對于部分方向加以討論闡述。

1. 通用人工智能 (AGI) 的四種路徑

目視遠(yuǎn)方，才能更好理解我們身處的當(dāng)下。實(shí)現(xiàn)通用人工智能 (AGI，這里也包含常說的超級(jí)人工智能）是 AI 的發(fā)展目標(biāo)，利用 AI 算法達(dá)到甚至超過人類的智能水平。在進(jìn)入具體的討論之前，我們先從宏觀邏輯分析 AGI 的可能實(shí)現(xiàn)路徑。

第一條路徑是大模型。

目前 AI 算法還是圍繞著人類智能的逼近和模仿來開展。大模型就是利用復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)對知識(shí)的壓縮來逼近人類智能的隱函數(shù)，進(jìn)而利用思維推理來挖掘智能本身，所以接下來基于基礎(chǔ)模型的自學(xué)習(xí)算法和模型自迭代進(jìn)化將是通過大模型實(shí)現(xiàn) AGI 路徑的核心。從這個(gè)角度來說，大模型的 AGI 迭代在 2024 年剛?cè)胝}，但是發(fā)展很快。

第二條路徑是智能機(jī)器人。

人類和動(dòng)物等生物智能體是在開放式環(huán)境中與周遭事物以及環(huán)境中的智能體交互反饋來學(xué)習(xí)智能。最接近這種智能學(xué)習(xí)的模式是在開放式環(huán)境中活動(dòng)的智能機(jī)器人，特別是和人交互的機(jī)器人。所以消費(fèi)級(jí)機(jī)器人的落地將是這種 AGI 模式的開啟，機(jī)器人的自我學(xué)習(xí)和迭代算法也將是核心。

第三條路徑是腦機(jī)。

根據(jù)第一性原理，直接獲取人類思維模式的方式是讀取大腦信號(hào)，人類目前的科技水平通過腦機(jī)接口來實(shí)現(xiàn)。目前腦機(jī)還處在非常早期，但是腦機(jī)接口將是人機(jī)協(xié)同非常重要的路徑。

第四條路徑是數(shù)字生命。

通過算法實(shí)現(xiàn)從微觀尺度到宏觀尺度生命過程機(jī)理的仿真，就可以直接解鎖智能的奧秘，從而能創(chuàng)造出真正的超級(jí)智能。目前這個(gè)方向還在萌芽階段。

2.2024 的 4 個(gè)關(guān)鍵進(jìn)展

讓我們先回望 2024，從年初的 Sora 開始，幾乎每個(gè)月都有 AI 熱點(diǎn)新聞出現(xiàn)，長文本、多模態(tài)、具身智能、編程助手、思維推理、Agentic System、大模型訓(xùn)練優(yōu)化等，讓人目不暇接。相比 2023 年 AI 進(jìn)展集中在大語言模型上，2024 年可謂是百花齊放，無論是深度和廣度都出現(xiàn)了飛躍。顯然，即使沒有 GPT-5 的發(fā)布，這仍然是 AI 技術(shù)大爆發(fā)的一年。而在這么多進(jìn)展里，有四項(xiàng)進(jìn)展值得重點(diǎn)關(guān)注。

2.1 視頻生成

Sora 的出現(xiàn)意義重大，是視頻生成領(lǐng)域的一個(gè)重要轉(zhuǎn)折點(diǎn)。在 Sora 之前，行業(yè)對視頻生成已多有研究，但只停留在學(xué)術(shù)研究層面，效果差強(qiáng)人意，沒法達(dá)到商業(yè)化服務(wù)的水準(zhǔn)。Sora 展示了利用 DiT 可擴(kuò)展架構(gòu)的有效性，吸引了全球同行們快速跟進(jìn)，推動(dòng)視頻生成從學(xué)術(shù)研究到工業(yè)級(jí)應(yīng)用的重大跨越，國內(nèi)也出現(xiàn)了可靈、海螺、通義萬相、混元、豆包等優(yōu)秀的視頻生成模型。

視頻生成模型的突破意義不僅在于推動(dòng)內(nèi)容生產(chǎn)方式的變革，也在于展現(xiàn)了可擴(kuò)展架構(gòu)的生成模型在視覺方向的巨大潛力。自然語言數(shù)據(jù)是人類知識(shí)以文字形式的數(shù)字化記錄，所以自然語言大模型是知識(shí)的壓縮，可以通過大語言模型來逼近從而超越人類的智能。同樣，圖像 / 視頻是對環(huán)境和物體的數(shù)字化，也包含知識(shí)本身的展現(xiàn)。例如，球體的下落是物理規(guī)律的呈現(xiàn)、投籃是人類操作技能的展現(xiàn)等。所以不僅僅大語言模型，視頻大模型也是通往 AGI 的重要組成要素。隨著圖像 / 視頻基礎(chǔ)模型的性能提升，特別是 SOTA 級(jí)別開源模型的豐富，常見視覺任務(wù)大都會(huì)圍繞生成式基礎(chǔ)模型重新構(gòu)建，大一統(tǒng)的視覺任務(wù)架構(gòu)也會(huì)出現(xiàn)。另外，傳統(tǒng)視覺相關(guān)的仿真也逐步會(huì)和視頻生成模型深入融合，從而重塑新一代的仿真鏈路，例如世界模型可以看做是其中一個(gè)方向。而基于仿真和模擬的技術(shù)方向，例如機(jī)器人，也會(huì)因?yàn)橐曨l生成模型的成熟發(fā)展速度大大加快。在一些垂直領(lǐng)域，例如醫(yī)療和微觀組織研究等，數(shù)據(jù)缺乏的問題也會(huì)因?yàn)橐曨l生成模型找到新的解決途徑，從而加快相關(guān)領(lǐng)域的突破。

視頻生成技術(shù)的快速迭代促進(jìn)各類內(nèi)容工具的涌現(xiàn)，例如達(dá)摩院推出尋光 AI 視頻創(chuàng)作平臺(tái)，用 AI 重塑視頻工作流，釋放行業(yè)創(chuàng)造力。

2.2 智能體 (Agent) 和系統(tǒng)

在 2023 年 AutoGPT 出現(xiàn)時(shí)，行業(yè)從業(yè)者就意識(shí)到基于大模型構(gòu)建 Agent 應(yīng)用的巨大潛力。進(jìn)入 2024 年，Agent 相關(guān)的落地應(yīng)用初步展現(xiàn)，如 Anthropic 發(fā)布了 Computer use 讓 AI 可以控制電腦操作，智譜發(fā)布了 AutoGLM 來重塑手機(jī)應(yīng)用的使用方式�！耙痪湓捪聠� 2000 杯咖啡”，依托思維推理和自我改進(jìn)機(jī)制，Agent 得以執(zhí)行實(shí)現(xiàn)類似的自動(dòng)化任務(wù)。為此，Anthropic 發(fā)布了 MCP 協(xié)議 (Model Context Protocol)，方便大模型連接數(shù)據(jù)和應(yīng)用等局部和在線資源，從而可以構(gòu)建起以大模型為核心、Agent 為應(yīng)用的生態(tài)系統(tǒng)，人工智能操作系統(tǒng)的雛形也已經(jīng)顯現(xiàn)。阿里巴巴通義大模型也在此深耕，通義完整的基礎(chǔ)模型系列、一站式大模型服務(wù)平臺(tái)百煉、模型開源平臺(tái) ModelScope 和互連協(xié)議等構(gòu)成新一代人工智能系統(tǒng)架構(gòu)的基礎(chǔ)設(shè)施。

Agent 的重要性在于，它依托基礎(chǔ)模型和軟硬件互聯(lián)協(xié)議，會(huì)給人機(jī)交互方式和系統(tǒng)架構(gòu)帶來根本性的變革。歷史上每一次人機(jī)交互的變化都帶來了系統(tǒng)級(jí)的變革，就像鍵盤鼠標(biāo)之于 PC 互聯(lián)網(wǎng)、手機(jī)觸屏之于移動(dòng)互聯(lián)網(wǎng)。

目前我們的系統(tǒng)設(shè)計(jì)還是基于鼠標(biāo)點(diǎn)擊或者手指觸控交互的嵌套式圖形界面系統(tǒng)。這一次 AI 的突破帶來語言 / 語音 / 視覺等多模態(tài)信息為交互媒介的人機(jī)交互變革。Agent 不僅會(huì)大大豐富系統(tǒng)和應(yīng)用的廣度，也將會(huì)在多模態(tài)交互邏輯下大大縮短應(yīng)用使用的鏈路和構(gòu)造邏輯，從而引發(fā)系統(tǒng)在 AI 時(shí)代的重構(gòu)。這將是個(gè)人電腦和智能手機(jī)視窗系統(tǒng)誕生以來最大的一次實(shí)質(zhì)性變革。傳統(tǒng)操作系統(tǒng)將在人工智能操作系統(tǒng)的牽引下和 AI 深度融合，從而誕生在 AI 時(shí)代更加扁平、更加連接開放、更加自動(dòng)化的新型操作系統(tǒng)和應(yīng)用范式。

2.3 編程助手

從人機(jī)交互的角度去看，AI 大模型帶來了基于語言輸入的全新交互方式。例如，可以通過語言提示輸入到大模型，調(diào)用大模型的功能來得到結(jié)果，包括回答語言相關(guān)的問題、生成代碼、生成網(wǎng)站、生成圖像視頻等。

語言不僅僅是人類日常交流的媒介，也成了大模型時(shí)代的編程語言本身，這對于軟件來說是個(gè)突破性的進(jìn)步。從機(jī)器語言、匯編語言、C/C++、Java、Python 等到現(xiàn)在自然語言，計(jì)算機(jī)語言經(jīng)歷著由繁到簡的發(fā)展過程。但是在大模型以前，計(jì)算機(jī)編程都是需要專業(yè)學(xué)習(xí)、長期練習(xí)才能掌握。自從自然語言成為計(jì)算機(jī)編程語言本身，軟件從專業(yè)技能就變成了大眾化的工具，人人都可以成為高級(jí)程序員，這對于使用軟件是巨大的飛躍。人類利用軟件工具來提升社會(huì)生產(chǎn)力和效率從來都沒有像今天這么便捷。所以基于大語言模型的編程助手的價(jià)值顯著，將成為大模型時(shí)代不可或缺的基礎(chǔ)工具。

過去一年編程助手發(fā)展迅速，國外像 Github Copilot、Cursor、Windsurf、Bolt，國內(nèi)如阿里巴巴的通義靈碼以及字節(jié)的豆包 MarsCode 等相繼涌現(xiàn)�？梢灶A(yù)料編程助手在新的一年里將會(huì)取得實(shí)質(zhì)性進(jìn)展，并成為最快成功商業(yè)化的 AI 產(chǎn)品之一。

2.4 具身智能

我們可以粗略將研究機(jī)器人智能的 AI 技術(shù)稱之為具身智能。多模態(tài)大模型可以視為是機(jī)器人的知識(shí)技能，具身智能大模型 (目前還沒有共識(shí)的范圍定義) 可以看作是機(jī)器人的操作和移動(dòng)技能。

AI 驅(qū)動(dòng)的機(jī)器人是物理智能體，既可以決定人類利用工具的生產(chǎn)力水平，又可以直接決定社會(huì)生產(chǎn)效率和國民生產(chǎn)總值，所以至關(guān)重要。特別是人形機(jī)器人，可以看作是人的物理化，他可以超越工具屬性本身，作為人類社會(huì)智能體的一員發(fā)揮作用，所以人形機(jī)器人可以拓展社會(huì)的運(yùn)作模式和維度。

在具身算法上，谷歌、UC Berkeley、清華、字節(jié)等機(jī)構(gòu)都發(fā)表了不同架構(gòu)的具身智能大模型，初步驗(yàn)證了 Scaling law 在機(jī)器人方向上的有效性。并為其引入多模態(tài)融合等新維度，讓業(yè)界看到了機(jī)器人技術(shù)突破的希望。仿真上，英偉達(dá)正在推動(dòng)機(jī)器人仿真系統(tǒng)的工業(yè)化落地應(yīng)用，開源仿真系統(tǒng)也在快速迭代，為機(jī)器人的仿真和批量數(shù)據(jù)生產(chǎn)打下基礎(chǔ)。數(shù)據(jù)上，行業(yè)內(nèi)的數(shù)據(jù)生產(chǎn)標(biāo)準(zhǔn)和基礎(chǔ)設(shè)施也在發(fā)展中，智元開源的真機(jī)數(shù)據(jù)集也已經(jīng)達(dá)到百萬級(jí)別的體量。計(jì)算芯片上，英偉達(dá)也會(huì)在 2025 年量產(chǎn)針對人形機(jī)器人的端側(cè)芯片和開發(fā)板，使 AI 在機(jī)器人的端側(cè)開發(fā)更加便利和高效。硬件上，特斯拉正在推動(dòng)人形機(jī)器人的量產(chǎn)，這將促使機(jī)器人本體供應(yīng)鏈走向成熟，從而也會(huì)使硬件本體成本大幅下降。所以綜合這幾個(gè)維度來看，具身智能已站在新一輪爆發(fā)周期的起點(diǎn)上。但是機(jī)器人商業(yè)化的路徑存在較大不確定性，和機(jī)器人形態(tài)以及對應(yīng)的技術(shù)成熟度都有直接關(guān)系。

除了作為工具屬性，智能機(jī)器人以下特點(diǎn)值得突出：

一是數(shù)據(jù)采集端口。數(shù)據(jù)是模型的基礎(chǔ)，機(jī)器人將會(huì)是增量數(shù)據(jù)采集的端口。誰有消費(fèi)級(jí)機(jī)器人數(shù)據(jù)，誰有條件做出最好的 AI。

二是應(yīng)用服務(wù)新入口。和人交互場景的消費(fèi)級(jí)機(jī)器人，會(huì)是繼個(gè)人電腦、手機(jī)之后的第三智能硬件形態(tài)，是各類應(yīng)用服務(wù)的入口。

三是 AGI 路徑。如開篇所述，在開放式環(huán)境中自我學(xué)習(xí)和進(jìn)化的智能機(jī)器人是實(shí)現(xiàn) AGI 的路徑，將會(huì)使智能算法得到質(zhì)的飛躍。由于機(jī)器人本身是可編程物理智能體，所以自我進(jìn)化也將會(huì)帶來人類對于智能本身理解的升華，會(huì)大大拓展人類本身智能的邊界。所以從 AI 的視角去觀察，用在固定工業(yè)產(chǎn)線和不與人交互場景的機(jī)器人和與人交互的消費(fèi)級(jí)機(jī)器人是完全兩種機(jī)器人。消費(fèi)級(jí)人形機(jī)器人是 AI 時(shí)代最重要的智能體，人類可以借助人形機(jī)器人進(jìn)入一個(gè)全新的人機(jī)協(xié)作的智能時(shí)代，從而開啟人類使用工具的新紀(jì)元。

3. AI 突破的三個(gè)底層邏輯

回顧了 2024 年 AI 幾個(gè)方面的進(jìn)展，我們再討論下 AI 發(fā)展的三個(gè)基本邏輯，即 Scaling law、Transformer 架構(gòu) (泛指 Transformer-like 的架構(gòu)) 和生成模型。這三個(gè)方面相互交織，我們逐項(xiàng)討論下內(nèi)在的原理和邏輯，便于把握 AI 發(fā)展的底層規(guī)律。

3.1 Scaling law 邁向縱深

Scaling law 是 GPT 等大語言模型快速發(fā)展的底層邏輯，更多的數(shù)據(jù)、更多的算力、更大的模型，得到更好的效果。Scaling law 也是 2024 年推動(dòng)了 Sora 等視頻生成模型的技術(shù)突破的邏輯遵循，利用更有利于規(guī)�；瘮U(kuò)展的算法架構(gòu)。雖然 Sora 并未開源或公開算法細(xì)節(jié)，但其技術(shù)報(bào)告公開了算法架構(gòu)和技術(shù)路線，這使得領(lǐng)域內(nèi)可以快速跟進(jìn)，例如可靈。他們甚至實(shí)現(xiàn)比 Sora 更好的效果、更快的線上服務(wù)，再次在視頻生成上驗(yàn)證了 Scaling law 的有效性。Scaling law 也在具身智能大模型上面初步得到驗(yàn)證，讓大家看到了具身智能 GPT 時(shí)刻出現(xiàn)的希望。在醫(yī)療方向，Nature 剛剛發(fā)表了三篇和醫(yī)療基礎(chǔ)模型相關(guān)的論文，標(biāo)志著醫(yī)療 AI 在快速邁向基礎(chǔ)模型驅(qū)動(dòng)的 2.0 時(shí)代，也是 Scaling law 規(guī)律的體現(xiàn)。所以，Scaling law 不僅是大模型發(fā)展的底層規(guī)律，也是通向 AGI 的可靠路徑之一。

過去一年關(guān)于 Scaling law 是否遇到天花板的討論比較多，但其實(shí)，目前能夠有足夠多的資源和數(shù)據(jù)去觸摸 Scaling law 天花板的公司，全世界沒幾家。因?yàn)槭紫刃枰銐驈?qiáng)大的基礎(chǔ)設(shè)施和計(jì)算資源，其次還需要足夠多的訓(xùn)練數(shù)據(jù)。關(guān)于數(shù)據(jù)，一方面是現(xiàn)有的互聯(lián)網(wǎng)相關(guān)數(shù)據(jù)，另一方面是合成數(shù)據(jù) 合成數(shù)據(jù)非常重要，但是合成數(shù)據(jù)的質(zhì)量能否用于有效訓(xùn)練，取決于基礎(chǔ)模型的生成能力和合成數(shù)據(jù)的方法，截止到 2024 年，可能只有 GPT-4 等極少數(shù)模型能達(dá)到這個(gè)水平。所以，目前還不能給 Scaling law 下個(gè)遇到天花板的結(jié)論。

3.2 Scaling law 固定路徑被打破

隨著 Scaling law 的縱深發(fā)展，其發(fā)展的固定路徑已經(jīng)被打破！進(jìn)入了新的 Scaling law 2.0 階段。

DeepSeek-V3 的發(fā)布在領(lǐng)域內(nèi)引起廣泛討論，他們用正常十分之一的算力達(dá)到目前大語言模型的 SOTA 性能。個(gè)人認(rèn)為這個(gè)工作的出現(xiàn)標(biāo)志著 GPT-1 以來基于 Scaling law 的固定迭代路徑已經(jīng)被打破了，是個(gè)模型架構(gòu)和工程優(yōu)化結(jié)合的突破性成果。由此也讓領(lǐng)域內(nèi)看到模型工程優(yōu)化的高度，所以模型架構(gòu)在芯片計(jì)算層的優(yōu)化將會(huì)是大模型訓(xùn)練和推理的研發(fā)重點(diǎn)方向。由此路徑深入迭代，將會(huì)把模型工程引向模型架構(gòu)和芯片架構(gòu)深度融合的類腦芯片方向，從而突破 Scaling law 的限制，把模型訓(xùn)練和推理帶入下一個(gè)階段。當(dāng)然，這個(gè)方向需要時(shí)間探索。國內(nèi)剛剛發(fā)布的 MiniMax-01 模型也是這類不錯(cuò)的工作。

除此之外，OpenAI o1 開啟 Test/inference-time scaling law 的階段。語言大模型可以看成是知識(shí)的壓縮，那怎么利用知識(shí)產(chǎn)生更好的智能就是基于基礎(chǔ)模型的思維推理必然發(fā)展的方向。思維推理的發(fā)展也從一維單鏈路 CoT 模式到基于像蒙特卡洛樹搜索 MCTS 的系統(tǒng)化多維推理演化，從而構(gòu)建更智能更體系化的思維模型。推理算法的發(fā)展也反過來影響基礎(chǔ)模型的 Scaling law 路徑，例如微軟 rStar-Math 算法無需從大模型蒸餾也能用 60 塊 A100 訓(xùn)練的 7B 模型在數(shù)學(xué)推理上媲美達(dá)到 OpenAI o1 性能。上海 AI 實(shí)驗(yàn)室的書生·浦語 3.0 的 InternLM3-8B-Instruct 模型通過提升數(shù)據(jù)質(zhì)量和數(shù)據(jù)工程，只用 15% 的算力達(dá)到 SOTA 性能。過去半年這類工作有不少，就不一一列舉。

總結(jié)來說，無論數(shù)據(jù)維度、模型尺寸維度、還是算力維度，Scaling law 在模型上的體現(xiàn)已經(jīng)過了粗狂式的發(fā)展階段，進(jìn)入追求更有效的數(shù)據(jù)使用方式、更合理的架構(gòu)設(shè)計(jì)、更極致的工程優(yōu)化、更體系化的思維推理的 2.0 階段。

3.3 底層架構(gòu)趨向統(tǒng)一

這里所說的架構(gòu)可以分為兩個(gè)層面，一個(gè)是指生成架構(gòu)，例如自回歸模型、擴(kuò)散模型、流模型、生成對抗網(wǎng)絡(luò)等；另外一個(gè)層面就是逼近函數(shù)通用的網(wǎng)絡(luò)結(jié)構(gòu)，例如卷積神經(jīng)網(wǎng)絡(luò)、LSTM、U-Net、Transformer 等。Transformer 架構(gòu)因其對 Scaling law 的優(yōu)良適配性，正在成為多種算法統(tǒng)一的底層架構(gòu)。自然語言處理領(lǐng)域的自回歸模型、擅長視覺任務(wù)的擴(kuò)散模型和常用于 AI for Science 方向的圖神經(jīng)網(wǎng)絡(luò)模型，都呈現(xiàn)了逐步收斂到 Transformer 架構(gòu)之上的發(fā)展趨勢。

在過去的一年，Sora 的出現(xiàn)不僅僅是視頻生成的突破，也改變了視覺方向的底層架構(gòu)設(shè)計(jì)，DiT (Diffusion Transformer) 迅速成為視覺方向業(yè)界公認(rèn)的基礎(chǔ)架構(gòu)，算法的設(shè)計(jì)都往這種架構(gòu)收斂，這就是算法發(fā)展的不可預(yù)料性和強(qiáng)大活力。Transformer 問世于 2017 年，當(dāng)時(shí)在 NLP 領(lǐng)域只用了兩三年時(shí)間迅速替代當(dāng)時(shí)的主流框架 LSTM。在 Transformer 沒有誕生之前，LSTM 在 NLP 領(lǐng)域占有絕對的主導(dǎo)地位，無人能預(yù)料到這么快會(huì)被邊緣化但就是這么發(fā)生了，這種不可預(yù)料性也是算法研究的樂趣所在。

在多模態(tài)方向上，理解、生成、理解和生成的統(tǒng)一等任務(wù)和模態(tài)的統(tǒng)一架構(gòu)研究也非�；钴S。業(yè)內(nèi)期待能有一個(gè)大一統(tǒng)的架構(gòu)可以把不同模態(tài)和任務(wù)統(tǒng)一，有代表性的例如智源研究院基于自回歸架構(gòu)的 Emu3 和 Meta 的 MetaMorph 模型。

架構(gòu)趨于統(tǒng)一對于 AI 發(fā)展來說很有意義。首先，統(tǒng)一的架構(gòu)可以顯著地增強(qiáng) AI 系統(tǒng)的互操作性，深度探索不同模態(tài)、不同語義、不同尺度數(shù)據(jù)的深層次關(guān)聯(lián)性，這對人類通過 AI 認(rèn)知和理解世界有決定性意義。達(dá)摩院在這個(gè)方向有跨領(lǐng)域跨學(xué)科的項(xiàng)目在開展中。另外，統(tǒng)一的架構(gòu)也將大幅提升研發(fā)和部署效率，不僅使 AI 底層基礎(chǔ)設(shè)施的模型系統(tǒng)架構(gòu)更加簡潔，也使推理的軟硬件架構(gòu)可以在不同領(lǐng)域快速泛化使用，這將大大加速 AI 研發(fā)效率、產(chǎn)品的落地速度、和普惠化程度。

自回歸模型會(huì)是生成模型的最終答案嗎？目前只能說，可能性是存在的。但是同時(shí)我們也要看到擴(kuò)散模型除了在視覺方向的廣泛應(yīng)用以外，在 AI for Science 方向也正在被普遍使用。Transformer 會(huì)是 AI 的終極底層架構(gòu)嗎？終極答案是否定的，但在一定時(shí)間內(nèi) Transformer 還會(huì)是大多數(shù) AI 算法設(shè)計(jì)的最優(yōu)選擇。尤其是隨著 AI 的廣泛應(yīng)用，深入千行百業(yè)，會(huì)強(qiáng)化 Transformer 的主導(dǎo)地位，因?yàn)闊o論工程和系統(tǒng)方面，還是芯片等硬件層面，目前都是圍繞 Transformer 架構(gòu)進(jìn)行的。除非有一個(gè)突破性的新架構(gòu)出現(xiàn)，否則 Transformer 很難在短期內(nèi)被顛覆。

3.4 生成模型是 AI 算法的第一性原理

深度學(xué)習(xí)解決了復(fù)雜函數(shù)的通用逼近問題，而生成模型解決了概率論里的古老問題高維數(shù)據(jù)分布 (或是非線性結(jié)構(gòu)) 的擬合。我們上大學(xué)時(shí)學(xué)習(xí)概率論，核心就是估計(jì)概率密度函數(shù)、擬合數(shù)據(jù)分布。為什么擬合數(shù)據(jù)分布重要？因?yàn)?AI 處理的就是數(shù)據(jù)，一旦擬合了數(shù)據(jù)分布，尋找到數(shù)據(jù)結(jié)構(gòu)的機(jī)理，就能通過直接采樣生成新的數(shù)據(jù)。因此，絕大多數(shù) AI 要解決的任務(wù)，本質(zhì)上都可以簡化成對數(shù)據(jù)分布的擬合和對數(shù)據(jù)分布的修正這兩個(gè)很基礎(chǔ)的問題。所以生成模型是非常本質(zhì)的，它成為 AI 的基礎(chǔ)模型是符合第一性原理的。

生成模型一定程度上可以突破互聯(lián)網(wǎng)數(shù)據(jù)階段性見頂和各個(gè)領(lǐng)域內(nèi)數(shù)據(jù)缺乏的困境，對推動(dòng) AI 發(fā)展的作用遠(yuǎn)超作為算法應(yīng)用本身。例如基礎(chǔ)模型性能發(fā)展最成熟的 NLP 領(lǐng)域，生成數(shù)據(jù)用于訓(xùn)練模型已經(jīng)是常態(tài)，是解決 NLP 數(shù)據(jù)困境的有效途徑。除了視頻方向的 Sora，自動(dòng)駕駛領(lǐng)域也在用生成數(shù)據(jù)來解決 corner case 的問題。Tripo 和 Rodin 三維生成模型也展現(xiàn)了令人鼓舞的前景�？茖W(xué)方向基于擴(kuò)散模型的 RFDiffusion 和 Chroma 算法可以用于蛋白質(zhì)設(shè)計(jì)。微軟發(fā)布了可以快速生成不同類型無機(jī)材料的基礎(chǔ)模型 MatterGen。醫(yī)療方向也在用生成模型解決醫(yī)療數(shù)據(jù)稀缺的問題。隨著各個(gè)模態(tài)生成基礎(chǔ)模型性能的成熟，其它方向也會(huì)如此。

更重要的是，基于生成模型的思維推理是構(gòu)建智能的關(guān)鍵。目前生成模型的發(fā)展和使用還在初期階段。基于生成模型對于知識(shí)的建模、結(jié)構(gòu)的擬合、智能的構(gòu)建才剛剛開始，新的思維范式也將會(huì)在未來幾年里出現(xiàn)。從點(diǎn)線的低維度推理模式到高維度體系化思維能力的演化，不僅會(huì)促使模型能力的極大提升，也會(huì)讓研究員重新審視模型架構(gòu)的設(shè)計(jì)本身，從而加速 AGI 時(shí)代的到來。

4. AI 產(chǎn)業(yè)進(jìn)入百花齊放階段

前面重點(diǎn)討論了技術(shù)方向，接下來，讓我們展望 AI 的產(chǎn)業(yè)影響。人類有幾個(gè)基本的特點(diǎn)：血肉之軀的能力限制，所以物理工具是必需品，而最極致的工具是物理化的人機(jī)器人；知識(shí)無法遺傳，所以教育不可或缺；肉體衰老死亡，所以醫(yī)療是人類社會(huì)的剛需服務(wù)；活動(dòng)受到物理環(huán)境的限制，所以數(shù)字仿真必將成為 AI 的基礎(chǔ)設(shè)施。我們就聚焦在硬件、教育、醫(yī)療、和數(shù)字仿真這幾個(gè)題目進(jìn)行簡要討論。

4.1 智能硬件具備爆發(fā)條件

2024 年像谷歌的 Gemini、OpenAI 的 GPT 系列、阿里巴巴的通義 Qwen-VL、智譜的 GLM-Realtimes、和面壁智能的 “小鋼炮” MiniCPM-o 2.6 端側(cè)模型都在多模態(tài)和視覺理解能力上取得了顯著進(jìn)步。人類本來就是利用視覺、語言、聽覺、觸覺等不同模態(tài)的信息來進(jìn)行和環(huán)境感知和交互的，所以多模態(tài)是人機(jī)交互的關(guān)鍵。多模態(tài)基礎(chǔ)模型能力的成熟會(huì)促使兩個(gè)方向的進(jìn)步：一個(gè)就是數(shù)字智能體，也就是現(xiàn)在說的 Agent；一個(gè)是物理智能體，也就是包括機(jī)器人在內(nèi)的智能硬件。所以按照技術(shù)演化的邏輯，2025 年智能硬件會(huì)迎來高速發(fā)展期。

在人機(jī)交互的信息媒介中，語言和語音是其中兩個(gè)最重要的兩個(gè)基礎(chǔ)模態(tài)。對于語音，除了智能手機(jī)之外，智能耳機(jī)會(huì)是自然的人機(jī)交互的指令入口，所以會(huì)在 AI 驅(qū)動(dòng)的智能硬件中占有核心的地位。國內(nèi)字節(jié)和訊飛都在消費(fèi)級(jí)智能耳機(jī)方向上率先發(fā)力。另外，輕量級(jí)的腦機(jī)接口設(shè)備也在 CES 2025 上出現(xiàn)，例如美國初創(chuàng)公司發(fā)布的 Omi 的 AI 可穿戴設(shè)備。這種類似的智能硬件雖然輕量，但是都是不同模態(tài)人機(jī)交互入口級(jí)別的智能硬件，值得關(guān)注。

另外一個(gè)大的方向就是機(jī)器人，剛才在具身智能章節(jié)中從技術(shù)的角度闡述了關(guān)于機(jī)器人的看法。但是從產(chǎn)業(yè)落地的角度去觀察，是不同的路徑。目前業(yè)內(nèi)認(rèn)為率先落地的是工業(yè)場景，如汽車總裝線，這個(gè)場景下機(jī)器人的目標(biāo)是替換高級(jí)技工并帶來產(chǎn)能的提升。另外一個(gè)就是家庭智能玩具，它基于輕機(jī)器人本體路線，但帶來多模態(tài)的人機(jī)交互。

和主流看法有點(diǎn)差異，我們認(rèn)為對于未來機(jī)會(huì)的把握這兩個(gè)都不是當(dāng)下落地的理想路徑。而二者的結(jié)合：一個(gè)低自由度，結(jié)構(gòu)簡單穩(wěn)定，能夠帶來 “輕、靜、快” 的物理交互，又能結(jié)合 AI 提供多模態(tài)感知交互的機(jī)器人，很可能會(huì)更早地形成可以持續(xù)的商業(yè)生態(tài)。在 2025 年，除了大家都熟知的人形機(jī)器人，我們更期待一款可落地的消費(fèi)級(jí)機(jī)器人新品類出現(xiàn)。

4.2 醫(yī)療 2.0 時(shí)代開啟

在 AlphaFold 榮獲 2024 年諾貝爾獎(jiǎng)后，幾乎所有人都意識(shí)到了 AI 解決基礎(chǔ)科學(xué)問題的巨大力量，AI for Science 已成為毋庸置疑的重要趨勢。其中，生命科學(xué)和醫(yī)療是關(guān)乎人類福祉的方向。AlphaFold 發(fā)明人之一、DeepMind CEO Demis Hassabis 也預(yù)測人類有可能在未來十年內(nèi)治愈大部分疾病。這一預(yù)測如果成為現(xiàn)實(shí)，那將是醫(yī)藥誕生以來的歷史性進(jìn)步。

在過去幾個(gè)月里，Nature 正刊上接連發(fā)表了病理學(xué)基礎(chǔ)模型 CHIEF、精準(zhǔn)腫瘤學(xué)多模態(tài)基礎(chǔ)模型 MUSK、人類細(xì)胞類型的轉(zhuǎn)錄基礎(chǔ)模型 GET，還有 Nature Medicine 上解決醫(yī)療圖像合成的生成基礎(chǔ)模型 MINIM，多模態(tài)醫(yī)療基礎(chǔ)模型 BioMedGPT 等。這些基礎(chǔ)模型工作的接連出現(xiàn)，標(biāo)志著醫(yī)療技術(shù) 2.0 時(shí)代的到來。醫(yī)療方向正在從針對單病種單類型的技術(shù)時(shí)代快速向基于基礎(chǔ)模型加具體任務(wù)微調(diào)的大模型范式轉(zhuǎn)換。另外，完整周期的大隊(duì)列數(shù)據(jù)對于疾病治療至關(guān)重要，但是獲取完整隊(duì)列數(shù)據(jù)非常困難而且周期很長。借助生成模型，有望解決醫(yī)療周期數(shù)據(jù)缺失的問題，這對醫(yī)療領(lǐng)域取得實(shí)質(zhì)性進(jìn)步意義重大。

達(dá)摩院在醫(yī)療 AI 方向成果顯著，在 Nature Medicine 上發(fā)表了基于平掃 CT 影像的胰腺癌檢測算法 DAMO PANDA，是業(yè)內(nèi)首次借助平掃 CT 進(jìn)行胰腺癌篩查的方法，為大規(guī)模低代價(jià)進(jìn)行胰腺癌篩查開辟了新的路徑。這項(xiàng)工作被斯坦福大學(xué)發(fā)布的 2024 年 AI 指數(shù)報(bào)告列為 “年度亮點(diǎn)研究”，是國內(nèi)唯一入選的工作。目前達(dá)摩院正在進(jìn)行中的多病種統(tǒng)一算法架構(gòu)、醫(yī)療多模態(tài)基礎(chǔ)模型和腫瘤動(dòng)力學(xué)等相關(guān)研究，也有望在今年取得重要進(jìn)展。

4.3 AI 驅(qū)動(dòng)的教育

無論孔子時(shí)代的問答式教學(xué)、還是柏拉圖時(shí)代開啟的思辯，教育至今都延續(xù)老師和學(xué)生物理互動(dòng)的模式。學(xué)生學(xué)業(yè)的高度很大程度上取決于老師水平的高低和資源的多少，因此，受限于不同地域和文明發(fā)達(dá)程度的不一，人類離教育普惠一直遙不可及。令人欣喜的是，這種狀況要在 AI 時(shí)代終結(jié)了。

在谷歌的 Gemini 多模態(tài)模型和 OpenAI 的多模態(tài)模型發(fā)布會(huì)上，都不約而同地展示了多模態(tài)大模型在教育場景的應(yīng)用示例，這足以說明 AI 公司對于利用 AI 技術(shù)解決教育問題的期待和重視程度。AI 將人類沉淀的知識(shí)壓縮到模型中，從而利用記憶和組合生成可以創(chuàng)造出比人類更加智慧聰明的數(shù)字智能體。所以在不遠(yuǎn)的將來，利用多模態(tài)大模型的能力，虛擬老師的水平將會(huì)超過幾乎所有的真實(shí)老師的水平，從而使教育提高到一個(gè)全新的高度。只要有可以運(yùn)行 AI 軟件的硬件終端，人人都可以獲取最好的教育。這會(huì)在未來五年內(nèi)發(fā)生，將是人類教育事業(yè)全新的開始。

但是教育本身也包含物理互動(dòng)的過程，而且這是數(shù)字智能體沒法完全取代的，所以教育方向?qū)⒂羞m應(yīng) AI 時(shí)代的各種智能硬件出現(xiàn)。

4.4 數(shù)字仿真 2.0

2024 年對于 AI 發(fā)生的其中有一個(gè)轉(zhuǎn)折就是算法到物理世界的轉(zhuǎn)場。AI 為了更好地適配物理世界并實(shí)現(xiàn)落地，各類數(shù)字化仿真將會(huì)成為不可或缺的基礎(chǔ)設(shè)施。世界模型就是其中一個(gè)備受關(guān)注的方向，還有現(xiàn)象級(jí)討論的 Genesis 物理仿真平臺(tái)等。但是這里談到的數(shù)字仿真遠(yuǎn)不止現(xiàn)在學(xué)術(shù)界研究的世界模型覆蓋的范疇，這是一個(gè)涵蓋從微觀尺度到宏觀尺度的數(shù)字技術(shù)和物理世界映射的范式變化。

英偉達(dá)在數(shù)字仿真領(lǐng)域上進(jìn)行了系統(tǒng)化的深入布局。NVIDIA Isaac、Omniverse 和 Cosmos 等平臺(tái)正構(gòu)建一個(gè)完整的仿真生態(tài)系統(tǒng)，重塑工業(yè)研發(fā)鏈路和范式。在 CES 2025 上，英偉達(dá)演示了在自動(dòng)駕駛仿真、飛機(jī)制造、機(jī)器人研發(fā)以及工業(yè)場景的數(shù)字孿生等方面的應(yīng)用，展現(xiàn)了廣闊的前景。

不僅在工業(yè)場景，數(shù)字仿真在生命科學(xué)上也展現(xiàn)了巨大的潛力。2024 年 DeepMind 和哈佛大學(xué)在 Nature 上發(fā)表了由 AI 生成的數(shù)字生命體虛擬老鼠，使用命名為 MIMIC 的算法能夠模擬嚙齒動(dòng)物的大腦活動(dòng)和行為表現(xiàn)，在生物動(dòng)力學(xué)方向取得重要突破。國內(nèi)智源研究院提出了 BAAIWorm 天寶，實(shí)現(xiàn)了秀麗隱桿線蟲的神經(jīng)系統(tǒng)、身體和環(huán)境的交互仿真�；谡鎸�(shí)物理世界機(jī)理的生物動(dòng)力學(xué)仿真，將會(huì)開啟一個(gè)全新的生命科學(xué)研究范式，有著深遠(yuǎn)的意義。

在數(shù)字化時(shí)代，原則上幾乎每個(gè)物理世界的場景都可以進(jìn)行仿真。從核聚變研究到細(xì)胞活動(dòng)模擬，從機(jī)器人研發(fā)到數(shù)字生命體建模，從機(jī)械動(dòng)力學(xué)到生物動(dòng)力學(xué)，從微觀到宏觀的自然界都將會(huì)在仿真系統(tǒng)中被重建。

5. 結(jié)語

這輪 AI 浪潮會(huì)把人類社會(huì)帶入全新的智能時(shí)代，人類認(rèn)知世界、改造世界的能力將得到空前的提高�？梢灶A(yù)料到的是，三十年后我們將身處一個(gè)與現(xiàn)在完全不同的嶄新世界。作為 AI 從業(yè)人員，我們非常榮幸可以參與這一歷史進(jìn)程，也希望本文能夠?yàn)?AI 同仁探索未來提供一些啟發(fā)。未盡之處，歡迎關(guān)注 “DAMO 開發(fā)者矩陣”，我們將在后續(xù)文章中持續(xù)探討 AI 的前沿趨勢與應(yīng)用展望。

上一篇：AI驅(qū)動(dòng)的CPO市場崛起，未來發(fā)展路徑如何？

下一篇：AI智能體2小時(shí)擊敗人類，引爆貝葉斯推理革命！僅用10%數(shù)據(jù)訓(xùn)練秒殺大模型

誰說撞墻了？展望2025 Scaling law新敘事加速AI變革
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-21 15:06:28 瀏覽：209次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

誰說撞墻了？展望2025 Scaling law新敘事加速AI變革 來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-21 15:06:28 瀏覽：209次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

誰說撞墻了？展望2025 Scaling law新敘事加速AI變革
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-21 15:06:28 瀏覽：209次