機(jī)器之心發(fā)布
作者:達(dá)摩院首席科學(xué)家趙德麗
今日,達(dá)摩院首席科學(xué)家趙德麗發(fā)表文章《2025 AI展望:Scaling Law新敘事加速AI變革》,對當(dāng)前 AI 的發(fā)展邏輯進(jìn)行梳理,同時(shí)也展望了 2025 年的 AI 趨勢。本文是對趙德麗老師文章的全文刊載。
我們正身處一場技術(shù)革命的歷史開端,以 ChatGPT 為標(biāo)志的這輪 AI 科技浪潮是算法和軟件誕生以來人類科技最重要的技術(shù)變革,由此開啟了以智能為核心的第四次工業(yè)革命。這次 AI 變革是由以 Scaling law 為底層邏輯的基礎(chǔ)模型驅(qū)動(dòng),其整體的發(fā)展脈絡(luò)由基礎(chǔ)模型的技術(shù)邏輯主導(dǎo)。
進(jìn)入 2025 年,我們清晰地看到,Scaling law 本身仍然成立,但以堆算力以及一味追求擴(kuò)大模型尺寸的迭代路徑已經(jīng)被打破。同時(shí),基礎(chǔ)模型本身的迭代趨于階段性收斂,Transformer-like 逐漸成為統(tǒng)一的底層架構(gòu)。此外,生成模型的潛力遠(yuǎn)遠(yuǎn)還沒有得到釋放,其將快速深入科學(xué)研究在內(nèi)的多個(gè)領(lǐng)域,或大放異彩…
本文以 “DAMO 開發(fā)者矩陣” 2025 開篇為契機(jī),對當(dāng)前 AI 的發(fā)展邏輯進(jìn)行梳理,展望 2025 年的 AI 趨勢,初探未來的景象。限于篇幅,僅對于部分方向加以討論闡述。
1. 通用人工智能 (AGI) 的四種路徑
目視遠(yuǎn)方,才能更好理解我們身處的當(dāng)下。實(shí)現(xiàn)通用人工智能 (AGI,這里也包含常說的超級(jí)人工智能)是 AI 的發(fā)展目標(biāo),利用 AI 算法達(dá)到甚至超過人類的智能水平。在進(jìn)入具體的討論之前,我們先從宏觀邏輯分析 AGI 的可能實(shí)現(xiàn)路徑。
第一條路徑是大模型。
目前 AI 算法還是圍繞著人類智能的逼近和模仿來開展。大模型就是利用復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)對知識(shí)的壓縮來逼近人類智能的隱函數(shù),進(jìn)而利用思維推理來挖掘智能本身,所以接下來基于基礎(chǔ)模型的自學(xué)習(xí)算法和模型自迭代進(jìn)化將是通過大模型實(shí)現(xiàn) AGI 路徑的核心。從這個(gè)角度來說,大模型的 AGI 迭代在 2024 年剛?cè)胝},但是發(fā)展很快。
第二條路徑是智能機(jī)器人。
人類和動(dòng)物等生物智能體是在開放式環(huán)境中與周遭事物以及環(huán)境中的智能體交互反饋來學(xué)習(xí)智能。最接近這種智能學(xué)習(xí)的模式是在開放式環(huán)境中活動(dòng)的智能機(jī)器人,特別是和人交互的機(jī)器人。所以消費(fèi)級(jí)機(jī)器人的落地將是這種 AGI 模式的開啟,機(jī)器人的自我學(xué)習(xí)和迭代算法也將是核心。
第三條路徑是腦機(jī)。
根據(jù)第一性原理,直接獲取人類思維模式的方式是讀取大腦信號(hào),人類目前的科技水平通過腦機(jī)接口來實(shí)現(xiàn)。目前腦機(jī)還處在非常早期,但是腦機(jī)接口將是人機(jī)協(xié)同非常重要的路徑。
第四條路徑是數(shù)字生命。
通過算法實(shí)現(xiàn)從微觀尺度到宏觀尺度生命過程機(jī)理的仿真,就可以直接解鎖智能的奧秘,從而能創(chuàng)造出真正的超級(jí)智能。目前這個(gè)方向還在萌芽階段。
2.2024 的 4 個(gè)關(guān)鍵進(jìn)展
讓我們先回望 2024,從年初的 Sora 開始,幾乎每個(gè)月都有 AI 熱點(diǎn)新聞出現(xiàn),長文本、多模態(tài)、具身智能、編程助手、思維推理、Agentic System、大模型訓(xùn)練優(yōu)化等,讓人目不暇接。相比 2023 年 AI 進(jìn)展集中在大語言模型上,2024 年可謂是百花齊放,無論是深度和廣度都出現(xiàn)了飛躍。顯然,即使沒有 GPT-5 的發(fā)布,這仍然是 AI 技術(shù)大爆發(fā)的一年。而在這么多進(jìn)展里,有四項(xiàng)進(jìn)展值得重點(diǎn)關(guān)注。
2.1 視頻生成
Sora 的出現(xiàn)意義重大,是視頻生成領(lǐng)域的一個(gè)重要轉(zhuǎn)折點(diǎn)。在 Sora 之前,行業(yè)對視頻生成已多有研究,但只停留在學(xué)術(shù)研究層面,效果差強(qiáng)人意,沒法達(dá)到商業(yè)化服務(wù)的水準(zhǔn)。Sora 展示了利用 DiT 可擴(kuò)展架構(gòu)的有效性,吸引了全球同行們快速跟進(jìn),推動(dòng)視頻生成從學(xué)術(shù)研究到工業(yè)級(jí)應(yīng)用的重大跨越,國內(nèi)也出現(xiàn)了可靈、海螺、通義萬相、混元、豆包等優(yōu)秀的視頻生成模型。
視頻生成模型的突破意義不僅在于推動(dòng)內(nèi)容生產(chǎn)方式的變革,也在于展現(xiàn)了可擴(kuò)展架構(gòu)的生成模型在視覺方向的巨大潛力。自然語言數(shù)據(jù)是人類知識(shí)以文字形式的數(shù)字化記錄,所以自然語言大模型是知識(shí)的壓縮,可以通過大語言模型來逼近從而超越人類的智能。同樣,圖像 / 視頻是對環(huán)境和物體的數(shù)字化,也包含知識(shí)本身的展現(xiàn)。例如,球體的下落是物理規(guī)律的呈現(xiàn)、投籃是人類操作技能的展現(xiàn)等。所以不僅僅大語言模型,視頻大模型也是通往 AGI 的重要組成要素。隨著圖像 / 視頻基礎(chǔ)模型的性能提升,特別是 SOTA 級(jí)別開源模型的豐富,常見視覺任務(wù)大都會(huì)圍繞生成式基礎(chǔ)模型重新構(gòu)建,大一統(tǒng)的視覺任務(wù)架構(gòu)也會(huì)出現(xiàn)。另外,傳統(tǒng)視覺相關(guān)的仿真也逐步會(huì)和視頻生成模型深入融合,從而重塑新一代的仿真鏈路,例如世界模型可以看做是其中一個(gè)方向。而基于仿真和模擬的技術(shù)方向,例如機(jī)器人,也會(huì)因?yàn)橐曨l生成模型的成熟發(fā)展速度大大加快。在一些垂直領(lǐng)域,例如醫(yī)療和微觀組織研究等,數(shù)據(jù)缺乏的問題也會(huì)因?yàn)橐曨l生成模型找到新的解決途徑,從而加快相關(guān)領(lǐng)域的突破。
視頻生成技術(shù)的快速迭代促進(jìn)各類內(nèi)容工具的涌現(xiàn),例如達(dá)摩院推出尋光 AI 視頻創(chuàng)作平臺(tái),用 AI 重塑視頻工作流,釋放行業(yè)創(chuàng)造力。
2.2 智能體 (Agent) 和系統(tǒng)
在 2023 年 AutoGPT 出現(xiàn)時(shí),行業(yè)從業(yè)者就意識(shí)到基于大模型構(gòu)建 Agent 應(yīng)用的巨大潛力。進(jìn)入 2024 年,Agent 相關(guān)的落地應(yīng)用初步展現(xiàn),如 Anthropic 發(fā)布了 Computer use 讓 AI 可以控制電腦操作,智譜發(fā)布了 AutoGLM 來重塑手機(jī)應(yīng)用的使用方式!耙痪湓捪聠 2000 杯咖啡”,依托思維推理和自我改進(jìn)機(jī)制,Agent 得以執(zhí)行實(shí)現(xiàn)類似的自動(dòng)化任務(wù)。為此,Anthropic 發(fā)布了 MCP 協(xié)議 (Model Context Protocol),方便大模型連接數(shù)據(jù)和應(yīng)用等局部和在線資源,從而可以構(gòu)建起以大模型為核心、Agent 為應(yīng)用的生態(tài)系統(tǒng),人工智能操作系統(tǒng)的雛形也已經(jīng)顯現(xiàn)。阿里巴巴通義大模型也在此深耕,通義完整的基礎(chǔ)模型系列、一站式大模型服務(wù)平臺(tái)百煉、模型開源平臺(tái) ModelScope 和互連協(xié)議等構(gòu)成新一代人工智能系統(tǒng)架構(gòu)的基礎(chǔ)設(shè)施。
Agent 的重要性在于,它依托基礎(chǔ)模型和軟硬件互聯(lián)協(xié)議,會(huì)給人機(jī)交互方式和系統(tǒng)架構(gòu)帶來根本性的變革。歷史上每一次人機(jī)交互的變化都帶來了系統(tǒng)級(jí)的變革,就像鍵盤鼠標(biāo)之于 PC 互聯(lián)網(wǎng)、手機(jī)觸屏之于移動(dòng)互聯(lián)網(wǎng)。
目前我們的系統(tǒng)設(shè)計(jì)還是基于鼠標(biāo)點(diǎn)擊或者手指觸控交互的嵌套式圖形界面系統(tǒng)。這一次 AI 的突破帶來語言 / 語音 / 視覺等多模態(tài)信息為交互媒介的人機(jī)交互變革。Agent 不僅會(huì)大大豐富系統(tǒng)和應(yīng)用的廣度,也將會(huì)在多模態(tài)交互邏輯下大大縮短應(yīng)用使用的鏈路和構(gòu)造邏輯,從而引發(fā)系統(tǒng)在 AI 時(shí)代的重構(gòu)。這將是個(gè)人電腦和智能手機(jī)視窗系統(tǒng)誕生以來最大的一次實(shí)質(zhì)性變革。傳統(tǒng)操作系統(tǒng)將在人工智能操作系統(tǒng)的牽引下和 AI 深度融合,從而誕生在 AI 時(shí)代更加扁平、更加連接開放、更加自動(dòng)化的新型操作系統(tǒng)和應(yīng)用范式。
2.3 編程助手
從人機(jī)交互的角度去看,AI 大模型帶來了基于語言輸入的全新交互方式。例如,可以通過語言提示輸入到大模型,調(diào)用大模型的功能來得到結(jié)果,包括回答語言相關(guān)的問題、生成代碼、生成網(wǎng)站、生成圖像視頻等。
語言不僅僅是人類日常交流的媒介,也成了大模型時(shí)代的編程語言本身,這對于軟件來說是個(gè)突破性的進(jìn)步。從機(jī)器語言、匯編語言、C/C++、Java、Python 等到現(xiàn)在自然語言,計(jì)算機(jī)語言經(jīng)歷著由繁到簡的發(fā)展過程。但是在大模型以前,計(jì)算機(jī)編程都是需要專業(yè)學(xué)習(xí)、長期練習(xí)才能掌握。自從自然語言成為計(jì)算機(jī)編程語言本身,軟件從專業(yè)技能就變成了大眾化的工具,人人都可以成為高級(jí)程序員,這對于使用軟件是巨大的飛躍。人類利用軟件工具來提升社會(huì)生產(chǎn)力和效率從來都沒有像今天這么便捷。所以基于大語言模型的編程助手的價(jià)值顯著,將成為大模型時(shí)代不可或缺的基礎(chǔ)工具。
過去一年編程助手發(fā)展迅速,國外像 Github Copilot、Cursor、Windsurf、Bolt,國內(nèi)如阿里巴巴的通義靈碼以及字節(jié)的豆包 MarsCode 等相繼涌現(xiàn)?梢灶A(yù)料編程助手在新的一年里將會(huì)取得實(shí)質(zhì)性進(jìn)展,并成為最快成功商業(yè)化的 AI 產(chǎn)品之一。
2.4 具身智能
我們可以粗略將研究機(jī)器人智能的 AI 技術(shù)稱之為具身智能。多模態(tài)大模型可以視為是機(jī)器人的知識(shí)技能,具身智能大模型 (目前還沒有共識(shí)的范圍定義) 可以看作是機(jī)器人的操作和移動(dòng)技能。
AI 驅(qū)動(dòng)的機(jī)器人是物理智能體,既可以決定人類利用工具的生產(chǎn)力水平,又可以直接決定社會(huì)生產(chǎn)效率和國民生產(chǎn)總值,所以至關(guān)重要。特別是人形機(jī)器人,可以看作是人的物理化,他可以超越工具屬性本身,作為人類社會(huì)智能體的一員發(fā)揮作用,所以人形機(jī)器人可以拓展社會(huì)的運(yùn)作模式和維度。
在具身算法上,谷歌、UC Berkeley、清華、字節(jié)等機(jī)構(gòu)都發(fā)表了不同架構(gòu)的具身智能大模型,初步驗(yàn)證了 Scaling law 在機(jī)器人方向上的有效性。并為其引入多模態(tài)融合等新維度,讓業(yè)界看到了機(jī)器人技術(shù)突破的希望。仿真上,英偉達(dá)正在推動(dòng)機(jī)器人仿真系統(tǒng)的工業(yè)化落地應(yīng)用,開源仿真系統(tǒng)也在快速迭代,為機(jī)器人的仿真和批量數(shù)據(jù)生產(chǎn)打下基礎(chǔ)。數(shù)據(jù)上,行業(yè)內(nèi)的數(shù)據(jù)生產(chǎn)標(biāo)準(zhǔn)和基礎(chǔ)設(shè)施也在發(fā)展中,智元開源的真機(jī)數(shù)據(jù)集也已經(jīng)達(dá)到百萬級(jí)別的體量。計(jì)算芯片上,英偉達(dá)也會(huì)在 2025 年量產(chǎn)針對人形機(jī)器人的端側(cè)芯片和開發(fā)板,使 AI 在機(jī)器人的端側(cè)開發(fā)更加便利和高效。硬件上,特斯拉正在推動(dòng)人形機(jī)器人的量產(chǎn),這將促使機(jī)器人本體供應(yīng)鏈走向成熟,從而也會(huì)使硬件本體成本大幅下降。所以綜合這幾個(gè)維度來看,具身智能已站在新一輪爆發(fā)周期的起點(diǎn)上。但是機(jī)器人商業(yè)化的路徑存在較大不確定性,和機(jī)器人形態(tài)以及對應(yīng)的技術(shù)成熟度都有直接關(guān)系。
除了作為工具屬性,智能機(jī)器人以下特點(diǎn)值得突出:
一是數(shù)據(jù)采集端口。數(shù)據(jù)是模型的基礎(chǔ),機(jī)器人將會(huì)是增量數(shù)據(jù)采集的端口。誰有消費(fèi)級(jí)機(jī)器人數(shù)據(jù),誰有條件做出最好的 AI。
二是應(yīng)用服務(wù)新入口。和人交互場景的消費(fèi)級(jí)機(jī)器人,會(huì)是繼個(gè)人電腦、手機(jī)之后的第三智能硬件形態(tài),是各類應(yīng)用服務(wù)的入口。
三是 AGI 路徑。如開篇所述,在開放式環(huán)境中自我學(xué)習(xí)和進(jìn)化的智能機(jī)器人是實(shí)現(xiàn) AGI 的路徑,將會(huì)使智能算法得到質(zhì)的飛躍。由于機(jī)器人本身是可編程物理智能體,所以自我進(jìn)化也將會(huì)帶來人類對于智能本身理解的升華,會(huì)大大拓展人類本身智能的邊界。所以從 AI 的視角去觀察,用在固定工業(yè)產(chǎn)線和不與人交互場景的機(jī)器人和與人交互的消費(fèi)級(jí)機(jī)器人是完全兩種機(jī)器人。消費(fèi)級(jí)人形機(jī)器人是 AI 時(shí)代最重要的智能體,人類可以借助人形機(jī)器人進(jìn)入一個(gè)全新的人機(jī)協(xié)作的智能時(shí)代,從而開啟人類使用工具的新紀(jì)元。
3. AI 突破的三個(gè)底層邏輯
回顧了 2024 年 AI 幾個(gè)方面的進(jìn)展,我們再討論下 AI 發(fā)展的三個(gè)基本邏輯,即 Scaling law、Transformer 架構(gòu) (泛指 Transformer-like 的架構(gòu)) 和生成模型。這三個(gè)方面相互交織,我們逐項(xiàng)討論下內(nèi)在的原理和邏輯,便于把握 AI 發(fā)展的底層規(guī)律。
3.1 Scaling law 邁向縱深
Scaling law 是 GPT 等大語言模型快速發(fā)展的底層邏輯,更多的數(shù)據(jù)、更多的算力、更大的模型,得到更好的效果。Scaling law 也是 2024 年推動(dòng)了 Sora 等視頻生成模型的技術(shù)突破的邏輯遵循,利用更有利于規(guī);瘮U(kuò)展的算法架構(gòu)。雖然 Sora 并未開源或公開算法細(xì)節(jié),但其技術(shù)報(bào)告公開了算法架構(gòu)和技術(shù)路線,這使得領(lǐng)域內(nèi)可以快速跟進(jìn),例如可靈。他們甚至實(shí)現(xiàn)比 Sora 更好的效果、更快的線上服務(wù),再次在視頻生成上驗(yàn)證了 Scaling law 的有效性。Scaling law 也在具身智能大模型上面初步得到驗(yàn)證,讓大家看到了具身智能 GPT 時(shí)刻出現(xiàn)的希望。在醫(yī)療方向,Nature 剛剛發(fā)表了三篇和醫(yī)療基礎(chǔ)模型相關(guān)的論文,標(biāo)志著醫(yī)療 AI 在快速邁向基礎(chǔ)模型驅(qū)動(dòng)的 2.0 時(shí)代,也是 Scaling law 規(guī)律的體現(xiàn)。所以,Scaling law 不僅是大模型發(fā)展的底層規(guī)律,也是通向 AGI 的可靠路徑之一。
過去一年關(guān)于 Scaling law 是否遇到天花板的討論比較多,但其實(shí),目前能夠有足夠多的資源和數(shù)據(jù)去觸摸 Scaling law 天花板的公司,全世界沒幾家。因?yàn)槭紫刃枰銐驈?qiáng)大的基礎(chǔ)設(shè)施和計(jì)算資源,其次還需要足夠多的訓(xùn)練數(shù)據(jù)。關(guān)于數(shù)據(jù),一方面是現(xiàn)有的互聯(lián)網(wǎng)相關(guān)數(shù)據(jù),另一方面是合成數(shù)據(jù) 合成數(shù)據(jù)非常重要,但是合成數(shù)據(jù)的質(zhì)量能否用于有效訓(xùn)練,取決于基礎(chǔ)模型的生成能力和合成數(shù)據(jù)的方法,截止到 2024 年,可能只有 GPT-4 等極少數(shù)模型能達(dá)到這個(gè)水平。所以,目前還不能給 Scaling law 下個(gè)遇到天花板的結(jié)論。
3.2 Scaling law 固定路徑被打破
隨著 Scaling law 的縱深發(fā)展,其發(fā)展的固定路徑已經(jīng)被打破!進(jìn)入了新的 Scaling law 2.0 階段。
DeepSeek-V3 的發(fā)布在領(lǐng)域內(nèi)引起廣泛討論,他們用正常十分之一的算力達(dá)到目前大語言模型的 SOTA 性能。個(gè)人認(rèn)為這個(gè)工作的出現(xiàn)標(biāo)志著 GPT-1 以來基于 Scaling law 的固定迭代路徑已經(jīng)被打破了,是個(gè)模型架構(gòu)和工程優(yōu)化結(jié)合的突破性成果。由此也讓領(lǐng)域內(nèi)看到模型工程優(yōu)化的高度,所以模型架構(gòu)在芯片計(jì)算層的優(yōu)化將會(huì)是大模型訓(xùn)練和推理的研發(fā)重點(diǎn)方向。由此路徑深入迭代,將會(huì)把模型工程引向模型架構(gòu)和芯片架構(gòu)深度融合的類腦芯片方向,從而突破 Scaling law 的限制,把模型訓(xùn)練和推理帶入下一個(gè)階段。當(dāng)然,這個(gè)方向需要時(shí)間探索。國內(nèi)剛剛發(fā)布的 MiniMax-01 模型也是這類不錯(cuò)的工作。
除此之外,OpenAI o1 開啟 Test/inference-time scaling law 的階段。語言大模型可以看成是知識(shí)的壓縮,那怎么利用知識(shí)產(chǎn)生更好的智能就是基于基礎(chǔ)模型的思維推理必然發(fā)展的方向。思維推理的發(fā)展也從一維單鏈路 CoT 模式到基于像蒙特卡洛樹搜索 MCTS 的系統(tǒng)化多維推理演化,從而構(gòu)建更智能更體系化的思維模型。推理算法的發(fā)展也反過來影響基礎(chǔ)模型的 Scaling law 路徑,例如微軟 rStar-Math 算法無需從大模型蒸餾也能用 60 塊 A100 訓(xùn)練的 7B 模型在數(shù)學(xué)推理上媲美達(dá)到 OpenAI o1 性能。上海 AI 實(shí)驗(yàn)室的書生·浦語 3.0 的 InternLM3-8B-Instruct 模型通過提升數(shù)據(jù)質(zhì)量和數(shù)據(jù)工程,只用 15% 的算力達(dá)到 SOTA 性能。過去半年這類工作有不少,就不一一列舉。
總結(jié)來說,無論數(shù)據(jù)維度、模型尺寸維度、還是算力維度,Scaling law 在模型上的體現(xiàn)已經(jīng)過了粗狂式的發(fā)展階段,進(jìn)入追求更有效的數(shù)據(jù)使用方式、更合理的架構(gòu)設(shè)計(jì)、更極致的工程優(yōu)化、更體系化的思維推理的 2.0 階段。
3.3 底層架構(gòu)趨向統(tǒng)一
這里所說的架構(gòu)可以分為兩個(gè)層面,一個(gè)是指生成架構(gòu),例如自回歸模型、擴(kuò)散模型、流模型、生成對抗網(wǎng)絡(luò)等;另外一個(gè)層面就是逼近函數(shù)通用的網(wǎng)絡(luò)結(jié)構(gòu),例如卷積神經(jīng)網(wǎng)絡(luò)、LSTM、U-Net、Transformer 等。Transformer 架構(gòu)因其對 Scaling law 的優(yōu)良適配性,正在成為多種算法統(tǒng)一的底層架構(gòu)。自然語言處理領(lǐng)域的自回歸模型、擅長視覺任務(wù)的擴(kuò)散模型和常用于 AI for Science 方向的圖神經(jīng)網(wǎng)絡(luò)模型,都呈現(xiàn)了逐步收斂到 Transformer 架構(gòu)之上的發(fā)展趨勢。
在過去的一年,Sora 的出現(xiàn)不僅僅是視頻生成的突破,也改變了視覺方向的底層架構(gòu)設(shè)計(jì),DiT (Diffusion Transformer) 迅速成為視覺方向業(yè)界公認(rèn)的基礎(chǔ)架構(gòu),算法的設(shè)計(jì)都往這種架構(gòu)收斂,這就是算法發(fā)展的不可預(yù)料性和強(qiáng)大活力。Transformer 問世于 2017 年,當(dāng)時(shí)在 NLP 領(lǐng)域只用了兩三年時(shí)間迅速替代當(dāng)時(shí)的主流框架 LSTM。在 Transformer 沒有誕生之前,LSTM 在 NLP 領(lǐng)域占有絕對的主導(dǎo)地位,無人能預(yù)料到這么快會(huì)被邊緣化 但就是這么發(fā)生了,這種不可預(yù)料性也是算法研究的樂趣所在。
在多模態(tài)方向上,理解、生成、理解和生成的統(tǒng)一等任務(wù)和模態(tài)的統(tǒng)一架構(gòu)研究也非;钴S。業(yè)內(nèi)期待能有一個(gè)大一統(tǒng)的架構(gòu)可以把不同模態(tài)和任務(wù)統(tǒng)一,有代表性的例如智源研究院基于自回歸架構(gòu)的 Emu3 和 Meta 的 MetaMorph 模型。
架構(gòu)趨于統(tǒng)一對于 AI 發(fā)展來說很有意義。首先,統(tǒng)一的架構(gòu)可以顯著地增強(qiáng) AI 系統(tǒng)的互操作性,深度探索不同模態(tài)、不同語義、不同尺度數(shù)據(jù)的深層次關(guān)聯(lián)性,這對人類通過 AI 認(rèn)知和理解世界有決定性意義。達(dá)摩院在這個(gè)方向有跨領(lǐng)域跨學(xué)科的項(xiàng)目在開展中。另外,統(tǒng)一的架構(gòu)也將大幅提升研發(fā)和部署效率,不僅使 AI 底層基礎(chǔ)設(shè)施的模型系統(tǒng)架構(gòu)更加簡潔,也使推理的軟硬件架構(gòu)可以在不同領(lǐng)域快速泛化使用,這將大大加速 AI 研發(fā)效率、產(chǎn)品的落地速度、和普惠化程度。
自回歸模型會(huì)是生成模型的最終答案嗎?目前只能說,可能性是存在的。但是同時(shí)我們也要看到擴(kuò)散模型除了在視覺方向的廣泛應(yīng)用以外,在 AI for Science 方向也正在被普遍使用。Transformer 會(huì)是 AI 的終極底層架構(gòu)嗎?終極答案是否定的,但在一定時(shí)間內(nèi) Transformer 還會(huì)是大多數(shù) AI 算法設(shè)計(jì)的最優(yōu)選擇。尤其是隨著 AI 的廣泛應(yīng)用,深入千行百業(yè),會(huì)強(qiáng)化 Transformer 的主導(dǎo)地位,因?yàn)闊o論工程和系統(tǒng)方面,還是芯片等硬件層面,目前都是圍繞 Transformer 架構(gòu)進(jìn)行的。除非有一個(gè)突破性的新架構(gòu)出現(xiàn),否則 Transformer 很難在短期內(nèi)被顛覆。
3.4 生成模型是 AI 算法的第一性原理
深度學(xué)習(xí)解決了復(fù)雜函數(shù)的通用逼近問題,而生成模型解決了概率論里的古老問題 高維數(shù)據(jù)分布 (或是非線性結(jié)構(gòu)) 的擬合。我們上大學(xué)時(shí)學(xué)習(xí)概率論,核心就是估計(jì)概率密度函數(shù)、擬合數(shù)據(jù)分布。為什么擬合數(shù)據(jù)分布重要?因?yàn)?AI 處理的就是數(shù)據(jù),一旦擬合了數(shù)據(jù)分布,尋找到數(shù)據(jù)結(jié)構(gòu)的機(jī)理,就能通過直接采樣生成新的數(shù)據(jù)。因此,絕大多數(shù) AI 要解決的任務(wù),本質(zhì)上都可以簡化成對數(shù)據(jù)分布的擬合和對數(shù)據(jù)分布的修正這兩個(gè)很基礎(chǔ)的問題。所以生成模型是非常本質(zhì)的,它成為 AI 的基礎(chǔ)模型是符合第一性原理的。
生成模型一定程度上可以突破互聯(lián)網(wǎng)數(shù)據(jù)階段性見頂和各個(gè)領(lǐng)域內(nèi)數(shù)據(jù)缺乏的困境,對推動(dòng) AI 發(fā)展的作用遠(yuǎn)超作為算法應(yīng)用本身。例如基礎(chǔ)模型性能發(fā)展最成熟的 NLP 領(lǐng)域,生成數(shù)據(jù)用于訓(xùn)練模型已經(jīng)是常態(tài),是解決 NLP 數(shù)據(jù)困境的有效途徑。除了視頻方向的 Sora,自動(dòng)駕駛領(lǐng)域也在用生成數(shù)據(jù)來解決 corner case 的問題。Tripo 和 Rodin 三維生成模型也展現(xiàn)了令人鼓舞的前景?茖W(xué)方向基于擴(kuò)散模型的 RFDiffusion 和 Chroma 算法可以用于蛋白質(zhì)設(shè)計(jì)。微軟發(fā)布了可以快速生成不同類型無機(jī)材料的基礎(chǔ)模型 MatterGen。醫(yī)療方向也在用生成模型解決醫(yī)療數(shù)據(jù)稀缺的問題。隨著各個(gè)模態(tài)生成基礎(chǔ)模型性能的成熟,其它方向也會(huì)如此。
更重要的是,基于生成模型的思維推理是構(gòu)建智能的關(guān)鍵。目前生成模型的發(fā)展和使用還在初期階段。基于生成模型對于知識(shí)的建模、結(jié)構(gòu)的擬合、智能的構(gòu)建才剛剛開始,新的思維范式也將會(huì)在未來幾年里出現(xiàn)。從點(diǎn)線的低維度推理模式到高維度體系化思維能力的演化,不僅會(huì)促使模型能力的極大提升,也會(huì)讓研究員重新審視模型架構(gòu)的設(shè)計(jì)本身,從而加速 AGI 時(shí)代的到來。
4. AI 產(chǎn)業(yè)進(jìn)入百花齊放階段
前面重點(diǎn)討論了技術(shù)方向,接下來,讓我們展望 AI 的產(chǎn)業(yè)影響。人類有幾個(gè)基本的特點(diǎn):血肉之軀的能力限制,所以物理工具是必需品,而最極致的工具是物理化的人 機(jī)器人;知識(shí)無法遺傳,所以教育不可或缺;肉體衰老死亡,所以醫(yī)療是人類社會(huì)的剛需服務(wù);活動(dòng)受到物理環(huán)境的限制,所以數(shù)字仿真必將成為 AI 的基礎(chǔ)設(shè)施。我們就聚焦在硬件、教育、醫(yī)療、和數(shù)字仿真這幾個(gè)題目進(jìn)行簡要討論。
4.1 智能硬件具備爆發(fā)條件
2024 年像谷歌的 Gemini、OpenAI 的 GPT 系列、阿里巴巴的通義 Qwen-VL、智譜的 GLM-Realtimes、和面壁智能的 “小鋼炮” MiniCPM-o 2.6 端側(cè)模型都在多模態(tài)和視覺理解能力上取得了顯著進(jìn)步。人類本來就是利用視覺、語言、聽覺、觸覺等不同模態(tài)的信息來進(jìn)行和環(huán)境感知和交互的,所以多模態(tài)是人機(jī)交互的關(guān)鍵。多模態(tài)基礎(chǔ)模型能力的成熟會(huì)促使兩個(gè)方向的進(jìn)步:一個(gè)就是數(shù)字智能體,也就是現(xiàn)在說的 Agent;一個(gè)是物理智能體,也就是包括機(jī)器人在內(nèi)的智能硬件。所以按照技術(shù)演化的邏輯,2025 年智能硬件會(huì)迎來高速發(fā)展期。
在人機(jī)交互的信息媒介中,語言和語音是其中兩個(gè)最重要的兩個(gè)基礎(chǔ)模態(tài)。對于語音,除了智能手機(jī)之外,智能耳機(jī)會(huì)是自然的人機(jī)交互的指令入口,所以會(huì)在 AI 驅(qū)動(dòng)的智能硬件中占有核心的地位。國內(nèi)字節(jié)和訊飛都在消費(fèi)級(jí)智能耳機(jī)方向上率先發(fā)力。另外,輕量級(jí)的腦機(jī)接口設(shè)備也在 CES 2025 上出現(xiàn),例如美國初創(chuàng)公司發(fā)布的 Omi 的 AI 可穿戴設(shè)備。這種類似的智能硬件雖然輕量,但是都是不同模態(tài)人機(jī)交互入口級(jí)別的智能硬件,值得關(guān)注。
另外一個(gè)大的方向就是機(jī)器人,剛才在具身智能章節(jié)中從技術(shù)的角度闡述了關(guān)于機(jī)器人的看法。但是從產(chǎn)業(yè)落地的角度去觀察,是不同的路徑。目前業(yè)內(nèi)認(rèn)為率先落地的是工業(yè)場景,如汽車總裝線,這個(gè)場景下機(jī)器人的目標(biāo)是替換高級(jí)技工并帶來產(chǎn)能的提升。另外一個(gè)就是家庭智能玩具,它基于輕機(jī)器人本體路線,但帶來多模態(tài)的人機(jī)交互。
和主流看法有點(diǎn)差異,我們認(rèn)為對于未來機(jī)會(huì)的把握這兩個(gè)都不是當(dāng)下落地的理想路徑。而二者的結(jié)合:一個(gè)低自由度,結(jié)構(gòu)簡單穩(wěn)定,能夠帶來 “輕、靜、快” 的物理交互,又能結(jié)合 AI 提供多模態(tài)感知交互的機(jī)器人,很可能會(huì)更早地形成可以持續(xù)的商業(yè)生態(tài)。在 2025 年,除了大家都熟知的人形機(jī)器人,我們更期待一款可落地的消費(fèi)級(jí)機(jī)器人新品類出現(xiàn)。
4.2 醫(yī)療 2.0 時(shí)代開啟
在 AlphaFold 榮獲 2024 年諾貝爾獎(jiǎng)后,幾乎所有人都意識(shí)到了 AI 解決基礎(chǔ)科學(xué)問題的巨大力量,AI for Science 已成為毋庸置疑的重要趨勢。其中,生命科學(xué)和醫(yī)療是關(guān)乎人類福祉的方向。AlphaFold 發(fā)明人之一、DeepMind CEO Demis Hassabis 也預(yù)測人類有可能在未來十年內(nèi)治愈大部分疾病。這一預(yù)測如果成為現(xiàn)實(shí),那將是醫(yī)藥誕生以來的歷史性進(jìn)步。
在過去幾個(gè)月里,Nature 正刊上接連發(fā)表了病理學(xué)基礎(chǔ)模型 CHIEF、精準(zhǔn)腫瘤學(xué)多模態(tài)基礎(chǔ)模型 MUSK、人類細(xì)胞類型的轉(zhuǎn)錄基礎(chǔ)模型 GET,還有 Nature Medicine 上解決醫(yī)療圖像合成的生成基礎(chǔ)模型 MINIM,多模態(tài)醫(yī)療基礎(chǔ)模型 BioMedGPT 等。這些基礎(chǔ)模型工作的接連出現(xiàn),標(biāo)志著醫(yī)療技術(shù) 2.0 時(shí)代的到來。醫(yī)療方向正在從針對單病種單類型的技術(shù)時(shí)代快速向基于基礎(chǔ)模型加具體任務(wù)微調(diào)的大模型范式轉(zhuǎn)換。另外,完整周期的大隊(duì)列數(shù)據(jù)對于疾病治療至關(guān)重要,但是獲取完整隊(duì)列數(shù)據(jù)非常困難而且周期很長。借助生成模型,有望解決醫(yī)療周期數(shù)據(jù)缺失的問題,這對醫(yī)療領(lǐng)域取得實(shí)質(zhì)性進(jìn)步意義重大。
達(dá)摩院在醫(yī)療 AI 方向成果顯著,在 Nature Medicine 上發(fā)表了基于平掃 CT 影像的胰腺癌檢測算法 DAMO PANDA,是業(yè)內(nèi)首次借助平掃 CT 進(jìn)行胰腺癌篩查的方法,為大規(guī)模低代價(jià)進(jìn)行胰腺癌篩查開辟了新的路徑。這項(xiàng)工作被斯坦福大學(xué)發(fā)布的 2024 年 AI 指數(shù)報(bào)告列為 “年度亮點(diǎn)研究”,是國內(nèi)唯一入選的工作。目前達(dá)摩院正在進(jìn)行中的多病種統(tǒng)一算法架構(gòu)、醫(yī)療多模態(tài)基礎(chǔ)模型和腫瘤動(dòng)力學(xué)等相關(guān)研究,也有望在今年取得重要進(jìn)展。
4.3 AI 驅(qū)動(dòng)的教育
無論孔子時(shí)代的問答式教學(xué)、還是柏拉圖時(shí)代開啟的思辯,教育至今都延續(xù)老師和學(xué)生物理互動(dòng)的模式。學(xué)生學(xué)業(yè)的高度很大程度上取決于老師水平的高低和資源的多少,因此,受限于不同地域和文明發(fā)達(dá)程度的不一,人類離教育普惠一直遙不可及。令人欣喜的是,這種狀況要在 AI 時(shí)代終結(jié)了。
在谷歌的 Gemini 多模態(tài)模型和 OpenAI 的多模態(tài)模型發(fā)布會(huì)上,都不約而同地展示了多模態(tài)大模型在教育場景的應(yīng)用示例,這足以說明 AI 公司對于利用 AI 技術(shù)解決教育問題的期待和重視程度。AI 將人類沉淀的知識(shí)壓縮到模型中,從而利用記憶和組合生成可以創(chuàng)造出比人類更加智慧聰明的數(shù)字智能體。所以在不遠(yuǎn)的將來,利用多模態(tài)大模型的能力,虛擬老師的水平將會(huì)超過幾乎所有的真實(shí)老師的水平,從而使教育提高到一個(gè)全新的高度。只要有可以運(yùn)行 AI 軟件的硬件終端,人人都可以獲取最好的教育。這會(huì)在未來五年內(nèi)發(fā)生,將是人類教育事業(yè)全新的開始。
但是教育本身也包含物理互動(dòng)的過程,而且這是數(shù)字智能體沒法完全取代的,所以教育方向?qū)⒂羞m應(yīng) AI 時(shí)代的各種智能硬件出現(xiàn)。
4.4 數(shù)字仿真 2.0
2024 年對于 AI 發(fā)生的其中有一個(gè)轉(zhuǎn)折就是算法到物理世界的轉(zhuǎn)場。AI 為了更好地適配物理世界并實(shí)現(xiàn)落地,各類數(shù)字化仿真將會(huì)成為不可或缺的基礎(chǔ)設(shè)施。世界模型就是其中一個(gè)備受關(guān)注的方向,還有現(xiàn)象級(jí)討論的 Genesis 物理仿真平臺(tái)等。但是這里談到的數(shù)字仿真遠(yuǎn)不止現(xiàn)在學(xué)術(shù)界研究的世界模型覆蓋的范疇,這是一個(gè)涵蓋從微觀尺度到宏觀尺度的數(shù)字技術(shù)和物理世界映射的范式變化。
英偉達(dá)在數(shù)字仿真領(lǐng)域上進(jìn)行了系統(tǒng)化的深入布局。NVIDIA Isaac、Omniverse 和 Cosmos 等平臺(tái)正構(gòu)建一個(gè)完整的仿真生態(tài)系統(tǒng),重塑工業(yè)研發(fā)鏈路和范式。在 CES 2025 上,英偉達(dá)演示了在自動(dòng)駕駛仿真、飛機(jī)制造、機(jī)器人研發(fā)以及工業(yè)場景的數(shù)字孿生等方面的應(yīng)用,展現(xiàn)了廣闊的前景。
不僅在工業(yè)場景,數(shù)字仿真在生命科學(xué)上也展現(xiàn)了巨大的潛力。2024 年 DeepMind 和哈佛大學(xué)在 Nature 上發(fā)表了由 AI 生成的數(shù)字生命體 虛擬老鼠,使用命名為 MIMIC 的算法能夠模擬嚙齒動(dòng)物的大腦活動(dòng)和行為表現(xiàn),在生物動(dòng)力學(xué)方向取得重要突破。國內(nèi)智源研究院提出了 BAAIWorm 天寶,實(shí)現(xiàn)了秀麗隱桿線蟲的神經(jīng)系統(tǒng)、身體 和環(huán)境的交互仿真;谡鎸(shí)物理世界機(jī)理的生物動(dòng)力學(xué)仿真,將會(huì)開啟一個(gè)全新的生命科學(xué)研究范式,有著深遠(yuǎn)的意義。
在數(shù)字化時(shí)代,原則上幾乎每個(gè)物理世界的場景都可以進(jìn)行仿真。從核聚變研究到細(xì)胞活動(dòng)模擬,從機(jī)器人研發(fā)到數(shù)字生命體建模,從機(jī)械動(dòng)力學(xué)到生物動(dòng)力學(xué),從微觀到宏觀的自然界都將會(huì)在仿真系統(tǒng)中被重建。
5. 結(jié)語
這輪 AI 浪潮會(huì)把人類社會(huì)帶入全新的智能時(shí)代,人類認(rèn)知世界、改造世界的能力將得到空前的提高?梢灶A(yù)料到的是,三十年后我們將身處一個(gè)與現(xiàn)在完全不同的嶄新世界。作為 AI 從業(yè)人員,我們非常榮幸可以參與這一歷史進(jìn)程,也希望本文能夠?yàn)?AI 同仁探索未來提供一些啟發(fā)。未盡之處,歡迎關(guān)注 “DAMO 開發(fā)者矩陣”,我們將在后續(xù)文章中持續(xù)探討 AI 的前沿趨勢與應(yīng)用展望。