2024年過去,AI又走過了狂奔的一年,大模型加速落地的熱切、應用場景創(chuàng)新的火熱和高投入、商業(yè)化緩慢帶來的“下牌桌”焦慮同時處在這個行業(yè)。
回過頭看來,過往行業(yè)共識的一些問題在2024年中被打上了問號,例如智能算力還是否短缺、中國AI企業(yè)的“算力焦慮”是必要的嗎?Scaling Law(規(guī)模法則)還值得信仰嗎?
辭舊迎新之際,中國AI行業(yè)的“拐點”時刻更受關注。不再統(tǒng)一的答案背后,值得關注的是,對中國AI企業(yè)來說,一些好的變化正在發(fā)生,也有更多挑戰(zhàn)等待2025年去回答。
訓練成本下降
2024年12月27日,海外社交媒體平臺X被來自中國的大模型DeepSeek-V3刷屏,這一模型能力對標頭部模型,但訓練的預算卻非常低,“2048個GPU、2個月、近600萬美元”,相比之下,GPT-4o等模型的訓練成本約為1億美元,至少在萬個GPU量級的計算集群上訓練。
這是一項展現(xiàn)了極致性價比的訓練成本數(shù)據(jù)。在已開源的論文中,幻方量化旗下AI公司深度求索(DeepSeek)強調(diào)了DeepSeek-V3訓練成本較低通過對算法、框架和硬件的優(yōu)化協(xié)同設計,在預訓練階段,模型每訓練1萬億token僅需要18萬個GPU小時,即在團隊配備2048個H800 GPU的集群上只需3.7天,也就是說,團隊的預訓練在不到2個月的時間完成。加上后訓練,DeepSeek-V3完整訓練消耗了278.8萬個GPU小時。假設H800 GPU的租用價格為每塊GPU 2美元/小時,DeepSeek-V3的全部正式訓練成本總計僅為557.6萬美元。
DeepSeek的成功并非個例,值得關注的是,在英偉達顯卡等高端算力資源受限的情況下,2024年,許多中國AI企業(yè)正在找到降低訓練成本的方法。
極佳科技聯(lián)合創(chuàng)始人兼首席科學家朱政向第一財經(jīng)記者透露,過去一年,極佳科技訓練大模型的成本也在大規(guī)模下降。朱政介紹,之前極佳科技訓練一個視覺模型大概需要500萬美金,基本上是一個語言模型的1/10,但現(xiàn)在他們已經(jīng)把這個成本降到了100萬美金以下。
從訓練成本的降低來看,朱政表示“方法有很多”,一方面,大模型公司正在關注與云廠商加強合作,通過做一些訓練加速、通訊優(yōu)化、設置優(yōu)化等降低成本。同時,行業(yè)對數(shù)據(jù)優(yōu)化也更為重視,之前行業(yè)用Scaling Law只是在對數(shù)據(jù),但對完數(shù)據(jù)后并沒有做非常多相應的優(yōu)化,事實上數(shù)據(jù)優(yōu)化帶來的訓練效率提升空間也很大。
中國AI企業(yè)的“搶卡”焦慮也因此有所緩解,朱政表示,例如英偉達最新發(fā)布的顯卡還是要買,得買最新的架構(gòu)的顯卡,但隨著訓練效率的提升,需要的規(guī)模會下降。他同時表示,來到100萬美金以下,未來進一步下探大模型的訓練成本將是一件更困難的事情,可能不是一家企業(yè)能搞定的事情,可能需要訓練框架的支持、編程語言的支持包括顯卡算式的支持。
從全行業(yè)的角度來看,螞蟻集團科技戰(zhàn)略與執(zhí)行部副總經(jīng)理彭晉對第一財經(jīng)記者表示,在采購先進算力有些困難的情況下,國內(nèi)也在推進國產(chǎn)算力的替代,各大公司都在不斷采購一些國產(chǎn)算力,從螞蟻的實踐來看,國產(chǎn)算力已經(jīng)可以支撐很大規(guī)模,比如在千億參數(shù)甚至以上規(guī)模的模型訓練中國產(chǎn)算力是沒有問題的。至于到下一步,例如說要建十萬卡規(guī)模的集群,國產(chǎn)算力能否支撐有待進一步檢驗。
“遠慮”仍存,但走過2024年,中國企業(yè)的“算力焦慮”正在回歸理性。
未來趨勢
2025年,中國AI行業(yè)會有哪些變化?
北京智源人工智能研究院在《2025十大AI技術趨勢》報告中指出,從基礎設施到產(chǎn)品應用,Scaling Law、基礎模型、具身智能、超級應用、AI安全等AI發(fā)展的關鍵方向都可能在2025年迎來新的變化。
報告認為,AI4S驅(qū)動科學研究范式變革;具身智能領域具身大小腦和本體的協(xié)同進化;統(tǒng)一的多模態(tài)大模型實現(xiàn)更高效AI;Scaling Law擴展向RL + LLMs,模型泛化從預訓練向后訓練、推理遷移;世界模型加速發(fā)布,有望成為多模態(tài)大模型的下一階段;合成數(shù)據(jù)成為大模型迭代與應用落地的重要催化劑;推理優(yōu)化迭代加速,成為AI Native應用落地的必要條件;Agentic AI成為產(chǎn)品落地的重要模式;AI應用將迎來Super APP以及AI安全治理體系的持續(xù)完善將成為2025年AI技術發(fā)展的十大趨勢。
不少中國自研的技術和產(chǎn)品讓業(yè)內(nèi)看到了這些趨勢的到來。2024年9月,螞蟻發(fā)布了支小寶、螞小財?shù)认盗蠥I管家產(chǎn)品,探索更多服務類智能體形態(tài),2024年10月,智源研究院發(fā)布了完全自研的基于自回歸技術的原生多模態(tài)世界模型Emu3,實現(xiàn)了視頻、圖像、文本三種模態(tài)的統(tǒng)一理解和生成,2024年年底,豆包月活躍用戶數(shù)達到了7116萬,成為國內(nèi)第一、全球第二的AI原生應用。
智能研究院行業(yè)研究組負責人倪賢豪提到,走過2024年全年來看,與2023年相比,國內(nèi)AI整體的應用熱度已明顯升溫,相比2023年第一季度,他所在的團隊調(diào)研到,2024年第四季度,整個基礎模型的垂直產(chǎn)業(yè)鏈以及其他賽道AI應用的成熟度已有了明顯提升,例如AI在3D內(nèi)容、AI硬件等場景的應用以及醫(yī)療文獻處理等未來場景的探索中,都有了明顯拓展。
從國內(nèi)大模型公開中標項目的類型分布來看,2024年10月,大模型應用類項目數(shù)量首次超過了算力類項目,應用類大模型招標項目占比已達到56%,國產(chǎn)大模型在垂直行業(yè)實現(xiàn)了加速落地,或是在諸多中大型企業(yè)扮演中臺性質(zhì)的基礎設施。
AI應用領域的Super APP能否在2025年出現(xiàn)同樣受到業(yè)內(nèi)關注。從C端的用戶規(guī)模、交互頻次、停留時長等維度來看,目前,國產(chǎn)AI應用尚未出現(xiàn)爆發(fā)式增長,倪賢豪表示,隨著大模型推理成本的下降,包括開發(fā)工具的適配、框架的創(chuàng)新以及應用安全、決策的可解釋性、魯棒性等問題的解決,未來,推動Agent解決復雜問題的能力提升將變得更有可能也更關鍵。他認為,從用戶視角切入,以需求反推技術或許能撬動AI應用的用戶存量和增量市場,Super APP在2025年的誕生值得期待。
“當前,我們處在人工智能發(fā)展的新拐點,大模型的能力涌現(xiàn)加速通用人工智能時代的到來,原生統(tǒng)一多模態(tài)、具身智能、AI for Science,將進一步深化人工智能對世界的感知、理解與推理,連接數(shù)字世界與物理世界,驅(qū)動科學研究創(chuàng)新突破!敝窃囱芯吭涸洪L王仲遠表示。
(本文來自第一財經(jīng))