展會信息港展會大全

商湯破解世界模型秘訣,「日日新」實現(xiàn)AI大一統(tǒng)!原生融合模型破紀錄雙冠王
來源:互聯(lián)網(wǎng)   發(fā)布日期:2025-01-14 14:10:54   瀏覽:286次  

導讀:新智元報道編輯:編輯部 HYZ【新智元導讀】大模型下一個突破口在哪?商湯「日日新」原生融合大模型一舉拿下雙料冠軍,給出了最好的答案。一個模型精通「看」與「想」,原生多模態(tài)融合讓AI邁入「大一統(tǒng)」新紀元。大模型發(fā)展到今天,下一步該走向何方?就在剛剛,商湯給出了答案原生融合模態(tài)!最近的CES大會上,英偉達提出能理解世界的「世界模型」Cosmos,能夠?qū)⑽谋、圖像、視 ......

商湯破解世界模型秘訣,「日日新」實現(xiàn)AI大一統(tǒng)!原生融合模型破紀錄雙冠王

新智元報道

編輯:編輯部 HYZ【新智元導讀】大模型下一個突破口在哪?商湯「日日新」原生融合大模型一舉拿下雙料冠軍,給出了最好的答案。一個模型精通「看」與「想」,原生多模態(tài)融合讓AI邁入「大一統(tǒng)」新紀元。大模型發(fā)展到今天,下一步該走向何方?

就在剛剛,商湯給出了答案原生融合模態(tài)!

最近的CES大會上,英偉達提出能理解世界的「世界模型」Cosmos,能夠?qū)⑽谋、圖像、視頻作為輸入。

商湯破解世界模型秘訣,「日日新」實現(xiàn)AI大一統(tǒng)!原生融合模型破紀錄雙冠王

英雄所見略同,憑借著十年的深耕和AI賦能場景的經(jīng)驗,商湯也認為,原生融合是世界模型的必經(jīng)之路。

或者說,多模態(tài)模型,是AI 2.0進行場景落地的必由之路。

就在最近,商湯「日日新」融合大模型上線了!

一個模型,就實現(xiàn)了多模態(tài)的融合。這是商湯率先在原生融合模態(tài)上取得了實質(zhì)性突破,成為業(yè)界在這一領(lǐng)域的領(lǐng)跑者。

這一突破標志著,大語言模型和多模態(tài)模型普遍分立的現(xiàn)狀,從此刻邁向真正意義上的「大一統(tǒng)」時代!

跨模態(tài)交互融合,通往世界模型的必經(jīng)之路

一般來說,LLM的工作原理,是根據(jù)提示一次生成一個token產(chǎn)生輸出。如果上下文變成了現(xiàn)實周圍環(huán)境,大模型就需要從生成「內(nèi)容token」轉(zhuǎn)變?yōu)樯伞竸幼鱰oken」。

隨著AI落地到各種場景,它需要對多維度、多模態(tài)的信息有感知、理解、分析、判斷,如果模型不能有效綜合處理這些模態(tài),模型的智能水平就會很容易達到天花板。

原生模態(tài)融合之所以如此意義重大,就是因為實現(xiàn)之后,模型就不止能達到「看」和「想」的水平,而是可以幫助人類解決更多復雜問題。

看不清的字體,數(shù)據(jù)圖表里的信息,文學創(chuàng)作與撰寫,舉棋不定的游戲……現(xiàn)在,這些任務(wù)全部可以實現(xiàn)了。

實測:模型會看,還會想接下來,不如看看「日日新」融合大模型在實際任務(wù)中的表現(xiàn)。

無論是非常難認的英文手寫詩,還是俄文手寫詩,它都能認出來。

上傳一張幾乎難以辨認的英文手寫體詩歌,日日新竟毫不費力地讀出了每一行詩。最關(guān)鍵的是,它還完整復刻原文的書寫格式。

商湯破解世界模型秘訣,「日日新」實現(xiàn)AI大一統(tǒng)!原生融合模型破紀錄雙冠王

再比如這張俄語詩歌,對于非母語的人來說,大腦只剩一片空白。

對于日日新來說,簡直小菜一碟,不僅準確寫出了原文詩句,還順便把它翻譯成了比較有意境的中文版。

商湯破解世界模型秘訣,「日日新」實現(xiàn)AI大一統(tǒng)!原生融合模型破紀錄雙冠王

有了日日新,對于拍題寫作業(yè)的學生們來說,簡直就是絕絕子。

以往,你可能需要將題目打成文字,發(fā)給AI去解,而現(xiàn)在拍題、解答能夠一并交給AI。

將附有自己解答的一道題圖片上傳,AI一眼就辨認出錯誤點。而且,它還能做到舉一反三,完全就是學習神器。

商湯破解世界模型秘訣,「日日新」實現(xiàn)AI大一統(tǒng)!原生融合模型破紀錄雙冠王

還有一些讓人笑出鵝叫的小學生錯題,日日新能完美解讀答案好笑在哪里。

商湯破解世界模型秘訣,「日日新」實現(xiàn)AI大一統(tǒng)!原生融合模型破紀錄雙冠王

爆笑小學生作文的幽默之處,它都能get。

商湯破解世界模型秘訣,「日日新」實現(xiàn)AI大一統(tǒng)!原生融合模型破紀錄雙冠王

同樣的,日日新非常精準指出了這幅畫作的特點捕捉到了狗的神態(tài)和動作。

對于如何提升畫技,它又給出了行之有效的方式。

商湯破解世界模型秘訣,「日日新」實現(xiàn)AI大一統(tǒng)!原生融合模型破紀錄雙冠王

再上傳一張雕像的圖片,它能識別出圖中歷史人物,并分析出對應(yīng)的歷史典故。

商湯破解世界模型秘訣,「日日新」實現(xiàn)AI大一統(tǒng)!原生融合模型破紀錄雙冠王

甚至,它還能通過一張游戲的截圖,分析出電腦的具體配置,從CPU、到GPU,再到內(nèi)存,都逐一列了出來。

通過以上要點,它推斷得出可以該電腦可跑大模型。

商湯破解世界模型秘訣,「日日新」實現(xiàn)AI大一統(tǒng)!原生融合模型破紀錄雙冠王

上傳一張圖,日日新就能分析出代碼實現(xiàn)了什么。

商湯破解世界模型秘訣,「日日新」實現(xiàn)AI大一統(tǒng)!原生融合模型破紀錄雙冠王

一張國外網(wǎng)友制作的表情包,日日新也能夠準確領(lǐng)會圖中的要點。

它認為,人類正在AGI的爬坡上,若要實現(xiàn)真正的AGI,還需要更多研發(fā)和工作。對于另一個問題,也看懂了Sam Altman本人正逐步逼近ASI。

商湯破解世界模型秘訣,「日日新」實現(xiàn)AI大一統(tǒng)!原生融合模型破紀錄雙冠王

再比如,這張大模型智商大比拼圖中,數(shù)字雜多,我們想要了解o3和o1的智商如何,直接扔給日日新就可以了。

對于AI來說,一眼就看出了圖中o3 IQ為157,o1 IQ為135。它還給出了這個評測的標準,以及Codeforces背景信息介紹。

當被問到更為發(fā)散的問題o3與愛因斯坦誰更聰明時,日日新非?陀^地看待這個問題。

若要從最直接的IQ結(jié)果來看,愛因斯坦比o3聰明些,但AI還綜合考慮了智力評測的多個維度進行分析。

商湯破解世界模型秘訣,「日日新」實現(xiàn)AI大一統(tǒng)!原生融合模型破紀錄雙冠王

而世界模型的到來,或許還意味著能對地球和人類更好的理解,找到和宇宙對話的方法。商湯破解世界模型秘訣,「日日新」實現(xiàn)AI大一統(tǒng)!原生融合模型破紀錄雙冠王

文科超越o1全球第一,理科國內(nèi)金牌同樣,多方的評測結(jié)果也證明,商湯果然摸到了一條正確的路。

完成訓練后的商湯「日日新」融合大模型,首次出戰(zhàn)即拿下語言和多模態(tài)兩個榜單的雙料冠軍。

商湯破解世界模型秘訣,「日日新」實現(xiàn)AI大一統(tǒng)!原生融合模型破紀錄雙冠王

近日,SuperCLUE 2024年度榜單中,「日日新」融合大模型以68.3高分,與DeepSeek V3并列國內(nèi)榜首,成為年度第一

商湯破解世界模型秘訣,「日日新」實現(xiàn)AI大一統(tǒng)!原生融合模型破紀錄雙冠王

同時,在OpenCompass多模態(tài)評測中,同一款模型更是力壓GPT-4o,獨占鰲頭

具體來看,SuperCLUE覆蓋了29個國內(nèi)模型,聚焦大模型的通用能力測評,由理科、文科和Hard三大維度構(gòu)成。

而此次獲得68.3高分的商湯「日日新」融合大模型,直接超越了Claude 3.5 Sonnet和Gemini-2.0-Flash-Exp。

令人印象深刻的是,「日日新」在各項能力上表現(xiàn)均衡,在三大維度上均處領(lǐng)先。

在文科任務(wù)上,它以81.8分位列全球第一,超越OpenAI的o1和GPT-4o-latest。

商湯破解世界模型秘訣,「日日新」實現(xiàn)AI大一統(tǒng)!原生融合模型破紀錄雙冠王

而在理科任務(wù)上,它直接奪得了金牌,其中計算維度以78.2分位列國內(nèi)第一并超過GPT-4o-latest。

商湯破解世界模型秘訣,「日日新」實現(xiàn)AI大一統(tǒng)!原生融合模型破紀錄雙冠王

如此驚艷的表現(xiàn),是否需要很高的成本呢?

好消息是,融合模態(tài)模型訓練的成本也并不高。相比同樣量級的LLM,訓練成本也就是增加20%左右。

原因在于,這實際上是一個多階段的訓練,語言模式和多模態(tài)模式的訓練合在了一起,因而只用了1.2倍左右的成本。

技術(shù)路線:原生融合多模態(tài)

深挖背后,離不開商湯在「原生融合多模態(tài)」一條獨特且富有前瞻性的技術(shù)發(fā)展路徑上,取得的創(chuàng)新突破。

在大模型百舸爭流的當下,各家都在積極布局多模態(tài),但技術(shù)路徑的選擇卻大不相同。

通常來講,業(yè)內(nèi)普遍采用了分離式架構(gòu),多模態(tài)和語言模型分步訓練,然后再通過中間層實現(xiàn)功能整合。

從實際應(yīng)用角度來考慮,語言只是信息的一部分,世界中很多信息可能是以圖像、視頻等形態(tài)存在的。

如果不能有效綜合處理這些信息的話,那么這個模型的能力很快就會觸及到天花板。

商湯認為,融合多模態(tài)是未來的一條必由之路,其技術(shù)最顯著的特點是「單一模型,多模態(tài)融合」。

直白講,單一模型同時訓練和處理多模態(tài),成為一個原生的多模態(tài)模型。

這也就意味著,在一個統(tǒng)一的模型框架內(nèi),同時具備了處理文本、圖像、視頻、音頻多種模態(tài)信息的能力。

值得注意的是,商湯選擇的這條技術(shù)路線,與OpenAI、Anthropic、谷歌同頻共振。比如,GPT-4o、Claude 3.5、Gemini 2.0都采用了類似的單一模型融合多模態(tài)的技術(shù)路徑。

商湯破解世界模型秘訣,「日日新」實現(xiàn)AI大一統(tǒng)!原生融合模型破紀錄雙冠王

正如商湯聯(lián)合創(chuàng)始人、人工智能基礎(chǔ)設(shè)施及大模型首席科學家林達華所言,這種策略的選擇,帶來了顯著的優(yōu)勢

首先,在訓練成本方面,相較于分別訓練兩個模型的方案,融合多模態(tài)方案僅增加20%的訓練成本,就能獲得等效的能力。

其次,這種一體化設(shè)計在處理多模態(tài)任務(wù)時,更為高效和自然。

那么,既然這條原生融合技術(shù)路線是必由之路,我們又該如何去實踐它,至今沒有具體方法論,也無人能效仿。

實際上,從去年年底開始,原生多模態(tài)大模型就逐漸成為業(yè)內(nèi)探討的重要方向。

然而由于數(shù)據(jù)和訓練方法的局限,業(yè)內(nèi)很多機構(gòu)的嘗試并不成功多模態(tài)訓練過程往往會導致純語言任務(wù),尤其是指令跟隨和推理任務(wù)的性能嚴重下降。

在這個充滿挑戰(zhàn)的賽道上,商湯憑借其在CV領(lǐng)域十年深厚積累,給出了獨一份解決之道。

他們獨創(chuàng)性提出了兩項關(guān)鍵技術(shù)融合模態(tài)數(shù)據(jù)合成與融合任務(wù)增強訓練。

融合模態(tài)數(shù)據(jù)合成NeurIPS演講上,Ilya曾當眾宣布當前AI行業(yè)已達到「數(shù)據(jù)峰值」。無獨有偶,馬斯克最近直播中也稱,「我們基本上已經(jīng)把AI訓練中能利用的人類知識都挖空了」。

互聯(lián)網(wǎng)數(shù)據(jù)幾近枯竭,早已成為屢見不鮮的話題。

商湯破解世界模型秘訣,「日日新」實現(xiàn)AI大一統(tǒng)!原生融合模型破紀錄雙冠王

業(yè)界一致將希望寄托于「合成數(shù)據(jù)」身上,就比如,OpenAI曾被曝出用合成數(shù)據(jù),來輔助訓練下一代模型Orion;Anthropic利用Claude 3.5 Opus生成合成數(shù)據(jù)提升模型性能。

不僅如此,還可以從微軟Phi系列模型中,可以看到合成數(shù)據(jù)的巨大潛力。

商湯破解世界模型秘訣,「日日新」實現(xiàn)AI大一統(tǒng)!原生融合模型破紀錄雙冠王

最新Phi-4合成數(shù)據(jù)比例高達40%,而且增加合成數(shù)據(jù)訓練epoch,比純增加互聯(lián)網(wǎng)數(shù)據(jù),性能提升效果更明顯

可以證明,合成數(shù)據(jù)是能夠緩解數(shù)據(jù)不夠的一種方法。

商湯在融合多模態(tài)技術(shù)路線最大的創(chuàng)新之一,便是「融合模態(tài)數(shù)據(jù)合成」。那么,他們是具體如何做到的呢?

在研究過程中,團隊發(fā)現(xiàn),當更多的數(shù)據(jù)和模態(tài)用一種有效和有機的方式融合在一起進行訓練時,模型在不同環(huán)節(jié)和方向上都表現(xiàn)出更優(yōu)的性能。

跟AI 1.0時代相比,這是很不一樣的。當時,一個模型的能力非常有限,如果同時訓練它做兩件事情,可能兩件事都做不好。

然而在大模型時代,在不同的場景都可以觀察到

相比單一模態(tài)(如單純的語言或圖文模式),多模態(tài)有機融合的模型在智能水平上有顯著提升。

在越來越多的工作中,都可以觀察到這種現(xiàn)象:隨著更多的模態(tài)進行有機的融合,模型會涌現(xiàn)出更強的智能水平。

這種多模態(tài)技術(shù)在實踐中的巨大潛力,已經(jīng)在商湯絕影自動駕駛核心模型中得到了應(yīng)用。

而在預(yù)訓練階段,商湯不僅采用了天然存在的海量圖文交錯數(shù)據(jù),還通過逆渲染、基于混合語義的圖像生成等方法合成了大量融合模態(tài)數(shù)據(jù)。

由此,團隊就成功在圖文模態(tài)之間建立起大量交互橋梁,使得模型基座對于模態(tài)之間的豐富關(guān)系掌握得更扎實,因而能更好地完成跨模態(tài)任務(wù),提升了整體性能。

融合任務(wù)增強訓練在完成預(yù)訓練之后,模型還要針對多項任務(wù)進行增強訓練。

不難理解,只有融合模型對實際應(yīng)用場景有了深刻洞察,在場景驅(qū)動下,才能實現(xiàn)落地開花。

就好比一個大學生,學了很多知識,在進入社會之前,需要一些實操磨練,才能真正走進崗位。

融合多模態(tài)模型也是如此,為此,商湯基于多年來對廣泛業(yè)務(wù)場景的認知,構(gòu)建了一系列跨模態(tài)任務(wù)。

具體涵蓋了交互、多模態(tài)文檔分析、城市場景理解、車載場景理解等等。

通過把這些任務(wù)融入到增強訓練的過程,模型不僅被激發(fā)出強大的對多模態(tài)信息進行整合理解分析的能力,而且還形成了對業(yè)務(wù)場景有效的響應(yīng)能力。

在這個過程中,模型就走通了應(yīng)用落地反哺基礎(chǔ)模型迭代的閉環(huán)。

只有真正做到多模態(tài)的交互與深度融合,才能讓模型走向統(tǒng)一,也是通向世界模型的必經(jīng)之路。

目前,基于「日日新」融合大模型,商湯已經(jīng)在多個實際場景中取得了突破的成果。

擴展應(yīng)用新維度

在很多B端應(yīng)用、商業(yè)競爭上,商湯已經(jīng)具備了較大優(yōu)勢。

在辦公、金融領(lǐng)域,經(jīng)常會用到很多復雜的多模態(tài)文檔,比如表格、文本、圖片、視頻等,以及以上形式的融合。

那么,面對如此豐富復雜的信息,融合大模型就有了非常大的優(yōu)勢。

基于「日日新」打造的「辦公小浣熊」,便能夠高效處理多種格式的辦公文檔,智能分析復雜業(yè)務(wù)數(shù)據(jù),還能提精準的信息提取服務(wù)。

商湯破解世界模型秘訣,「日日新」實現(xiàn)AI大一統(tǒng)!原生融合模型破紀錄雙冠王

商湯破解世界模型秘訣,「日日新」實現(xiàn)AI大一統(tǒng)!原生融合模型破紀錄雙冠王

甚至許多已經(jīng)在媒體上發(fā)布的圖文并茂的文章,都會得到多模態(tài)的綜合解讀。

在前文已經(jīng)提到的自動駕駛領(lǐng)域,原生融合模態(tài)模型就大有可為。

未來,乘客或司機可以靠語音去和車載智能體對話。智能體既能看到車里、車外的狀態(tài),感知各種信號,還能和人做文字模態(tài)的語音交互。

還有一個場景,就是視頻交互。

商湯已發(fā)布的日日新5o,就是基于視頻實時交互的應(yīng)用。人可以在一個視頻的場景下,去跟機器交流,無論的語言還是畫面,AI都需要結(jié)合在一起去理解。

協(xié)助城市治理、園區(qū)管理的場景中,原生融合模態(tài)模型也將提供極大的助力,為客戶提供文字、圖像、視頻材料結(jié)合的回答。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港