久久国产加勒比精品无码,久热无码在线视频

導讀：新智元報道編輯：編輯部 HYZ【新智元導讀】大模型下一個突破口在哪？商湯「日日新」原生融合大模型一舉拿下雙料冠軍，給出了最好的答案。一個模型精通「看」與「想」，原生多模態(tài)融合讓AI邁入「大一統(tǒng)」新紀元。大模型發(fā)展到今天，下一步該走向何方？就在剛剛，商湯給出了答案原生融合模態(tài)！最近的CES大會上，英偉達提出能理解世界的「世界模型」Cosmos，能夠?qū)⑽谋�、圖像、視 ......

商湯破解世界模型秘訣，「日日新」實現(xiàn)AI大一統(tǒng)！原生融合模型破紀錄雙冠王

新智元報道

編輯：編輯部 HYZ【新智元導讀】大模型下一個突破口在哪？商湯「日日新」原生融合大模型一舉拿下雙料冠軍，給出了最好的答案。一個模型精通「看」與「想」，原生多模態(tài)融合讓AI邁入「大一統(tǒng)」新紀元。大模型發(fā)展到今天，下一步該走向何方？

就在剛剛，商湯給出了答案原生融合模態(tài)！

最近的CES大會上，英偉達提出能理解世界的「世界模型」Cosmos，能夠?qū)⑽谋�、圖像、視頻作為輸入。

商湯破解世界模型秘訣，「日日新」實現(xiàn)AI大一統(tǒng)！原生融合模型破紀錄雙冠王

英雄所見略同，憑借著十年的深耕和AI賦能場景的經(jīng)驗，商湯也認為，原生融合是世界模型的必經(jīng)之路。

或者說，多模態(tài)模型，是AI 2.0進行場景落地的必由之路。

就在最近，商湯「日日新」融合大模型上線了！

一個模型，就實現(xiàn)了多模態(tài)的融合。這是商湯率先在原生融合模態(tài)上取得了實質(zhì)性突破，成為業(yè)界在這一領(lǐng)域的領(lǐng)跑者。

這一突破標志著，大語言模型和多模態(tài)模型普遍分立的現(xiàn)狀，從此刻邁向真正意義上的「大一統(tǒng)」時代！

跨模態(tài)交互融合，通往世界模型的必經(jīng)之路

一般來說，LLM的工作原理，是根據(jù)提示一次生成一個token產(chǎn)生輸出。如果上下文變成了現(xiàn)實周圍環(huán)境，大模型就需要從生成「內(nèi)容token」轉(zhuǎn)變?yōu)樯伞竸幼鱰oken」。

隨著AI落地到各種場景，它需要對多維度、多模態(tài)的信息有感知、理解、分析、判斷，如果模型不能有效綜合處理這些模態(tài)，模型的智能水平就會很容易達到天花板。

原生模態(tài)融合之所以如此意義重大，就是因為實現(xiàn)之后，模型就不止能達到「看」和「想」的水平，而是可以幫助人類解決更多復雜問題。

看不清的字體，數(shù)據(jù)圖表里的信息，文學創(chuàng)作與撰寫，舉棋不定的游戲……現(xiàn)在，這些任務(wù)全部可以實現(xiàn)了。

實測：模型會看，還會想接下來，不如看看「日日新」融合大模型在實際任務(wù)中的表現(xiàn)。

無論是非常難認的英文手寫詩，還是俄文手寫詩，它都能認出來。

上傳一張幾乎難以辨認的英文手寫體詩歌，日日新竟毫不費力地讀出了每一行詩。最關(guān)鍵的是，它還完整復刻原文的書寫格式。

商湯破解世界模型秘訣，「日日新」實現(xiàn)AI大一統(tǒng)！原生融合模型破紀錄雙冠王

再比如這張俄語詩歌，對于非母語的人來說，大腦只剩一片空白。

對于日日新來說，簡直小菜一碟，不僅準確寫出了原文詩句，還順便把它翻譯成了比較有意境的中文版。

商湯破解世界模型秘訣，「日日新」實現(xiàn)AI大一統(tǒng)！原生融合模型破紀錄雙冠王

有了日日新，對于拍題寫作業(yè)的學生們來說，簡直就是絕絕子。

以往，你可能需要將題目打成文字，發(fā)給AI去解，而現(xiàn)在拍題、解答能夠一并交給AI。

將附有自己解答的一道題圖片上傳，AI一眼就辨認出錯誤點。而且，它還能做到舉一反三，完全就是學習神器。

商湯破解世界模型秘訣，「日日新」實現(xiàn)AI大一統(tǒng)！原生融合模型破紀錄雙冠王

還有一些讓人笑出鵝叫的小學生錯題，日日新能完美解讀答案好笑在哪里。

商湯破解世界模型秘訣，「日日新」實現(xiàn)AI大一統(tǒng)！原生融合模型破紀錄雙冠王

爆笑小學生作文的幽默之處，它都能get。

商湯破解世界模型秘訣，「日日新」實現(xiàn)AI大一統(tǒng)！原生融合模型破紀錄雙冠王

同樣的，日日新非常精準指出了這幅畫作的特點捕捉到了狗的神態(tài)和動作。

對于如何提升畫技，它又給出了行之有效的方式。

商湯破解世界模型秘訣，「日日新」實現(xiàn)AI大一統(tǒng)！原生融合模型破紀錄雙冠王

再上傳一張雕像的圖片，它能識別出圖中歷史人物，并分析出對應(yīng)的歷史典故。

商湯破解世界模型秘訣，「日日新」實現(xiàn)AI大一統(tǒng)！原生融合模型破紀錄雙冠王

甚至，它還能通過一張游戲的截圖，分析出電腦的具體配置，從CPU、到GPU，再到內(nèi)存，都逐一列了出來。

通過以上要點，它推斷得出可以該電腦可跑大模型。

商湯破解世界模型秘訣，「日日新」實現(xiàn)AI大一統(tǒng)！原生融合模型破紀錄雙冠王

上傳一張圖，日日新就能分析出代碼實現(xiàn)了什么。

商湯破解世界模型秘訣，「日日新」實現(xiàn)AI大一統(tǒng)！原生融合模型破紀錄雙冠王

一張國外網(wǎng)友制作的表情包，日日新也能夠準確領(lǐng)會圖中的要點。

它認為，人類正在AGI的爬坡上，若要實現(xiàn)真正的AGI，還需要更多研發(fā)和工作。對于另一個問題，也看懂了Sam Altman本人正逐步逼近ASI。

商湯破解世界模型秘訣，「日日新」實現(xiàn)AI大一統(tǒng)！原生融合模型破紀錄雙冠王

再比如，這張大模型智商大比拼圖中，數(shù)字雜多，我們想要了解o3和o1的智商如何，直接扔給日日新就可以了。

對于AI來說，一眼就看出了圖中o3 IQ為157，o1 IQ為135。它還給出了這個評測的標準，以及Codeforces背景信息介紹。

當被問到更為發(fā)散的問題o3與愛因斯坦誰更聰明時，日日新非�？陀^地看待這個問題。

若要從最直接的IQ結(jié)果來看，愛因斯坦比o3聰明些，但AI還綜合考慮了智力評測的多個維度進行分析。

商湯破解世界模型秘訣，「日日新」實現(xiàn)AI大一統(tǒng)！原生融合模型破紀錄雙冠王

而世界模型的到來，或許還意味著能對地球和人類更好的理解，找到和宇宙對話的方法。商湯破解世界模型秘訣，「日日新」實現(xiàn)AI大一統(tǒng)！原生融合模型破紀錄雙冠王

文科超越o1全球第一，理科國內(nèi)金牌同樣，多方的評測結(jié)果也證明，商湯果然摸到了一條正確的路。

完成訓練后的商湯「日日新」融合大模型，首次出戰(zhàn)即拿下語言和多模態(tài)兩個榜單的雙料冠軍。

商湯破解世界模型秘訣，「日日新」實現(xiàn)AI大一統(tǒng)！原生融合模型破紀錄雙冠王

近日，SuperCLUE 2024年度榜單中，「日日新」融合大模型以68.3高分，與DeepSeek V3并列國內(nèi)榜首，成為年度第一

商湯破解世界模型秘訣，「日日新」實現(xiàn)AI大一統(tǒng)！原生融合模型破紀錄雙冠王

同時，在OpenCompass多模態(tài)評測中，同一款模型更是力壓GPT-4o，獨占鰲頭

具體來看，SuperCLUE覆蓋了29個國內(nèi)模型，聚焦大模型的通用能力測評，由理科、文科和Hard三大維度構(gòu)成。

而此次獲得68.3高分的商湯「日日新」融合大模型，直接超越了Claude 3.5 Sonnet和Gemini-2.0-Flash-Exp。

令人印象深刻的是，「日日新」在各項能力上表現(xiàn)均衡，在三大維度上均處領(lǐng)先。

在文科任務(wù)上，它以81.8分位列全球第一，超越OpenAI的o1和GPT-4o-latest。

商湯破解世界模型秘訣，「日日新」實現(xiàn)AI大一統(tǒng)！原生融合模型破紀錄雙冠王

而在理科任務(wù)上，它直接奪得了金牌，其中計算維度以78.2分位列國內(nèi)第一并超過GPT-4o-latest。

商湯破解世界模型秘訣，「日日新」實現(xiàn)AI大一統(tǒng)！原生融合模型破紀錄雙冠王

如此驚艷的表現(xiàn)，是否需要很高的成本呢？

好消息是，融合模態(tài)模型訓練的成本也并不高。相比同樣量級的LLM，訓練成本也就是增加20%左右。

原因在于，這實際上是一個多階段的訓練，語言模式和多模態(tài)模式的訓練合在了一起，因而只用了1.2倍左右的成本。

技術(shù)路線：原生融合多模態(tài)

深挖背后，離不開商湯在「原生融合多模態(tài)」一條獨特且富有前瞻性的技術(shù)發(fā)展路徑上，取得的創(chuàng)新突破。

在大模型百舸爭流的當下，各家都在積極布局多模態(tài)，但技術(shù)路徑的選擇卻大不相同。

通常來講，業(yè)內(nèi)普遍采用了分離式架構(gòu)，多模態(tài)和語言模型分步訓練，然后再通過中間層實現(xiàn)功能整合。

從實際應(yīng)用角度來考慮，語言只是信息的一部分，世界中很多信息可能是以圖像、視頻等形態(tài)存在的。

如果不能有效綜合處理這些信息的話，那么這個模型的能力很快就會觸及到天花板。

商湯認為，融合多模態(tài)是未來的一條必由之路，其技術(shù)最顯著的特點是「單一模型，多模態(tài)融合」。

直白講，單一模型同時訓練和處理多模態(tài)，成為一個原生的多模態(tài)模型。

這也就意味著，在一個統(tǒng)一的模型框架內(nèi)，同時具備了處理文本、圖像、視頻、音頻多種模態(tài)信息的能力。

值得注意的是，商湯選擇的這條技術(shù)路線，與OpenAI、Anthropic、谷歌同頻共振。比如，GPT-4o、Claude 3.5、Gemini 2.0都采用了類似的單一模型融合多模態(tài)的技術(shù)路徑。

商湯破解世界模型秘訣，「日日新」實現(xiàn)AI大一統(tǒng)！原生融合模型破紀錄雙冠王

正如商湯聯(lián)合創(chuàng)始人、人工智能基礎(chǔ)設(shè)施及大模型首席科學家林達華所言，這種策略的選擇，帶來了顯著的優(yōu)勢

首先，在訓練成本方面，相較于分別訓練兩個模型的方案，融合多模態(tài)方案僅增加20%的訓練成本，就能獲得等效的能力。

其次，這種一體化設(shè)計在處理多模態(tài)任務(wù)時，更為高效和自然。

那么，既然這條原生融合技術(shù)路線是必由之路，我們又該如何去實踐它，至今沒有具體方法論，也無人能效仿。

實際上，從去年年底開始，原生多模態(tài)大模型就逐漸成為業(yè)內(nèi)探討的重要方向。

然而由于數(shù)據(jù)和訓練方法的局限，業(yè)內(nèi)很多機構(gòu)的嘗試并不成功多模態(tài)訓練過程往往會導致純語言任務(wù)，尤其是指令跟隨和推理任務(wù)的性能嚴重下降。

在這個充滿挑戰(zhàn)的賽道上，商湯憑借其在CV領(lǐng)域十年深厚積累，給出了獨一份解決之道。

他們獨創(chuàng)性提出了兩項關(guān)鍵技術(shù)融合模態(tài)數(shù)據(jù)合成與融合任務(wù)增強訓練。

融合模態(tài)數(shù)據(jù)合成NeurIPS演講上，Ilya曾當眾宣布當前AI行業(yè)已達到「數(shù)據(jù)峰值」。無獨有偶，馬斯克最近直播中也稱，「我們基本上已經(jīng)把AI訓練中能利用的人類知識都挖空了」。

互聯(lián)網(wǎng)數(shù)據(jù)幾近枯竭，早已成為屢見不鮮的話題。

商湯破解世界模型秘訣，「日日新」實現(xiàn)AI大一統(tǒng)！原生融合模型破紀錄雙冠王

業(yè)界一致將希望寄托于「合成數(shù)據(jù)」身上，就比如，OpenAI曾被曝出用合成數(shù)據(jù)，來輔助訓練下一代模型Orion；Anthropic利用Claude 3.5 Opus生成合成數(shù)據(jù)提升模型性能。

不僅如此，還可以從微軟Phi系列模型中，可以看到合成數(shù)據(jù)的巨大潛力。

商湯破解世界模型秘訣，「日日新」實現(xiàn)AI大一統(tǒng)！原生融合模型破紀錄雙冠王

最新Phi-4合成數(shù)據(jù)比例高達40%，而且增加合成數(shù)據(jù)訓練epoch，比純增加互聯(lián)網(wǎng)數(shù)據(jù)，性能提升效果更明顯

可以證明，合成數(shù)據(jù)是能夠緩解數(shù)據(jù)不夠的一種方法。

商湯在融合多模態(tài)技術(shù)路線最大的創(chuàng)新之一，便是「融合模態(tài)數(shù)據(jù)合成」。那么，他們是具體如何做到的呢？

在研究過程中，團隊發(fā)現(xiàn)，當更多的數(shù)據(jù)和模態(tài)用一種有效和有機的方式融合在一起進行訓練時，模型在不同環(huán)節(jié)和方向上都表現(xiàn)出更優(yōu)的性能。

跟AI 1.0時代相比，這是很不一樣的。當時，一個模型的能力非常有限，如果同時訓練它做兩件事情，可能兩件事都做不好。

然而在大模型時代，在不同的場景都可以觀察到

相比單一模態(tài)（如單純的語言或圖文模式），多模態(tài)有機融合的模型在智能水平上有顯著提升。

在越來越多的工作中，都可以觀察到這種現(xiàn)象：隨著更多的模態(tài)進行有機的融合，模型會涌現(xiàn)出更強的智能水平。

這種多模態(tài)技術(shù)在實踐中的巨大潛力，已經(jīng)在商湯絕影自動駕駛核心模型中得到了應(yīng)用。

而在預(yù)訓練階段，商湯不僅采用了天然存在的海量圖文交錯數(shù)據(jù)，還通過逆渲染、基于混合語義的圖像生成等方法合成了大量融合模態(tài)數(shù)據(jù)。

由此，團隊就成功在圖文模態(tài)之間建立起大量交互橋梁，使得模型基座對于模態(tài)之間的豐富關(guān)系掌握得更扎實，因而能更好地完成跨模態(tài)任務(wù)，提升了整體性能。

融合任務(wù)增強訓練在完成預(yù)訓練之后，模型還要針對多項任務(wù)進行增強訓練。

不難理解，只有融合模型對實際應(yīng)用場景有了深刻洞察，在場景驅(qū)動下，才能實現(xiàn)落地開花。

就好比一個大學生，學了很多知識，在進入社會之前，需要一些實操磨練，才能真正走進崗位。

融合多模態(tài)模型也是如此，為此，商湯基于多年來對廣泛業(yè)務(wù)場景的認知，構(gòu)建了一系列跨模態(tài)任務(wù)。

具體涵蓋了交互、多模態(tài)文檔分析、城市場景理解、車載場景理解等等。

通過把這些任務(wù)融入到增強訓練的過程，模型不僅被激發(fā)出強大的對多模態(tài)信息進行整合理解分析的能力，而且還形成了對業(yè)務(wù)場景有效的響應(yīng)能力。

在這個過程中，模型就走通了應(yīng)用落地反哺基礎(chǔ)模型迭代的閉環(huán)。

只有真正做到多模態(tài)的交互與深度融合，才能讓模型走向統(tǒng)一，也是通向世界模型的必經(jīng)之路。

目前，基于「日日新」融合大模型，商湯已經(jīng)在多個實際場景中取得了突破的成果。

擴展應(yīng)用新維度

在很多B端應(yīng)用、商業(yè)競爭上，商湯已經(jīng)具備了較大優(yōu)勢。

在辦公、金融領(lǐng)域，經(jīng)常會用到很多復雜的多模態(tài)文檔，比如表格、文本、圖片、視頻等，以及以上形式的融合。

那么，面對如此豐富復雜的信息，融合大模型就有了非常大的優(yōu)勢。

基于「日日新」打造的「辦公小浣熊」，便能夠高效處理多種格式的辦公文檔，智能分析復雜業(yè)務(wù)數(shù)據(jù)，還能提精準的信息提取服務(wù)。

商湯破解世界模型秘訣，「日日新」實現(xiàn)AI大一統(tǒng)！原生融合模型破紀錄雙冠王

甚至許多已經(jīng)在媒體上發(fā)布的圖文并茂的文章，都會得到多模態(tài)的綜合解讀。

在前文已經(jīng)提到的自動駕駛領(lǐng)域，原生融合模態(tài)模型就大有可為。

未來，乘客或司機可以靠語音去和車載智能體對話。智能體既能看到車里、車外的狀態(tài)，感知各種信號，還能和人做文字模態(tài)的語音交互。

還有一個場景，就是視頻交互。

商湯已發(fā)布的日日新5o，就是基于視頻實時交互的應(yīng)用。人可以在一個視頻的場景下，去跟機器交流，無論的語言還是畫面，AI都需要結(jié)合在一起去理解。

協(xié)助城市治理、園區(qū)管理的場景中，原生融合模態(tài)模型也將提供極大的助力，為客戶提供文字、圖像、視頻材料結(jié)合的回答。

商湯破解世界模型秘訣，「日日新」實現(xiàn)AI大一統(tǒng)！原生融合模型破紀錄雙冠王
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-14 14:10:54 瀏覽：286次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

商湯破解世界模型秘訣，「日日新」實現(xiàn)AI大一統(tǒng)！原生融合模型破紀錄雙冠王 來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-14 14:10:54 瀏覽：286次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

商湯破解世界模型秘訣，「日日新」實現(xiàn)AI大一統(tǒng)！原生融合模型破紀錄雙冠王
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-14 14:10:54 瀏覽：286次