當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人物報(bào)道 > 李飛飛看中的萬億賽道，中國(guó)首個(gè)自研空間智能AI登場(chǎng)！單張圖即生3D世界

李飛飛看中的萬億賽道，中國(guó)首個(gè)自研空間智能AI登場(chǎng)！單張圖即生3D世界
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-17 08:17:27 瀏覽：225次

導(dǎo)讀：新智元報(bào)道編輯：編輯部 HYZ【新智元導(dǎo)讀】中國(guó)首個(gè)全自研空間智能AI誕生了，單圖即可生成360度無限3D場(chǎng)景，實(shí)時(shí)互動(dòng)自由探索。這不僅是技術(shù)的革新，更預(yù)示著，游戲電影等領(lǐng)域即將迎來顛覆性的變革。就在剛剛，昆侖萬維正式發(fā)布了一款全新自研的Matrix-Zero世界模型。Matrix-Zero世界模型包含兩款子模型：昆侖萬維自研的3D場(chǎng)景生成大模型與昆侖萬維自研的可交互視頻生成大模型 ......

李飛飛看中的萬億賽道，中國(guó)首個(gè)自研空間智能AI登場(chǎng)！單張圖即生3D世界

新智元報(bào)道

編輯：編輯部 HYZ【新智元導(dǎo)讀】中國(guó)首個(gè)全自研空間智能AI誕生了，單圖即可生成360度無限3D場(chǎng)景，實(shí)時(shí)互動(dòng)自由探索。這不僅是技術(shù)的革新，更預(yù)示著，游戲電影等領(lǐng)域即將迎來顛覆性的變革。就在剛剛，昆侖萬維正式發(fā)布了一款全新自研的Matrix-Zero世界模型。

Matrix-Zero世界模型包含兩款子模型：昆侖萬維自研的3D場(chǎng)景生成大模型與昆侖萬維自研的可交互視頻生成大模型。包括兩部分功能：

支持將用戶輸入的圖片轉(zhuǎn)化為可自由探索的真實(shí)合理的3D場(chǎng)景；

支持根據(jù)用戶輸入實(shí)時(shí)生成互動(dòng)視頻效果。

至此，昆侖萬維正式成為中國(guó)第一家同時(shí)推出3D場(chǎng)景生成、可交互視頻生成模型的探索空間智能的企業(yè)。

李飛飛看中的萬億賽道，中國(guó)首個(gè)自研空間智能AI登場(chǎng)！單張圖即生3D世界

大模型賽道卷了兩年，誰都在觀望，下一個(gè)破局的方向在何方。李飛飛躬身入局，僅3個(gè)月就估值10億的World Labs令業(yè)內(nèi)恍然大悟：AI教母瞄準(zhǔn)的，就是能進(jìn)行推理的空間智能！各家的重磅布局說明，做3D場(chǎng)景生成、視頻生成模型、空間智能的必要性，已經(jīng)迫在眉睫。誠(chéng)如英偉達(dá)高級(jí)計(jì)算機(jī)科學(xué)家Jim Fan所言，「空間智能，是計(jì)算機(jī)視覺和實(shí)體智能體的下一個(gè)前沿」�？臻g智能，幾大痛點(diǎn)亟待突破

不過仔細(xì)看就會(huì)發(fā)現(xiàn)，目前市面上相關(guān)的技術(shù)路線，尚存一些痛點(diǎn)未被解決。

比如市面上的一些2D圖像或視頻生成工具，仍然受制于像素空間和3D空間的差異，生成結(jié)果往往不一致、物理不合理。李飛飛看中的萬億賽道，中國(guó)首個(gè)自研空間智能AI登場(chǎng)！單張圖即生3D世界

由于2D圖像或視頻僅限于二維，創(chuàng)建復(fù)雜的動(dòng)作和攝像機(jī)角度就極有挑戰(zhàn)性，不適合動(dòng)作場(chǎng)景而TripoAI、Meshy等3D工具，則更關(guān)注單個(gè)物體的生成，因而無法生成完整、合理的3D場(chǎng)景。李飛飛看中的萬億賽道，中國(guó)首個(gè)自研空間智能AI登場(chǎng)！單張圖即生3D世界

即使已經(jīng)走在前面的WorldLabs，也存在不少限制。比如在探索空間上的不足，就會(huì)極大地影響游戲制作和視頻渲染。

有沒有一種技術(shù)路線，能將上述痛點(diǎn)全部解決？巧了，看完Matrix-Zero，你會(huì)收獲大大的驚喜！360度無死角生成，還可交互

這次昆侖萬維推出的Matrix-Zero，主要包括3D場(chǎng)景生成和可交互視頻生成兩部分。3D場(chǎng)景生成首先，它支持將用戶輸入的圖片，轉(zhuǎn)化為可自由探索的真實(shí)合理的3D場(chǎng)景，同時(shí)極大避免了一些視頻模型或自回歸方法中極易出現(xiàn)的前后不一致現(xiàn)象。那么如何從3D場(chǎng)景渲染出視頻的呢？正如下圖所示，在3D場(chǎng)景中放置一個(gè)攝像機(jī)（橘紅色線框所示），并指定其運(yùn)動(dòng)控制。李飛飛看中的萬億賽道，中國(guó)首個(gè)自研空間智能AI登場(chǎng)！單張圖即生3D世界

3D場(chǎng)景中的相機(jī)運(yùn)動(dòng)軌跡每一個(gè)時(shí)刻都可以根據(jù)相機(jī)位置和朝向?qū)?D場(chǎng)景渲染為圖片，將這些圖片拼接即可得到視頻。最后，我們就能夠得到3D場(chǎng)景渲染出的視頻。

渲染視頻效果這樣，不僅視頻內(nèi)容非常符合用戶意圖，還能拓展在虛擬環(huán)境、交互式應(yīng)用和沉浸式體驗(yàn)中的應(yīng)用場(chǎng)景，可以用在3D游戲場(chǎng)景中快速可控建模，以及在具身智能中快速搭建模擬場(chǎng)景。李飛飛看中的萬億賽道，中國(guó)首個(gè)自研空間智能AI登場(chǎng)！單張圖即生3D世界

另外，Matrix-Zero可以支持在場(chǎng)景中進(jìn)行任意方向長(zhǎng)距離、大范圍的探索，這就為電影、短劇場(chǎng)景鏡頭生成，提供更多可能。在這些場(chǎng)景中，你可以先環(huán)視再前進(jìn)、前進(jìn)后右轉(zhuǎn)、360度俯視、180度回頭等等，各種操作只有你想不到，沒有它做不到。李飛飛看中的萬億賽道，中國(guó)首個(gè)自研空間智能AI登場(chǎng)！單張圖即生3D世界

而且，無論你輸入的是卡通或?qū)憣?shí)風(fēng)格的圖片，都能生成合理的3D場(chǎng)景。李飛飛看中的萬億賽道，中國(guó)首個(gè)自研空間智能AI登場(chǎng)！單張圖即生3D世界

李飛飛看中的萬億賽道，中國(guó)首個(gè)自研空間智能AI登場(chǎng)！單張圖即生3D世界

Matrix-Zero還支持風(fēng)格遷移，我們可以把一張寫實(shí)圖片轉(zhuǎn)化為卡通風(fēng)格，或者干脆把房屋變?yōu)榧t瓦白墻。李飛飛看中的萬億賽道，中國(guó)首個(gè)自研空間智能AI登場(chǎng)！單張圖即生3D世界

最后，Matrix-Zero生成3D的場(chǎng)景中的動(dòng)態(tài)物體，也絕對(duì)令人驚喜。無論是光照、海浪、云霧、水流，動(dòng)態(tài)都極度符合真實(shí)世界的物理規(guī)律，因而可以由之構(gòu)建真正的世界模型。李飛飛看中的萬億賽道，中國(guó)首個(gè)自研空間智能AI登場(chǎng)！單張圖即生3D世界

為何Matrix-Zero的3D場(chǎng)景生成能有如此驚艷的效果？這都要?dú)w功于昆侖萬維自研的3D場(chǎng)景生成大模型。它包含了兩個(gè)核心模塊，場(chǎng)景布局生成模塊和紋理生成模塊。前者能借助可微渲染和擴(kuò)散模型技術(shù)，創(chuàng)造出和輸入圖片一致的3D場(chǎng)景布局；后者則是在圖片生成模型和視頻生成模型基礎(chǔ)上訓(xùn)練的，能實(shí)現(xiàn)符合場(chǎng)景布局的紋理材質(zhì)生成。而用戶在場(chǎng)景中運(yùn)動(dòng)時(shí)，3D場(chǎng)景生成大模型就會(huì)不斷對(duì)場(chǎng)景缺失區(qū)域進(jìn)行幾何和紋理的補(bǔ)全，因此用戶無論在任何位置、任何角度，都能看到合理、一致的場(chǎng)景。可交互視頻生成AI視頻模型不斷推陳出新，但真正能讓創(chuàng)作者「身臨其境」地參與生成過程的AI，卻是鳳毛麟角。Matrix-Zero，正是打破這一僵局的革命性產(chǎn)品。無論是在虛擬環(huán)境、交互應(yīng)用，還是沉浸式場(chǎng)景中，它都能以驚人的效率輸出高質(zhì)量視頻。更重要的是，生成的視頻始終保持流暢連貫，符合情境邏輯。在案例中，它展現(xiàn)出令人驚嘆的自由度，以及更加真實(shí)的3D場(chǎng)景生成。當(dāng)你在鍵盤上點(diǎn)擊方向鍵，或是移動(dòng)鼠標(biāo)，AI會(huì)立即響應(yīng)你的指令，生成與你意圖完美契合的畫面。好比這張街景圖生成的視頻畫面，你可以前后左右移動(dòng)，隨心所欲地調(diào)整視角，就像在真實(shí)世界中探索一樣。李飛飛看中的萬億賽道，中國(guó)首個(gè)自研空間智能AI登場(chǎng)！單張圖即生3D世界

團(tuán)隊(duì)的方法建立在自研的生成式視頻模型之上，依托大規(guī)模開放數(shù)據(jù)的預(yù)訓(xùn)練模型，同時(shí)結(jié)合了自主研發(fā)的用戶輸入交互模型。最終，實(shí)現(xiàn)了一種以用戶指令輸入為核心驅(qū)動(dòng)的空間智能視頻生成方案。這就保證了在開放視頻領(lǐng)域生成能力的同時(shí)，進(jìn)一步增強(qiáng)了對(duì)視頻內(nèi)容中視角移動(dòng)的精確控制，從而更符合用戶的交互需求和預(yù)期。具體來說，Matrix-Zero包括基礎(chǔ)視頻生成模型和用戶輸入交互模型兩個(gè)核心部分。Matrix-Zero 主要由兩個(gè)核心部分組成：一個(gè)是視頻生成模型，另一個(gè)是用戶交互模型。前者是整個(gè)系統(tǒng)的核心，相當(dāng)于一位「元帥」。而后者，則是一位「軍師」。元帥負(fù)責(zé)根據(jù)初始視頻幀生成連貫的視頻內(nèi)容，軍師則負(fù)責(zé)解析用戶輸入信息，轉(zhuǎn)化為視頻調(diào)整信號(hào)。這樣，Matrix-Zero就既能生成清晰、穩(wěn)定、有邏輯的視頻，還能準(zhǔn)確響應(yīng)，讓交互更直觀流暢。具體來說，視頻生成模型包含以下關(guān)鍵技術(shù)：通過基于Transformer架構(gòu)的擴(kuò)散模型，增強(qiáng)視頻序列的時(shí)序依賴性和幀間連貫性，有效避免畫面跳躍問題。

通過VAE進(jìn)行數(shù)據(jù)降維，在提升計(jì)算效率的同時(shí)減少信息冗余。

通過時(shí)間步長(zhǎng)優(yōu)化策略保證生成視頻的物理合理性和時(shí)序穩(wěn)定性，確保畫面流暢自然。

而用戶交互模型則包含四個(gè)核心部分：「離散運(yùn)動(dòng)控制模塊」負(fù)責(zé)處理基本運(yùn)動(dòng)指令如前進(jìn)、跳躍等；

「連續(xù)視角控制模塊」用于實(shí)時(shí)處理視角變化等連續(xù)控制信號(hào)；

「3D場(chǎng)景位置追蹤模塊」通過空間定位技術(shù)確保視角轉(zhuǎn)換的穩(wěn)定性；

「滑動(dòng)窗口機(jī)制」利用歷史輸入預(yù)測(cè)用戶操作，優(yōu)化控制響應(yīng)。

總之，以上特性讓Matrix-Zero真正成為一款足夠?qū)嵱眯缘漠a(chǎn)品，在電影、短劇、游戲、具身智能等領(lǐng)域有廣泛的應(yīng)用空間。游戲開發(fā)者和影視劇從業(yè)者等相關(guān)人員，可以用它實(shí)現(xiàn)明顯的降本增效。比如，游戲開發(fā)者可以用它輕松實(shí)現(xiàn)3D游戲場(chǎng)景搭建。李飛飛看中的萬億賽道，中國(guó)首個(gè)自研空間智能AI登場(chǎng)！單張圖即生3D世界

《黑神話：悟空》中的場(chǎng)景令人心潮澎湃影視劇從業(yè)者，則可以輕松生成電影/短劇中的鏡頭。為了一個(gè)鏡頭動(dòng)輒燒上百萬甚至上千萬美元經(jīng)費(fèi)的情況，從此可以徹底告別。李飛飛看中的萬億賽道，中國(guó)首個(gè)自研空間智能AI登場(chǎng)！單張圖即生3D世界

《阿凡達(dá)：水之道》是史上經(jīng)費(fèi)最高的電影之一，整部電影的預(yù)算為4.6億美元左右，但單個(gè)VFX的成本可能就達(dá)到每秒數(shù)百萬美元由此顯露的產(chǎn)品領(lǐng)先性也體現(xiàn)出，昆侖萬維在科研、產(chǎn)品、應(yīng)用上具備足夠的前瞻性，已經(jīng)形成了閉環(huán)的產(chǎn)業(yè)鏈。空間智能，AI下一個(gè)里程碑

何謂空間智能？在「AI教母」李飛飛看來，空間智能不僅僅是讓AI看見世界，還要讓AI理解三維世界，并具備與之互動(dòng)的能力。ImageNet所代表，只是對(duì)「智能」一半的理解，另一半還存在于物理世界中�；仡橝I發(fā)展歷程，我們見證了其從文本到2D圖像、視頻的跨越。以往的一些經(jīng)驗(yàn)也告訴我們一個(gè)深刻的道理：高維度的理解和生成，絕非低維度模型所能企及。不論是LLM還是多模態(tài)語言模型（MLLM），其底層架構(gòu)仍局限于一維的表征。這種一維表示在處理語言方面得心應(yīng)手，但當(dāng)處理圖像、視頻等其他模態(tài)數(shù)據(jù)時(shí)，本質(zhì)上不過是將多維信息「壓縮」進(jìn)一維序列中，就不會(huì)可避免地造成信息損失。李飛飛看中的萬億賽道，中國(guó)首個(gè)自研空間智能AI登場(chǎng)！單張圖即生3D世界

NeurIPS 2024上，李飛飛提到最領(lǐng)先的多模態(tài)模型在HourVideo基準(zhǔn)上依舊與人類有很大差距就像文字難以完整描繪出圖像的細(xì)節(jié)，2D模型在處理3D世界時(shí)也面臨著嚴(yán)峻的挑戰(zhàn)。舉個(gè)栗子，當(dāng)前AI生成的視頻中，在涉及物體/人物大幅度移動(dòng)變化的情景下，往往難以保持一致性。這恰恰暴露出這些低維度的模型，對(duì)3D世界理解的局限性。當(dāng)然，空間智能也絕不止于簡(jiǎn)單的3D生成，如果僅依靠維度scaling是遠(yuǎn)遠(yuǎn)不夠的。我們還需要做的是，在大模型訓(xùn)練過程中，還需要將3D世界的幾何和物理規(guī)則系統(tǒng)植入，從而讓AI擁有對(duì)這個(gè)世界的推理、理解、生成能力�？臻g智能這一愿景，在2024年底已見雛形。除了李飛飛World Labs、谷歌Genie 2，在國(guó)內(nèi)，一些團(tuán)隊(duì)也做了類似的研究，比如中科院等團(tuán)隊(duì)的SceneX、智源研究院的See3D等等。與他們不同的是，昆侖萬維走正出自己獨(dú)一份的空間智能路線。從生成的視頻中不難看出，Matrix-Zero自由探索的范圍任意大，任意廣。而且，可以直接交互輸出視頻，在穩(wěn)定一致性方面做到業(yè)界領(lǐng)先。那么，能做到中國(guó)第一家自研，第一家發(fā)布空間智能大模型的上市公司，具備了怎樣的優(yōu)勢(shì)？全矩陣布局，All in AGI

2020年，GPT-3橫空出世后，昆侖萬維做出了一個(gè)重要的決定全面布局大模型。兩年后，AIGC全系列算法與模型「昆侖天工」首次亮相，其能力覆蓋了圖像、音樂、文本等多模態(tài)內(nèi)容的生成能力。2023年，自研雙千億級(jí)「天工1.0」大模型推出，正式奠定了國(guó)產(chǎn)大模型崛起之路。多模態(tài)大模型Skywork-MM在MME基準(zhǔn)中，1.0拿下了綜合排名第一的成績(jī)。他們還開源了百億級(jí)大語言模型天工Skywork-13。同年，基于「天工」大模型，這家公司打造了一系列顛覆性AI產(chǎn)品。8月，國(guó)內(nèi)首款A(yù)I搜索天工AI搜索誕生

12月，領(lǐng)先的AI Agent開發(fā)平臺(tái)天工SkyAgents發(fā)布

到了2024年2月，基座大模型迎來了最大升級(jí)，采用MoE架構(gòu)「天工2.0」在處理復(fù)雜任務(wù)更強(qiáng)、響應(yīng)速度更快、訓(xùn)練推理效率更高。緊接著4月，「天工3.0」震撼發(fā)布，采用4000億參數(shù)MoE架構(gòu)，性能較上一代飛升，數(shù)學(xué)代碼飆升超30%。與此同時(shí)，AI音樂生成大模型「天工SkyMusic」開啟公測(cè)，向情感AGI又邁進(jìn)一步。8月，集成視頻大模型與3D大模型的AI短劇平臺(tái)SkyReels發(fā)布。今年1月，天工大模型4.0 o1版/4o版正式上線天工網(wǎng)頁端和APP，免費(fèi)無限用，性能直接對(duì)標(biāo)OpenAI。截至目前，昆侖萬維已自研出「五大模型」體系：文本大模型、多模態(tài)大模型、3D大模型、視頻大模型和音樂大模型。與此同時(shí)，在2024年AIGC應(yīng)用用戶規(guī)模TOP榜中，昆侖萬維旗下天工AI強(qiáng)勢(shì)入圍。這一場(chǎng)深刻的變革。

相關(guān)熱詞： 昆侖萬維李飛飛中國(guó) 新智元智能 matrix 3D

上一篇：戴爾接近達(dá)成協(xié)議向xAI出售人工智能服務(wù)器，價(jià)值逾50億美元

下一篇：李彥宏：持續(xù)投入AI基礎(chǔ)設(shè)施，訓(xùn)練下一代大模型

李飛飛看中的萬億賽道，中國(guó)首個(gè)自研空間智能AI登場(chǎng)！單張圖即生3D世界
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-17 08:17:27 瀏覽：225次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

李飛飛看中的萬億賽道，中國(guó)首個(gè)自研空間智能AI登場(chǎng)！單張圖即生3D世界 來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-17 08:17:27 瀏覽：225次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

李飛飛看中的萬億賽道，中國(guó)首個(gè)自研空間智能AI登場(chǎng)！單張圖即生3D世界
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-17 08:17:27 瀏覽：225次