《AI未來指北》特約作者 郝博陽
編輯 鄭可君
劃重點:
2024年12月4日,谷歌發(fā)布Genie 2,實現(xiàn)了從靜態(tài)照片到可交互3D場景的轉(zhuǎn)換,雖然只能維持幾十秒,但細致程度和互動流暢性都達到了新高度。
當前構(gòu)建數(shù)字世界有三條路線:OpenAI的Sora追求視覺真實,谷歌的Genie 2注重實時交互,World Labs專注空間準確。這三條路線各有優(yōu)勢,也各有無法在短期內(nèi)解決的問題。
未來AI的世界構(gòu)建需要在這三種技術(shù)路線中找到更恰當?shù)娜诤戏绞,而AI生成游戲可能還有很長的路要走。
2024年12月4日,Google DeepMind默默放出了一顆重磅炸彈:一個能把靜態(tài)照片變成可玩游戲的AI系統(tǒng)。
系統(tǒng)名叫Genie 2,能把照片變成可探索的3D世界,用戶使用鍵盤及鼠標輸入就可以操控并完成與環(huán)境的互動。
而在兩天前,李飛飛的World Labs剛剛推出他們版本的世界創(chuàng)造模型。同樣是給系統(tǒng)一張照片,用AI讓它變成漫步其中的三維空間,可以進行互動,但模式并沒有Genie 2豐富。
在科技新聞《AI未來指北》之前的報道《全網(wǎng)熱評的李飛飛世界生成模型,真的能構(gòu)建物理世界嗎?》中,我們也羅列了這一模型明顯的長項和缺陷。
而在12月之前,3D世界生成受到的關(guān)注其實并沒那么大。
比如在今年11月,兩家名不見經(jīng)傳的創(chuàng)業(yè)公司Decart和Etched,它們用推出的AI系統(tǒng)Oasis搭建了一個可玩的AI生成的《我的世界》;谷歌Deepmind也在同月放出了首個AI游戲引擎GameNGen ,能生成了《毀滅公爵3D》(一款在1996年1月29日發(fā)行的第一人稱視角游戲,是最早在無顯卡情況下能模擬3D場景的FPS游戲之一)。
它們都很酷炫,但都只能用于非常有限制的單個游戲,而且畫質(zhì)都差不多僅能達到360p的水平。
然而一個月之后,AI的頂流們就不再滿足于生成這種“小品”級互動游戲世界了,它開始追求更大的野心:創(chuàng)造完整、清晰、細節(jié)更豐富的數(shù)字宇宙。而且,是一個泛化的適應(yīng)于各種場景和風格的世界。
他們把它稱作AI生成的“世界模型”。它們的路線有何異同?哪個更接近真正的“世界模擬器”呢?
世界模型Genie 2,為什么好到馬斯克都說酷?
我們先來看看今天的主角谷歌新產(chǎn)品Genie 2。
它的水平好到什么程度?能讓馬斯克都說酷。
(馬斯克在Hassabis發(fā)布的推文下的回復(fù))
首先,它的畫面相當清晰,細節(jié)豐富,幾乎與PS3世代的游戲無異。
這得益于其生成技術(shù)的迭代。
Genie 2的生成邏輯和Sora的DiT( Diffusion Transformers)技術(shù)差異不大。它使用了DeepMind最新的文生圖模型Imagen 3生成初始畫面。然后通過一個自回歸潛在擴散模型(Autoregressive Latent Diffusion Model),系統(tǒng)能將這個平面圖像"擴展"成一個完整的3D空間。
這個過程中,視頻首先經(jīng)過自動編碼器處理,提取出潛在幀信息,然后傳遞給一個采用因果掩碼訓(xùn)練的大型Transformer模型來去處理的空間信息和事件信息。一個Diffusion編碼器和一個Transformer的序列,這就是DiT的基本架構(gòu)。
但和Sora所不同的是,Genie 2引入了一個可操控的智能體。
為了實現(xiàn)操控,在推理階段,它能同時引入基于過去的潛在幀和當前的動作輸入,以自回歸方式生成新的畫面。
為了提高動作的可控性,研究團隊還引入了無分類器引導(dǎo)(Classifier-free Guidance)技術(shù),這讓系統(tǒng)能夠更準確地響應(yīng)用戶輸入。
比如當你在鍵盤上按下方向鍵時,系統(tǒng)能自動識別場景中的可控制對象(比如玩家角色),而不是移動背景元素(如樹木或云朵)。
這對于過往的AI來說是個不小的挑戰(zhàn)。它需要理解場景中物體的層級關(guān)系、物理屬性和交互規(guī)則。而這種智能識別能力來自于另一個谷歌項目SIMA在海量視頻數(shù)據(jù)集上的訓(xùn)練,系統(tǒng)通過學(xué)會了區(qū)分場景中的動態(tài)元素和靜態(tài)背景,并理解了交互的邏輯。
同時,SIMA還通過模擬反事實體驗(counterfactual experiences)訓(xùn)練智能體,從“假如當時采取另一種行動會怎樣”中獲得經(jīng)驗,拓展了物體交互和角色動畫統(tǒng)一的可能性。
借由DiT的加持,這一系統(tǒng)表現(xiàn)出非凡的涌現(xiàn)能力。比如說,當你在水中游泳時,水面會自然地泛起漣漪,當陽光透過樹葉時,地面會出現(xiàn)斑駁的光影;就連煙霧的擴散,都遵循著基本的物理規(guī)律。
在渲染方面,Genie 2實現(xiàn)了一個相當完整的物理光照系統(tǒng)。它不僅能處理直接光照,還能計算全局光照、材質(zhì)反射,甚至能生成實時動態(tài)陰影。這些效果的質(zhì)量雖然還比不上頂級游戲引擎,但考慮到這是實時生成的,已經(jīng)相當驚人。
特別值得一提的是其場景記憶機制。系統(tǒng)能夠維持長達一分鐘的場景連貫性,這意味著它不僅要記住可見部分的狀態(tài),還要推斷和維護不可見區(qū)域的信息。這個技術(shù)難點的解決讓Genie 2得以創(chuàng)造出真正一致性的3D環(huán)境。
這么看確實很驚艷。比起9個月前發(fā)布的第一代Genie,Genie 2在從2D到3D維度提升、交互深度和物理模擬上都實現(xiàn)了極大的躍遷。
(Genie 1 的生成效果)
這主要得益于用DiT架構(gòu)取代了VIT架構(gòu),使得物理世界畫面生成更加完善自然。
另外,就是Deepmind SIMA項目的參與,這一項目通過觀察人類玩家在游戲中的行為學(xué)習(xí),積累了大量關(guān)于"人類如何在3D空間中行動"的數(shù)據(jù)。這些數(shù)據(jù)可以幫助Genie 2更好地理解和模擬人類在3D空間中的動作生成和物理交互。
(SIMA的訓(xùn)練邏輯)
但是,就像所有開創(chuàng)性的技術(shù)一樣,Genie 2也面臨著一些嚴峻的挑戰(zhàn)。
由于訓(xùn)練數(shù)據(jù)的限制,在實際應(yīng)用中還存在一定"失誤":比如有時系統(tǒng)會生成違反上下文的內(nèi)容(比如在花園里生成鬼魂)。
或者突然改變場景的物理規(guī)則(如滑雪者突然開始跑酷)。
這些問題反映出AI在長期敘事連貫性和場景一致性方面還需要改進。
但最明顯的問題是持續(xù)時間限制目前Genie的生成大多數(shù)情況下只維持10-20秒,最多也就是生成1分鐘的連續(xù)場景。
這是因為Transformer自身的限制,導(dǎo)致其計算量隨時間會呈指數(shù)增長,誤差也會持續(xù)累積。
在當前非蒸餾情況下,內(nèi)存的消耗極大,無法延展生成。這些問題類似于在去年大語言模型遇到的上下文瓶頸。而直到現(xiàn)在,AI圖像生成模型仍未有效突破這些難點,畢竟它的計算量級比文字要大得多。
因此,游戲設(shè)計師們暫時還不用太擔心,生成游戲并不會馬上取代手操世界建構(gòu),沒人會去玩一個只能持續(xù)幾十秒的游戲。
李飛飛、OpenAI、谷歌,三條構(gòu)建世界之路
在2024年,有三家公司都聲稱自己在“生成世界”,或者在“構(gòu)建世界模型”。
不同于傳統(tǒng)的游戲開發(fā)或3D建模,AI世界模型(World Model)的目標更為宏大:它試圖創(chuàng)造一個既符合物理規(guī)律,又能實時響應(yīng)交互,還要視覺真實的完整數(shù)字宇宙。這個世界是"活"的它能實時響應(yīng)你的每一個動作,就像現(xiàn)實世界一樣。這不再是簡單的視頻生成或3D渲染,而是一次完整的物理世界的數(shù)字重構(gòu)。
在這場雄心勃勃的技術(shù)競賽中,三家公司的技術(shù)路線正在同時推進:
●OpenAI的Sora追求極致的視覺真實感,用擴散模型編織時空連續(xù)性;
●Google的Genie 2致力于創(chuàng)造可交互的動態(tài)世界,通過自回歸生成實現(xiàn)實時響應(yīng);
●而李飛飛團隊的World Labs則專注于空間的幾何精確性,用點云技術(shù)構(gòu)建穩(wěn)定的三維結(jié)構(gòu)。
如果說創(chuàng)造數(shù)字世界像是編織一塊巨大的時空織物,那么Sora就是一臺精密的織布機。
它采用了一種獨特的時空擴散模型(Spatiotemporal Diffusion Model),能夠同時處理空間和時間維度的信息。這種方法讓Sora不僅能生成令人驚嘆的畫面,更重要的是能保持時間維度上的連貫性。
(Sora的DiT架構(gòu))
在Sora編織的世界里,通過海量的視頻數(shù)據(jù)訓(xùn)練,模型可以模擬出一些經(jīng)常出現(xiàn)的“物理規(guī)則”。
因此,物體與物體之間的交互邏輯在很多時候都比較擬真。然而與一般的模型幻覺類似,當遇到不那么“典型”的狀況時,Sora非常容易翻車,無法真正的模擬出物理交互。
而且Sora需要直接生成一整個視頻片段,因其需要的巨大計算量級,實時生成基本是不可能的。
這就是第一條路線:試圖用AI模型直接模擬真實世界的物理規(guī)則,搭建起一套完全符合物理世界的模型。
而谷歌的Genie 2更像是一個實時運行的物理引擎。它的核心是自回歸潛在擴散模型(Autoregressive Latent Diffusion Model),這種架構(gòu)讓它能夠根據(jù)當前狀態(tài)實時預(yù)測和生成下一刻的場景。
在Sora的基礎(chǔ)之上,Genie 2借由更多來自游戲的訓(xùn)練數(shù)據(jù),因此它對3D實體間類似游戲引擎的物理模式更敏感。因為這種相比自然界的真實物理規(guī)則更為簡化,模式也更單一化。因此其物理反饋的準確性比Sora要強上不少。
(SIMA核心的訓(xùn)練基礎(chǔ)是游戲,這又構(gòu)成了Genie 2的技術(shù)核心)
同時它還引入了“操控”,制造了一個不光可以看,更可以進行交互的世界。而通過在自回歸模型中加入了反饋生成,Genie為這個世界加入了可控性交互。因為可控,這個世界還需要能夠“實時”生成,才可能考慮到因為動作反饋帶來的未來變化。
從Genie團隊的構(gòu)成,我們也能看到,對這個團隊來講,視頻生成并非最核心的問題,智能體的交互環(huán)境的模擬才是。
因此,其團隊中有好幾個專家都是智能體,乃至機器人學(xué)方向的專家。
(項目負責人Jack Parker-Holder的主頁)
這是第二條路,在Sora開創(chuàng)的主流DiT架構(gòu)之上發(fā)展,縮小訓(xùn)練范圍,增加實時和可互動性。構(gòu)建更符合我們認知體系(也就是游戲引擎中)的物理世界。
而李飛飛團隊的World Labs則走了一條截然不同的路線。它選擇直接在三維空間中構(gòu)建場景。
根據(jù)科技新聞之前文章中的分析,World Labs很可能使用了點云技術(shù)(Point Cloud Technology)和類似于谷歌CAT3D的幾何重建(Geometric Reconstruction)技術(shù)來確?臻g關(guān)系的準確性。
(World Lab自帶的景深分析)
從技術(shù)上看,這就像是在教一個孩子畫畫和教一個孩子做雕塑的區(qū)別。谷歌的Genie 2選擇了"畫家"的路線:它通過連續(xù)生成二維圖像,再靠強大的自回歸機制和記憶系統(tǒng)來維持世界的連貫性。
而World Labs則走了"雕塑家"的道路:直接在三維空間中構(gòu)建場景,確保幾何關(guān)系的精確性。
這就像是在處理一個持續(xù)變化的電影場景和構(gòu)建一個靜態(tài)的博物館的區(qū)別。
World Labs的方法能更好地保證空間的準確性和穩(wěn)定性,但在處理動態(tài)變化時會受到很多限制。所以在其演示中,你能行走的范圍很小,背景顯得一成不變,缺乏生氣,用戶能和背景做的交互也相對少。
而Genie 2則更擅長處理連續(xù)的動態(tài)變化,但可能在保持長期空間一致性方面面臨挑戰(zhàn)。簡單來講就是Bug多,且你只能玩幾十秒。
但更有趣的是這兩種方法背后的哲學(xué)差異。World Labs的方案體現(xiàn)了一種"結(jié)構(gòu)優(yōu)先"的思維:先確?臻g的正確性,再填充動態(tài)內(nèi)容。這種方法更接近傳統(tǒng)的3D建模思路,但使用AI來自動化這個過程。
而谷歌的方案則體現(xiàn)了一種"體驗優(yōu)先"的理念:通過持續(xù)的預(yù)測和生成來創(chuàng)造連貫的體驗,即便可能在某些細節(jié)上不夠完美。
這就是第三條路,先搭場景,然后把用戶放進場景去互動。
這三種技術(shù)路線各有優(yōu)勢,也各有局限,很難說誰才是真正模擬世界的方式。
而這場技術(shù)角力揭示了構(gòu)建數(shù)字宇宙的三個核心挑戰(zhàn):視覺真實性、交互自然性和空間準確性,每種技術(shù)路線都在試圖以自己的方式解決這些問題。
Sora在視覺質(zhì)量和時序連貫性上表現(xiàn)出色,視覺真實性高,對真實世界物理規(guī)則的還原更有野心,但缺乏交互能力和準確性。
Genie 2的實時交互能力強,但在視覺質(zhì)量和細微物理還原上做出了讓步。World Labs在空間準確性上領(lǐng)先,但在動態(tài)效和交互性上聊勝于無。
如果未來的框架技術(shù)沒有非常大的進展,很可能首款A(yù)I制作的3A級游戲的突破可能來自這三種技術(shù)的融合。
我們可以想象一個結(jié)合了Sora的視覺質(zhì)量、Genie 2的交互能力和World Labs空間準確性的混合系統(tǒng)。這種系統(tǒng)可能采用混合渲染管線(Hybrid Rendering Pipeline),在不同場景下動態(tài)切換不同的渲染策略。
就類似于早期我們因為顯卡孱弱而建構(gòu)的2D背景建模、3D人物動態(tài)的游戲一樣。精美、動態(tài)和準確,三者達成了某種平衡。而未來的AI世界構(gòu)建可能也需要在這三種技術(shù)路線中找到恰當?shù)娜诤戏绞健?br/>
而這種融合不僅需要技術(shù)上的突破,更需要我們深入思考:什么才是"真實"的數(shù)字世界?是視覺上的真實,交互上的自然,還是空間上的精確?
也許答案不在于非此即彼的選擇,而在于如何讓這些不同維度的"真實"和諧共存。畢竟,在追求構(gòu)建數(shù)字宇宙的過程中,我們不僅在創(chuàng)造新的技術(shù),也在重新定義什么是"真實"的世界。