国产青草伊伊在线观看,欧美一区二区三区精品视频

導(dǎo)讀：《AI未來指北》特約作者郝博陽編輯鄭可君劃重點：2024年12月4日，谷歌發(fā)布Genie 2，實現(xiàn)了從靜態(tài)照片到可交互3D場景的轉(zhuǎn)換，雖然只能維持幾十秒，但細致程度和互動流暢性都達到了新高度。當前構(gòu)建數(shù)字世界有三條路線：OpenAI的Sora追求視覺真實，谷歌的Genie 2注重實時交互，World Labs專注空間準確。這三條路線各有優(yōu)勢，也各有無法在短期內(nèi)解決的問題。未來AI的世界構(gòu)建需 ......

《AI未來指北》特約作者郝博陽

編輯鄭可君

劃重點：

2024年12月4日，谷歌發(fā)布Genie 2，實現(xiàn)了從靜態(tài)照片到可交互3D場景的轉(zhuǎn)換，雖然只能維持幾十秒，但細致程度和互動流暢性都達到了新高度。

當前構(gòu)建數(shù)字世界有三條路線：OpenAI的Sora追求視覺真實，谷歌的Genie 2注重實時交互，World Labs專注空間準確。這三條路線各有優(yōu)勢，也各有無法在短期內(nèi)解決的問題。

未來AI的世界構(gòu)建需要在這三種技術(shù)路線中找到更恰當?shù)娜诤戏绞�，而AI生成游戲可能還有很長的路要走。

2024年12月4日，Google DeepMind默默放出了一顆重磅炸彈：一個能把靜態(tài)照片變成可玩游戲的AI系統(tǒng)。

系統(tǒng)名叫Genie 2，能把照片變成可探索的3D世界，用戶使用鍵盤及鼠標輸入就可以操控并完成與環(huán)境的互動。

而在兩天前，李飛飛的World Labs剛剛推出他們版本的世界創(chuàng)造模型。同樣是給系統(tǒng)一張照片，用AI讓它變成漫步其中的三維空間，可以進行互動，但模式并沒有Genie 2豐富。

在科技新聞《AI未來指北》之前的報道《全網(wǎng)熱評的李飛飛世界生成模型，真的能構(gòu)建物理世界嗎？》中，我們也羅列了這一模型明顯的長項和缺陷。

而在12月之前，3D世界生成受到的關(guān)注其實并沒那么大。

比如在今年11月，兩家名不見經(jīng)傳的創(chuàng)業(yè)公司Decart和Etched，它們用推出的AI系統(tǒng)Oasis搭建了一個可玩的AI生成的《我的世界》；谷歌Deepmind也在同月放出了首個AI游戲引擎GameNGen ，能生成了《毀滅公爵3D》（一款在1996年1月29日發(fā)行的第一人稱視角游戲，是最早在無顯卡情況下能模擬3D場景的FPS游戲之一）。

它們都很酷炫，但都只能用于非常有限制的單個游戲，而且畫質(zhì)都差不多僅能達到360p的水平。

然而一個月之后，AI的頂流們就不再滿足于生成這種“小品”級互動游戲世界了，它開始追求更大的野心：創(chuàng)造完整、清晰、細節(jié)更豐富的數(shù)字宇宙。而且，是一個泛化的適應(yīng)于各種場景和風格的世界。

他們把它稱作AI生成的“世界模型”。它們的路線有何異同？哪個更接近真正的“世界模擬器”呢？

世界模型Genie 2，為什么好到馬斯克都說酷？

我們先來看看今天的主角谷歌新產(chǎn)品Genie 2。

三大AI頂流，爭著“造世界”

它的水平好到什么程度？能讓馬斯克都說酷。

三大AI頂流，爭著“造世界”

（馬斯克在Hassabis發(fā)布的推文下的回復(fù)）

首先，它的畫面相當清晰，細節(jié)豐富，幾乎與PS3世代的游戲無異。

這得益于其生成技術(shù)的迭代。

Genie 2的生成邏輯和Sora的DiT（ Diffusion Transformers）技術(shù)差異不大。它使用了DeepMind最新的文生圖模型Imagen 3生成初始畫面。然后通過一個自回歸潛在擴散模型（Autoregressive Latent Diffusion Model），系統(tǒng)能將這個平面圖像"擴展"成一個完整的3D空間。

這個過程中，視頻首先經(jīng)過自動編碼器處理，提取出潛在幀信息，然后傳遞給一個采用因果掩碼訓(xùn)練的大型Transformer模型來去處理的空間信息和事件信息。一個Diffusion編碼器和一個Transformer的序列，這就是DiT的基本架構(gòu)。

但和Sora所不同的是，Genie 2引入了一個可操控的智能體。

為了實現(xiàn)操控，在推理階段，它能同時引入基于過去的潛在幀和當前的動作輸入，以自回歸方式生成新的畫面。

為了提高動作的可控性，研究團隊還引入了無分類器引導(dǎo)（Classifier-free Guidance）技術(shù)，這讓系統(tǒng)能夠更準確地響應(yīng)用戶輸入。

比如當你在鍵盤上按下方向鍵時，系統(tǒng)能自動識別場景中的可控制對象（比如玩家角色），而不是移動背景元素（如樹木或云朵）。

這對于過往的AI來說是個不小的挑戰(zhàn)。它需要理解場景中物體的層級關(guān)系、物理屬性和交互規(guī)則。而這種智能識別能力來自于另一個谷歌項目SIMA在海量視頻數(shù)據(jù)集上的訓(xùn)練，系統(tǒng)通過學(xué)會了區(qū)分場景中的動態(tài)元素和靜態(tài)背景，并理解了交互的邏輯。

同時，SIMA還通過模擬反事實體驗（counterfactual experiences）訓(xùn)練智能體，從“假如當時采取另一種行動會怎樣”中獲得經(jīng)驗，拓展了物體交互和角色動畫統(tǒng)一的可能性。

三大AI頂流，爭著“造世界”

借由DiT的加持，這一系統(tǒng)表現(xiàn)出非凡的涌現(xiàn)能力。比如說，當你在水中游泳時，水面會自然地泛起漣漪，當陽光透過樹葉時，地面會出現(xiàn)斑駁的光影；就連煙霧的擴散，都遵循著基本的物理規(guī)律。

在渲染方面，Genie 2實現(xiàn)了一個相當完整的物理光照系統(tǒng)。它不僅能處理直接光照，還能計算全局光照、材質(zhì)反射，甚至能生成實時動態(tài)陰影。這些效果的質(zhì)量雖然還比不上頂級游戲引擎，但考慮到這是實時生成的，已經(jīng)相當驚人。

特別值得一提的是其場景記憶機制。系統(tǒng)能夠維持長達一分鐘的場景連貫性，這意味著它不僅要記住可見部分的狀態(tài)，還要推斷和維護不可見區(qū)域的信息。這個技術(shù)難點的解決讓Genie 2得以創(chuàng)造出真正一致性的3D環(huán)境。

這么看確實很驚艷。比起9個月前發(fā)布的第一代Genie，Genie 2在從2D到3D維度提升、交互深度和物理模擬上都實現(xiàn)了極大的躍遷。

三大AI頂流，爭著“造世界”

（Genie 1 的生成效果）

這主要得益于用DiT架構(gòu)取代了VIT架構(gòu)，使得物理世界畫面生成更加完善自然。

另外，就是Deepmind SIMA項目的參與，這一項目通過觀察人類玩家在游戲中的行為學(xué)習(xí)，積累了大量關(guān)于"人類如何在3D空間中行動"的數(shù)據(jù)。這些數(shù)據(jù)可以幫助Genie 2更好地理解和模擬人類在3D空間中的動作生成和物理交互。

三大AI頂流，爭著“造世界”

（SIMA的訓(xùn)練邏輯）

但是，就像所有開創(chuàng)性的技術(shù)一樣，Genie 2也面臨著一些嚴峻的挑戰(zhàn)。

由于訓(xùn)練數(shù)據(jù)的限制，在實際應(yīng)用中還存在一定"失誤"：比如有時系統(tǒng)會生成違反上下文的內(nèi)容（比如在花園里生成鬼魂）。

或者突然改變場景的物理規(guī)則（如滑雪者突然開始跑酷）。

這些問題反映出AI在長期敘事連貫性和場景一致性方面還需要改進。

但最明顯的問題是持續(xù)時間限制目前Genie的生成大多數(shù)情況下只維持10-20秒，最多也就是生成1分鐘的連續(xù)場景。

這是因為Transformer自身的限制，導(dǎo)致其計算量隨時間會呈指數(shù)增長，誤差也會持續(xù)累積。

在當前非蒸餾情況下，內(nèi)存的消耗極大，無法延展生成。這些問題類似于在去年大語言模型遇到的上下文瓶頸。而直到現(xiàn)在，AI圖像生成模型仍未有效突破這些難點，畢竟它的計算量級比文字要大得多。

因此，游戲設(shè)計師們暫時還不用太擔心，生成游戲并不會馬上取代手操世界建構(gòu)，沒人會去玩一個只能持續(xù)幾十秒的游戲。

李飛飛、OpenAI、谷歌，三條構(gòu)建世界之路

在2024年，有三家公司都聲稱自己在“生成世界”，或者在“構(gòu)建世界模型”。

不同于傳統(tǒng)的游戲開發(fā)或3D建模，AI世界模型（World Model）的目標更為宏大：它試圖創(chuàng)造一個既符合物理規(guī)律，又能實時響應(yīng)交互，還要視覺真實的完整數(shù)字宇宙。這個世界是"活"的它能實時響應(yīng)你的每一個動作，就像現(xiàn)實世界一樣。這不再是簡單的視頻生成或3D渲染，而是一次完整的物理世界的數(shù)字重構(gòu)。

在這場雄心勃勃的技術(shù)競賽中，三家公司的技術(shù)路線正在同時推進：

●OpenAI的Sora追求極致的視覺真實感，用擴散模型編織時空連續(xù)性；

●Google的Genie 2致力于創(chuàng)造可交互的動態(tài)世界，通過自回歸生成實現(xiàn)實時響應(yīng)；

●而李飛飛團隊的World Labs則專注于空間的幾何精確性，用點云技術(shù)構(gòu)建穩(wěn)定的三維結(jié)構(gòu)。

如果說創(chuàng)造數(shù)字世界像是編織一塊巨大的時空織物，那么Sora就是一臺精密的織布機。

它采用了一種獨特的時空擴散模型（Spatiotemporal Diffusion Model），能夠同時處理空間和時間維度的信息。這種方法讓Sora不僅能生成令人驚嘆的畫面，更重要的是能保持時間維度上的連貫性。

三大AI頂流，爭著“造世界”

（Sora的DiT架構(gòu)）

在Sora編織的世界里，通過海量的視頻數(shù)據(jù)訓(xùn)練，模型可以模擬出一些經(jīng)常出現(xiàn)的“物理規(guī)則”。

因此，物體與物體之間的交互邏輯在很多時候都比較擬真。然而與一般的模型幻覺類似，當遇到不那么“典型”的狀況時，Sora非常容易翻車，無法真正的模擬出物理交互。

三大AI頂流，爭著“造世界”

而且Sora需要直接生成一整個視頻片段，因其需要的巨大計算量級，實時生成基本是不可能的。

這就是第一條路線：試圖用AI模型直接模擬真實世界的物理規(guī)則，搭建起一套完全符合物理世界的模型。

而谷歌的Genie 2更像是一個實時運行的物理引擎。它的核心是自回歸潛在擴散模型（Autoregressive Latent Diffusion Model），這種架構(gòu)讓它能夠根據(jù)當前狀態(tài)實時預(yù)測和生成下一刻的場景。

在Sora的基礎(chǔ)之上，Genie 2借由更多來自游戲的訓(xùn)練數(shù)據(jù)，因此它對3D實體間類似游戲引擎的物理模式更敏感。因為這種相比自然界的真實物理規(guī)則更為簡化，模式也更單一化。因此其物理反饋的準確性比Sora要強上不少。

三大AI頂流，爭著“造世界”

（SIMA核心的訓(xùn)練基礎(chǔ)是游戲，這又構(gòu)成了Genie 2的技術(shù)核心）

同時它還引入了“操控”，制造了一個不光可以看，更可以進行交互的世界。而通過在自回歸模型中加入了反饋生成，Genie為這個世界加入了可控性交互。因為可控，這個世界還需要能夠“實時”生成，才可能考慮到因為動作反饋帶來的未來變化。

從Genie團隊的構(gòu)成，我們也能看到，對這個團隊來講，視頻生成并非最核心的問題，智能體的交互環(huán)境的模擬才是。

因此，其團隊中有好幾個專家都是智能體，乃至機器人學(xué)方向的專家。

三大AI頂流，爭著“造世界”

（項目負責人Jack Parker-Holder的主頁）

這是第二條路，在Sora開創(chuàng)的主流DiT架構(gòu)之上發(fā)展，縮小訓(xùn)練范圍，增加實時和可互動性。構(gòu)建更符合我們認知體系（也就是游戲引擎中）的物理世界。

而李飛飛團隊的World Labs則走了一條截然不同的路線。它選擇直接在三維空間中構(gòu)建場景。

根據(jù)科技新聞之前文章中的分析，World Labs很可能使用了點云技術(shù)（Point Cloud Technology）和類似于谷歌CAT3D的幾何重建（Geometric Reconstruction）技術(shù)來確�？臻g關(guān)系的準確性。

三大AI頂流，爭著“造世界”

（World Lab自帶的景深分析）

從技術(shù)上看，這就像是在教一個孩子畫畫和教一個孩子做雕塑的區(qū)別。谷歌的Genie 2選擇了"畫家"的路線：它通過連續(xù)生成二維圖像，再靠強大的自回歸機制和記憶系統(tǒng)來維持世界的連貫性。

而World Labs則走了"雕塑家"的道路：直接在三維空間中構(gòu)建場景，確保幾何關(guān)系的精確性。

這就像是在處理一個持續(xù)變化的電影場景和構(gòu)建一個靜態(tài)的博物館的區(qū)別。

World Labs的方法能更好地保證空間的準確性和穩(wěn)定性，但在處理動態(tài)變化時會受到很多限制。所以在其演示中，你能行走的范圍很小，背景顯得一成不變，缺乏生氣，用戶能和背景做的交互也相對少。

而Genie 2則更擅長處理連續(xù)的動態(tài)變化，但可能在保持長期空間一致性方面面臨挑戰(zhàn)。簡單來講就是Bug多，且你只能玩幾十秒。

但更有趣的是這兩種方法背后的哲學(xué)差異。World Labs的方案體現(xiàn)了一種"結(jié)構(gòu)優(yōu)先"的思維：先確�？臻g的正確性，再填充動態(tài)內(nèi)容。這種方法更接近傳統(tǒng)的3D建模思路，但使用AI來自動化這個過程。

而谷歌的方案則體現(xiàn)了一種"體驗優(yōu)先"的理念：通過持續(xù)的預(yù)測和生成來創(chuàng)造連貫的體驗，即便可能在某些細節(jié)上不夠完美。

這就是第三條路，先搭場景，然后把用戶放進場景去互動。

這三種技術(shù)路線各有優(yōu)勢，也各有局限，很難說誰才是真正模擬世界的方式。

而這場技術(shù)角力揭示了構(gòu)建數(shù)字宇宙的三個核心挑戰(zhàn)：視覺真實性、交互自然性和空間準確性，每種技術(shù)路線都在試圖以自己的方式解決這些問題。

Sora在視覺質(zhì)量和時序連貫性上表現(xiàn)出色，視覺真實性高，對真實世界物理規(guī)則的還原更有野心，但缺乏交互能力和準確性。

Genie 2的實時交互能力強，但在視覺質(zhì)量和細微物理還原上做出了讓步。World Labs在空間準確性上領(lǐng)先，但在動態(tài)效和交互性上聊勝于無。

如果未來的框架技術(shù)沒有非常大的進展，很可能首款A(yù)I制作的3A級游戲的突破可能來自這三種技術(shù)的融合。

我們可以想象一個結(jié)合了Sora的視覺質(zhì)量、Genie 2的交互能力和World Labs空間準確性的混合系統(tǒng)。這種系統(tǒng)可能采用混合渲染管線（Hybrid Rendering Pipeline），在不同場景下動態(tài)切換不同的渲染策略。

就類似于早期我們因為顯卡孱弱而建構(gòu)的2D背景建模、3D人物動態(tài)的游戲一樣。精美、動態(tài)和準確，三者達成了某種平衡。而未來的AI世界構(gòu)建可能也需要在這三種技術(shù)路線中找到恰當?shù)娜诤戏绞健?br/>

而這種融合不僅需要技術(shù)上的突破，更需要我們深入思考：什么才是"真實"的數(shù)字世界？是視覺上的真實，交互上的自然，還是空間上的精確？

也許答案不在于非此即彼的選擇，而在于如何讓這些不同維度的"真實"和諧共存。畢竟，在追求構(gòu)建數(shù)字宇宙的過程中，我們不僅在創(chuàng)造新的技術(shù)，也在重新定義什么是"真實"的世界。

三大AI頂流，爭著“造世界”
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-06 07:54:55 瀏覽：518次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

三大AI頂流，爭著“造世界” 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-06 07:54:55 瀏覽：518次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

三大AI頂流，爭著“造世界”
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-06 07:54:55 瀏覽：518次