文 | 極智GeeTech
視覺(jué),是人類感知世界的一扇窗,人類大約80%的知識(shí)都來(lái)源于此。
達(dá)爾文在《物種起源》中認(rèn)為,約5.4億年前的寒武紀(jì),出現(xiàn)了單個(gè)感光細(xì)胞的生物體。視覺(jué)能力被認(rèn)為引發(fā)了寒武紀(jì)生命大爆發(fā),這是一個(gè)動(dòng)物物種大量進(jìn)入化石記錄的時(shí)期。一旦有了視力,生物就會(huì)變得更加積極主動(dòng),神經(jīng)系統(tǒng)開(kāi)始進(jìn)化,視覺(jué)變成了洞察力,因此視覺(jué)讓生物的進(jìn)化加速。
圖像和視頻模型與大型語(yǔ)言模型的出現(xiàn)預(yù)示著人工智能在視覺(jué)領(lǐng)域的潛力,但它們只是觸及了更大可能性的皮毛,當(dāng)前只是人工智能的“第一章”。為了實(shí)現(xiàn)更高水平的人工智能,空間智能(Spatial Intelligence)作為人工智能從二維空間向三維世界進(jìn)階的一把鑰匙浮出水面,它不僅要讓人工智能能夠“看見(jiàn)”世界,還要讓其能夠理解三維世界,并在其中進(jìn)行互動(dòng)和學(xué)習(xí),這是從單純的視覺(jué)識(shí)別到真正理解、操作現(xiàn)實(shí)世界的跨越。
這一技術(shù)概念的提出,將為包括具身智能、自動(dòng)駕駛、車路云一體化等在內(nèi)的人工智能場(chǎng)景應(yīng)用翻開(kāi)新的一章。
世界模型觸發(fā)人工智能“靈性”
如今,我們正站在智能時(shí)代的轉(zhuǎn)折點(diǎn)上,空間智能成為推動(dòng)人工智能突破當(dāng)前能力限制的關(guān)鍵。正如視覺(jué)能力催生了生物智能,空間智能有望引領(lǐng)人工智能進(jìn)入一個(gè)全新的發(fā)展階段,但必須讓人們看到落到實(shí)處的可能。
被譽(yù)為“AI教母”的李飛飛教授首次創(chuàng)業(yè)即選擇了空間智能方向,引發(fā)了行業(yè)對(duì)這一領(lǐng)域的廣泛關(guān)注。
在溫哥華舉行的2024年TED大會(huì)上,她發(fā)表了題為《有了空間智能,AI將會(huì)理解現(xiàn)實(shí)世界》的演講,將空間智能描述為人工智能發(fā)展的下一個(gè)重要里程碑!皺C(jī)器視覺(jué)是遠(yuǎn)遠(yuǎn)不夠!崩铒w飛說(shuō),“視覺(jué)化為洞察、看見(jiàn)成為理解、理解導(dǎo)致行動(dòng),行動(dòng)的沖動(dòng)是所有具有空間智能的生物的天性”。
人們所熟知的人工智能大模型是擁有超大規(guī)模參數(shù)(通常在十億個(gè)以上)、復(fù)雜計(jì)算結(jié)構(gòu)的機(jī)器學(xué)習(xí)模型,通常能夠處理海量數(shù)據(jù),完成各種復(fù)雜任務(wù),如自然語(yǔ)言處理、圖像識(shí)別等。傳統(tǒng)的通用大模型擅長(zhǎng)處理文本、語(yǔ)音、圖像和視頻等四類數(shù)據(jù),但對(duì)機(jī)器人來(lái)說(shuō),理解空間坐標(biāo)、知道自己在什么位置、如何進(jìn)行目標(biāo)抓取才是核心。這也進(jìn)一步強(qiáng)調(diào)了空間智能與現(xiàn)有人工智能技術(shù)的本質(zhì)區(qū)別。
空間智能被認(rèn)為是實(shí)現(xiàn)通用人工智能(AGI)的關(guān)鍵一環(huán),可以理解為機(jī)器在三維空間當(dāng)中的感知、理解和交互的能力。它在二維世界的基礎(chǔ)上增加了深度信息,變成三維且極具立體,目標(biāo)是將人工智能模型從像素的2D平面提升到立體的3D世界,賦予它們與人類一樣豐富的空間智能。這樣的空間智能最后呈現(xiàn)出來(lái)的方式可能是兩個(gè)虛擬的智能體的交互,也可能是成為機(jī)器人的“大小腦”,進(jìn)而實(shí)現(xiàn)實(shí)體交互。
盡管OpenAI的Sora模型可以文生視頻,但就本質(zhì)而言,它仍屬平面二維模型,沒(méi)有三維立體理解能力,只有通過(guò)空間智能,才能看到世界、感知世界、理解世界并讓智能體自主做事,從而形成良性閉環(huán)。
形成空間智能的核心在于建立“世界模型”,讓機(jī)器人具備類似人類感知的“靈性”。具體來(lái)說(shuō),需要建立能夠?qū)臻g幾何與物理過(guò)程進(jìn)行精準(zhǔn)建模、理解與推理的“世界模型”,使包括視覺(jué)、力覺(jué)、觸覺(jué)等在內(nèi)的各類機(jī)器人傳感器具備人類感知的能力。
世界模型的基本思想,源自于對(duì)人類和動(dòng)物如何理解世界的觀察。我們的大腦能夠模擬可能的未來(lái)場(chǎng)景,并基于這些模擬做出決策。借鑒這一機(jī)制,世界模型旨在為人工智能系統(tǒng)提供一個(gè)內(nèi)部環(huán)境的模擬,使其能夠預(yù)測(cè)外部世界的狀態(tài)變化,從而在不同情境下做出適應(yīng)性決策。
這個(gè)模型通過(guò)無(wú)監(jiān)督的方式從未標(biāo)記的數(shù)據(jù)中學(xué)習(xí),從而無(wú)需明確指示就能理解世界動(dòng)態(tài)。該模型架構(gòu)由六個(gè)模塊組成,包括執(zhí)行控制的配置器、理解當(dāng)前狀態(tài)的感知模塊、預(yù)測(cè)的世界模型、決策的成本模塊、規(guī)劃行動(dòng)的行動(dòng)模塊,以及追蹤狀態(tài)和成本的短期記憶模塊。
在強(qiáng)化學(xué)習(xí)領(lǐng)域,世界模型已經(jīng)顯示出其強(qiáng)大的潛力。通過(guò)在模型中模擬環(huán)境,人工智能不僅可以在虛擬環(huán)境中“想象”執(zhí)行動(dòng)作的后果,還能夠在實(shí)際執(zhí)行之前評(píng)估不同行動(dòng)方案的效果,極大提高了學(xué)習(xí)效率和決策質(zhì)量。此外,在自主決策系統(tǒng),如自動(dòng)駕駛汽車和機(jī)器人中,世界模型能夠幫助系統(tǒng)更好地預(yù)測(cè)和應(yīng)對(duì)可能的變化,提高了安全性和可靠性。
世界模型的最大優(yōu)勢(shì)在于其環(huán)境模擬與預(yù)測(cè)的能力,這種能力使得人工智能系統(tǒng)可以在進(jìn)行實(shí)際操作之前,通過(guò)內(nèi)部模擬來(lái)評(píng)估不同行為的后果,這在資源有限或風(fēng)險(xiǎn)較高的情境下尤為重要。世界模型還支持決策支持和規(guī)劃能力的提升,允許系統(tǒng)在多個(gè)可能的未來(lái)中“看到”并選擇最優(yōu)路徑。
然而,世界模型的構(gòu)建和應(yīng)用也面臨著顯著的挑戰(zhàn)。首先,環(huán)境模擬的準(zhǔn)確性極大地依賴于模型的復(fù)雜度和所擁有的數(shù)據(jù)質(zhì)量。要精確地預(yù)測(cè)復(fù)雜環(huán)境中的動(dòng)態(tài)變化,需要大量的數(shù)據(jù)和強(qiáng)大的計(jì)算資源,這對(duì)于資源有限的項(xiàng)目來(lái)說(shuō)可能是一個(gè)限制。
其次,構(gòu)建一個(gè)能夠泛化到多種不同環(huán)境的世界模型是極具挑戰(zhàn)性的,因?yàn)楝F(xiàn)實(shí)世界的復(fù)雜性和不可預(yù)測(cè)性遠(yuǎn)遠(yuǎn)超出了任何現(xiàn)有模型的處理能力。
盡管世界模型在理論上具有巨大潛力,但在實(shí)際應(yīng)用中仍然存在許多未知數(shù)。例如,如何確保模型的預(yù)測(cè)準(zhǔn)確性,如何處理模型可能的偏差,以及如何在不同的應(yīng)用場(chǎng)景中調(diào)整模型參數(shù)以適應(yīng)特定的需求等問(wèn)題都需要進(jìn)一步的研究和探索。
世界模型的潛在應(yīng)用范圍極為廣泛,不同領(lǐng)域?qū)τ谄淅斫馀c預(yù)測(cè)能力有著差異化的要求。
以自動(dòng)駕駛為例,世界模型需要實(shí)時(shí)精準(zhǔn)地把握道路狀況,并對(duì)其變化趨勢(shì)進(jìn)行精確預(yù)測(cè),重點(diǎn)聚焦于對(duì)環(huán)境的瞬時(shí)感知以及復(fù)雜變化趨勢(shì)的預(yù)估判斷。在機(jī)器人技術(shù)領(lǐng)域,世界模型對(duì)于導(dǎo)航、物體識(shí)別檢測(cè)以及任務(wù)規(guī)劃等關(guān)鍵任務(wù)起著不可或缺的作用,要求其能夠精準(zhǔn)地解析外部動(dòng)態(tài)環(huán)境,并構(gòu)建具有交互性和實(shí)體體驗(yàn)感的環(huán)境場(chǎng)景。而在虛擬社會(huì)系統(tǒng)模擬方面,世界模型需要敏銳地捕捉并預(yù)測(cè)更為抽象的行為動(dòng)態(tài),諸如社會(huì)交往互動(dòng)以及人類決策制定等過(guò)程。
目前,空間智能的發(fā)展處于起步階段,但整體發(fā)展速度非常快。Omdia最新報(bào)告顯示,全球空間計(jì)算市場(chǎng)規(guī)模預(yù)計(jì)將在2029年超過(guò)100億美元,在消費(fèi)者和企業(yè)用例中被廣泛采用,其累計(jì)平均增長(zhǎng)率(CAGR)將達(dá)18%。另?yè)?jù)泰伯智庫(kù)預(yù)測(cè),到2030年,中國(guó)元宇宙市場(chǎng)規(guī)模將到達(dá)8500億元;其中與空間計(jì)算相關(guān)的市場(chǎng)在2030年可能達(dá)到3400億元,約占整個(gè)元宇宙市場(chǎng)的40%。
空間智能開(kāi)啟無(wú)盡想想象力
從技術(shù)演進(jìn)角度看,世界模型代表了人工智能領(lǐng)域的一種嶄新思維方式。它通過(guò)將感知信息轉(zhuǎn)換為關(guān)于外部環(huán)境的抽象模型,使得智能體能夠有效預(yù)測(cè)和理解周圍世界的動(dòng)態(tài)變化。世界模型設(shè)計(jì)的核心在于利用歷史數(shù)據(jù),建立一個(gè)能夠模擬現(xiàn)實(shí)環(huán)境的數(shù)字框架。
以自動(dòng)駕駛為例,世界模型不僅可以幫助智駕系統(tǒng)根據(jù)歷史經(jīng)驗(yàn)預(yù)測(cè)其他車輛和行人的行為,還能在特定情況下提前調(diào)整行車策略,極大提高行駛安全性與效率。這種基于物理規(guī)則和常識(shí)的數(shù)字世界生成能力,是以往任何人工智能技術(shù)都無(wú)法比擬的。
而空間智能則是世界模型的自然延伸,可被視為人工智能從“自發(fā)感知”走向“自主認(rèn)知”的邁進(jìn),其讓人工智能技術(shù)開(kāi)始突破信息空間的局限,向真實(shí)世界的三維空間擴(kuò)展,進(jìn)一步提升了人工智能在實(shí)際環(huán)境中的適應(yīng)能力。它不僅是人工智能技術(shù)的再次進(jìn)化,更是人工智能系統(tǒng)朝著真正理解和交互我們所生活的三維世界邁出的關(guān)鍵一步。正如語(yǔ)言智能讓人工智能能夠理解和生成人類語(yǔ)言一樣,空間智能將使人工智能能夠理解和操作物理世界。
相較于傳統(tǒng)的圖像識(shí)別技術(shù),空間智能要求人工智能具備三維空間的理解與實(shí)時(shí)行為調(diào)整能力。通過(guò)對(duì)動(dòng)態(tài)場(chǎng)景的分析與決策,人工智能不僅能夠識(shí)別物體,還能夠理解它們之間的相對(duì)位置和運(yùn)動(dòng)軌跡。
比如,在復(fù)雜的城市交通環(huán)境中,自動(dòng)駕駛系統(tǒng)必須利用世界模型來(lái)預(yù)測(cè)交通流動(dòng),同時(shí)依靠空間智能確保能夠有效應(yīng)對(duì)突發(fā)的交通情況。此種雙重能力的結(jié)合,讓自動(dòng)駕駛的安全性和可靠性將發(fā)生質(zhì)的飛躍。
空間智能與世界模型的結(jié)合,不僅拓寬了人工智能的應(yīng)用場(chǎng)景,也推動(dòng)了算法的進(jìn)一步發(fā)展。未來(lái),兩者將為智能體提供更高層次的認(rèn)知與推理能力,使其能夠在模擬的虛擬環(huán)境中進(jìn)行反復(fù)實(shí)驗(yàn),從而優(yōu)化決策在現(xiàn)實(shí)世界中的應(yīng)用。
如此,科學(xué)家和工程師們可以在無(wú)風(fēng)險(xiǎn)的條件下,測(cè)試和改進(jìn)智能算法的表現(xiàn)。這種在虛擬環(huán)境中的訓(xùn)練,為現(xiàn)實(shí)中的應(yīng)用提供了更加保險(xiǎn)的保障,對(duì)于推動(dòng)技術(shù)的成熟具有重要意義。
在日本,空間智能已全面鋪開(kāi)。比如日本正在把整個(gè)東京進(jìn)行3D數(shù)字孿生化,這是實(shí)現(xiàn)AI空間智能的關(guān)鍵一步。這一數(shù)字孿生模型的規(guī)模非常大,而且它對(duì)東京的刻畫(huà)也非常之精細(xì),其絕對(duì)位置精度大約在10cm以內(nèi),不僅包含了LiDAR點(diǎn)云,還有詳實(shí)的CityGML和實(shí)時(shí)交通數(shù)據(jù)。根據(jù)日本的預(yù)期,到2030年將實(shí)現(xiàn)一個(gè)完整的數(shù)字孿生城市,從交通到能源做到信息無(wú)縫融合,越來(lái)越多的城市房屋、工廠將轉(zhuǎn)化為模擬數(shù)據(jù)。
對(duì)于城市進(jìn)行的數(shù)字孿生其實(shí)也就是基于感知的城市數(shù)據(jù),在網(wǎng)絡(luò)空間上像“孿生”一樣再現(xiàn)建筑物、道路等基礎(chǔ)設(shè)施與經(jīng)濟(jì)活動(dòng)、人流等各種要素。也就是說(shuō),可以通過(guò)基于從物理空間各個(gè)領(lǐng)域的活動(dòng)中獲取的實(shí)時(shí)數(shù)據(jù),在網(wǎng)絡(luò)空間中進(jìn)行高級(jí)分析和模擬,并將其結(jié)果以交互式的形式高速反饋到物理空間。
正如英偉達(dá)高級(jí)研究科學(xué)家Jim Fan所言,未來(lái)的城市管理將依賴于實(shí)時(shí)圖形引擎中的模擬和集群系統(tǒng),這將使得機(jī)器人和自動(dòng)化設(shè)備能夠快速適應(yīng)復(fù)雜的環(huán)境。機(jī)器人將不會(huì)孤立地進(jìn)行訓(xùn)練,它們能夠在實(shí)時(shí)圖形引擎中進(jìn)行模擬,并通過(guò)一個(gè)巨大的集群進(jìn)行擴(kuò)展,以生成下一個(gè)數(shù)萬(wàn)億級(jí)別的高質(zhì)量訓(xùn)練數(shù)據(jù)。
通過(guò)在高精度模擬環(huán)境中訓(xùn)練,機(jī)器人能獲得豐富的訓(xùn)練數(shù)據(jù),并在復(fù)雜場(chǎng)景中快速學(xué)習(xí)。這種方法將推動(dòng)機(jī)器人從虛擬世界到現(xiàn)實(shí)世界的順利遷移,提升其在實(shí)際應(yīng)用中的效率和智能。
與傳統(tǒng)的城市模擬相比,數(shù)字孿生能夠提供實(shí)時(shí)反饋,并隨著城市的動(dòng)態(tài)變化而調(diào)整其狀態(tài),這使得城市管理變得更加靈活和高效。
例如,在新南威爾士州,通過(guò)數(shù)字孿生和人工智能結(jié)合的技術(shù),交通管理可以實(shí)時(shí)調(diào)整以減少擁堵,從而最大程度地提高社會(huì)效益。
在中國(guó),隨著交通基礎(chǔ)設(shè)施智能化升級(jí)的全面開(kāi)啟,實(shí)時(shí)數(shù)字孿生也開(kāi)始在車路云一體化建設(shè)中發(fā)揮作用。蘑菇車聯(lián)創(chuàng)始人兼CEO朱磊曾表示,車路云一體化的本質(zhì)是“通感算”網(wǎng)絡(luò),核心功能是對(duì)實(shí)體世界實(shí)時(shí)數(shù)字化,通過(guò)深度融合通信、感知、計(jì)算的能力,為所有智能設(shè)備提供實(shí)時(shí)的數(shù)據(jù)服務(wù),助力交通乃至更多產(chǎn)業(yè)領(lǐng)域?qū)崿F(xiàn)更高效協(xié)作、決策和處理。
通過(guò)在路口鋪設(shè)具備“通感算”能力的AI數(shù)字道路基站,并與AI路側(cè)邊緣計(jì)算系統(tǒng)(AI-MRS)相互配合,交通管理者能夠獲取路口300米范圍內(nèi)所有交通參與者的動(dòng)態(tài)信息,實(shí)時(shí)構(gòu)建數(shù)字孿生系統(tǒng),為范圍內(nèi)所有車輛提供實(shí)時(shí)數(shù)據(jù)服務(wù)。
同時(shí),將實(shí)時(shí)數(shù)字孿生系統(tǒng)嵌入車載大屏,駕駛員可以清晰看到路口全量動(dòng)態(tài)信息,從而進(jìn)一步掌握更為全面的路況信息。由于該數(shù)字孿生系統(tǒng)與實(shí)際物理世界時(shí)延小于0.1秒,可以做到數(shù)字孿生和現(xiàn)實(shí)交通環(huán)境之間的實(shí)時(shí)數(shù)據(jù)同步,為駕駛員作出最準(zhǔn)確的駕駛決策提供可靠依據(jù)。
在醫(yī)療領(lǐng)域,空間智能技術(shù)可以對(duì)醫(yī)學(xué)影像數(shù)據(jù)進(jìn)行三維重建和分析,幫助醫(yī)生更準(zhǔn)確地診斷疾病。例如,對(duì)CT、MRI等影像數(shù)據(jù)進(jìn)行三維重建,可以更清晰地顯示人體器官和病變的位置、形狀和大小,為醫(yī)生提供更準(zhǔn)確的診斷信息。同時(shí),空間智能技術(shù)還可以為醫(yī)生提供手術(shù)導(dǎo)航和輔助決策,通過(guò)對(duì)患者的身體結(jié)構(gòu)進(jìn)行三維建模和分析,醫(yī)生可以更好地了解手術(shù)部位的解剖結(jié)構(gòu)和血管分布,提高手術(shù)的準(zhǔn)確性和安全性。
五億年前,視覺(jué)的出現(xiàn)顛覆了黑暗的世界,引發(fā)了最深刻的動(dòng)物進(jìn)化模式。過(guò)去十年,人工智能的進(jìn)步同樣令人驚嘆。當(dāng)我們開(kāi)始為計(jì)算機(jī)和機(jī)器人賦予空間智能,就像大自然開(kāi)啟了生物多樣化時(shí)代,這場(chǎng)數(shù)字寒武紀(jì)大爆發(fā)的全部潛力才會(huì)完全展現(xiàn),人工智能的未來(lái)將由此更具無(wú)盡想象力。