展會(huì)信息港展會(huì)大全

首個(gè)機(jī)器人4D世界模型來了!智元和上交大聯(lián)合研發(fā)
來源:互聯(lián)網(wǎng)   發(fā)布日期:2025-01-10 08:33:17   瀏覽:416次  

導(dǎo)讀:機(jī)器人前瞻(公眾號(hào):robot_pro)作者|許麗思編輯|漠影機(jī)器人前瞻1月9日?qǐng)?bào)道,這兩天,智元機(jī)器人、上海交通大學(xué)與上海人工智能實(shí)驗(yàn)室共同研發(fā)的機(jī)器人領(lǐng)域首個(gè)4D世界模型EnerVerse亮相,該模型旨在讓機(jī)器人在任務(wù)指引和實(shí)時(shí)觀測(cè)的基礎(chǔ)上規(guī)劃未來動(dòng)作。在機(jī)器人技術(shù)領(lǐng)域中,動(dòng)作規(guī)劃始始終是一大難題,F(xiàn)有的機(jī)器人動(dòng)作規(guī)劃方法,往往難以實(shí)現(xiàn)在語言、視覺和動(dòng)作等多模態(tài)空間之 ......

機(jī)器人前瞻(公眾號(hào):robot_pro)

作者|許麗思

編輯|漠影

機(jī)器人前瞻1月9日?qǐng)?bào)道,這兩天,智元機(jī)器人、上海交通大學(xué)與上海人工智能實(shí)驗(yàn)室共同研發(fā)的機(jī)器人領(lǐng)域首個(gè)4D世界模型EnerVerse亮相,該模型旨在讓機(jī)器人在任務(wù)指引和實(shí)時(shí)觀測(cè)的基礎(chǔ)上規(guī)劃未來動(dòng)作。

在機(jī)器人技術(shù)領(lǐng)域中,動(dòng)作規(guī)劃始始終是一大難題。現(xiàn)有的機(jī)器人動(dòng)作規(guī)劃方法,往往難以實(shí)現(xiàn)在語言、視覺和動(dòng)作等多模態(tài)空間之間精確對(duì)齊,并且還缺乏大規(guī)模、多模態(tài)且?guī)в袆?dòng)作標(biāo)簽的數(shù)據(jù)集。

對(duì)此,EnerVerse架構(gòu)可以通過自回歸擴(kuò)散模型(autoregressive diffusion),在生成未來具身空間的同時(shí)引導(dǎo)機(jī)器人完成復(fù)雜任務(wù)。EnerVerse還引入稀疏記憶機(jī)制(Sparse Memory)與自由錨定視角(Free Anchor View, FAV),在提升 4D 生成能力的同時(shí),實(shí)現(xiàn)了動(dòng)作規(guī)劃性能的顯著突破。

智元機(jī)器人表示,EnerVerse 不僅具備卓越的未來空間生成能力,更在機(jī)器人動(dòng)作規(guī)劃任務(wù)中實(shí)現(xiàn)了當(dāng)前最優(yōu)(SOTA)表現(xiàn)。

目前,項(xiàng)目主頁與論文已上線,模型與相關(guān)數(shù)據(jù)集即將開源。

首個(gè)機(jī)器人4D世界模型來了!智元和上交大聯(lián)合研發(fā)

一、逐步生成未來具身空間,靈活表達(dá)4D空間

EnerVerse 采用逐塊生成的自回歸擴(kuò)散模型,通過逐步生成未來具身空間來引導(dǎo)機(jī)器人動(dòng)作規(guī)劃。其關(guān)鍵設(shè)計(jì)包括:1)擴(kuò)散模型架構(gòu):基于結(jié)合時(shí)空注意力的 UNet 結(jié)構(gòu),每個(gè)空間塊內(nèi)部通過卷積與雙向注意力建模;塊與塊之間通過單向因果邏輯(causal logic)保持時(shí)間一致性,從而確保生成序列的邏輯合理性。

2)稀疏記憶機(jī)制:借鑒大模型(LLM)的上下文記憶,EnerVerse 在訓(xùn)練階段對(duì)歷史幀進(jìn)行高比例隨機(jī)掩碼(mask),推理階段以較大時(shí)間間隔更新記憶隊(duì)列,有效降低計(jì)算開銷,同時(shí)顯著提升長(zhǎng)程任務(wù)的生成能力。

3)任務(wù)結(jié)束邏輯:通過特殊的結(jié)束幀(EOS frame),實(shí)現(xiàn)對(duì)任務(wù)結(jié)束時(shí)機(jī)的精準(zhǔn)監(jiān)督,確保生成過程在合適節(jié)點(diǎn)終止。

首個(gè)機(jī)器人4D世界模型來了!智元和上交大聯(lián)合研發(fā)

▲自回歸擴(kuò)散模型

EnerVerse提出了靈活的自由錨定視角(FAV)方法,以解決過去在具身操作中由于遮擋關(guān)系復(fù)雜,難以構(gòu)建完美的全局視角的問題。核心特點(diǎn)有:

1)自由設(shè)定視角:允許根據(jù)場(chǎng)景靈活重置錨定視角,避免固定多視角在狹窄空間中的局限性。例如,在廚房等場(chǎng)景,F(xiàn)AV可以輕松適應(yīng)動(dòng)態(tài)的遮擋環(huán)境。

2)跨視角空間一致性:基于光線投射原理,EnerVerse使用視線方向圖作為視角控制條件,同時(shí)將擴(kuò)散模型中的2D空間注意力擴(kuò)展為跨視角的3D空間注意力,確保生成的多視角視頻在幾何上保持一致。

3)Sim2Real Adaption:通過在仿真數(shù)據(jù)上微調(diào)的4D生成模型與4D高斯?jié)姙R(4D Gaussian Splatting)交替迭代,構(gòu)建了一個(gè)數(shù)據(jù)飛輪,為真實(shí)場(chǎng)景下的FAV生成提供偽真值支持。

首個(gè)機(jī)器人4D世界模型來了!智元和上交大聯(lián)合研發(fā)

▲自由錨定視角方法

EnerVerse 還通過在生成網(wǎng)絡(luò)下游集成 Diffusion 策略頭(Diffusion Policy Head),打通未來空間生成與機(jī)器人動(dòng)作規(guī)劃的全鏈條。關(guān)鍵設(shè)計(jì)包括:

1)高效動(dòng)作預(yù)測(cè):生成網(wǎng)絡(luò)在逆擴(kuò)散的第一步即可輸出未來動(dòng)作序列,無需等待完整的空間生成過程,確保動(dòng)作預(yù)測(cè)的實(shí)時(shí)性。面,EnerVerse 在視頻生成、動(dòng)作規(guī)劃、消融與訓(xùn)練策略分析及注意力可視化方面都表現(xiàn)出卓越的性能。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港