展會(huì)信息港展會(huì)大全

英偉達(dá)開(kāi)源Cosmos:加速物理AI開(kāi)發(fā),直解人形機(jī)器人訓(xùn)練難點(diǎn)
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2025-01-14 14:13:22   瀏覽:219次  

導(dǎo)讀:智東西(公眾號(hào):zhidxcom)作者 | ZeR0編輯 | 漠影智東西1月13日?qǐng)?bào)道,在CES 2025主題演講中,NVIDIA(英偉達(dá))創(chuàng)始人兼CEO黃仁勛宣布推出了一個(gè)世界基礎(chǔ)模型平臺(tái)Cosmos。該平臺(tái)將解決掣肘通用機(jī)器人及自動(dòng)駕駛發(fā)展的一大關(guān)鍵阻力訓(xùn)練數(shù)據(jù)。這是一個(gè)由先進(jìn)的生成式世界基礎(chǔ)模型(WFM)、高級(jí)視頻tokenizer、護(hù)欄、加速視頻處理流水線組成的平臺(tái),針對(duì)NVIDIA數(shù)據(jù)中心GPU進(jìn)行了 ......

智東西(公眾號(hào):zhidxcom)

作者 | ZeR0

編輯 | 漠影

智東西1月13日?qǐng)?bào)道,在CES 2025主題演講中,NVIDIA(英偉達(dá))創(chuàng)始人兼CEO黃仁勛宣布推出了一個(gè)世界基礎(chǔ)模型平臺(tái)Cosmos。該平臺(tái)將解決掣肘通用機(jī)器人及自動(dòng)駕駛發(fā)展的一大關(guān)鍵阻力訓(xùn)練數(shù)據(jù)。

這是一個(gè)由先進(jìn)的生成式世界基礎(chǔ)模型(WFM)、高級(jí)視頻tokenizer、護(hù)欄、加速視頻處理流水線組成的平臺(tái),針對(duì)NVIDIA數(shù)據(jù)中心GPU進(jìn)行了優(yōu)化,將有助于推動(dòng)自動(dòng)駕駛汽車、機(jī)器人等物理AI系統(tǒng)的發(fā)展。

物理AI模型的開(kāi)發(fā)成本很高,需要大量真實(shí)數(shù)據(jù)和測(cè)試。Cosmos世界基礎(chǔ)模型使開(kāi)發(fā)者能夠輕松生成大量基于物理學(xué)的逼真合成數(shù)據(jù),以用于訓(xùn)練和評(píng)估其現(xiàn)有的模型。開(kāi)發(fā)者還可以通過(guò)微調(diào)Cosmos世界基礎(chǔ)模型來(lái)構(gòu)建自定義模型。

其首批用戶包括1X、思靈機(jī)器人(Agile Robots)、Agility、Figure AI、Foretellix、傅利葉(Fourier)、銀河通用(Galbot)、Hillbot、IntBot、Neura Robotics、Skild AI、Virtual Incision、Uber、Waabi、小鵬汽車等的全球物理AI領(lǐng)先企業(yè),涉及機(jī)器人、自動(dòng)駕駛、共享出行等領(lǐng)域。

英偉達(dá)開(kāi)源Cosmos:加速物理AI開(kāi)發(fā),直解人形機(jī)器人訓(xùn)練難點(diǎn)

Cosmos模型將以開(kāi)放模型許可證的方式提供。首批模型有8款,參數(shù)量從40億到140億不等。

Hugging Face地址:https://huggingface.co/collections/nvidia/cosmos-6751e884dc10e013a0a0d8e6

NVIDIA API目錄中可預(yù)覽首批模型,NVIDIA NGC目錄或Hugging Face也支持下載整個(gè)系列的模型和微調(diào)框架。很快這些模型將以經(jīng)過(guò)全面優(yōu)化的NVIDIA NIM微服務(wù)形式提供。

開(kāi)發(fā)者可以使用NVIDIA NeMo Curator加速視頻處理,并使用NVIDIA NeMo來(lái)定制自己的世界模型,然后可通過(guò)NVIDIA DGX Cloud快速、簡(jiǎn)單地部署這些模型,還可以獲得NVIDIA AI Enterprise軟件平臺(tái)提供的企業(yè)支持。

一、機(jī)器人ChatGPT時(shí)刻將近,世界基礎(chǔ)模型助攻物理AI普及

“機(jī)器人技術(shù)的ChatGPT時(shí)刻即將到來(lái)。與大語(yǔ)言模型一樣,世界基礎(chǔ)模型是推動(dòng)機(jī)器人和自動(dòng)駕駛汽車開(kāi)發(fā)的基礎(chǔ)!盢VIDIA創(chuàng)始人兼CEO黃仁勛談道,并非所有開(kāi)發(fā)者都擁有自主訓(xùn)練模型所需的專業(yè)知識(shí)和資源,英偉達(dá)創(chuàng)建Cosmos的目的是普及物理AI,讓每一位開(kāi)發(fā)者都能接觸到通用機(jī)器人技術(shù)。

借助NVIDIA Cosmos的開(kāi)放模型套件,開(kāi)發(fā)者可以根據(jù)目標(biāo)應(yīng)用的需要,使用數(shù)據(jù)集定制自動(dòng)駕駛汽車旅行視頻、機(jī)器人在倉(cāng)庫(kù)中的移動(dòng)軌跡等世界基礎(chǔ)模型。

Cosmos世界基礎(chǔ)模型專為物理AI的研發(fā)而生,是一套開(kāi)放擴(kuò)散和自回歸Transformer模型,為實(shí)現(xiàn)基于物理學(xué)的交互、物體恒存性以及生成高質(zhì)量的仿真工業(yè)環(huán)境(如倉(cāng)庫(kù)、工廠)和駕駛環(huán)境(包括各種路況)而構(gòu)建。

這些模型接受了來(lái)自2000萬(wàn)小時(shí)真實(shí)世界人類交互、環(huán)境、工業(yè)、機(jī)器人、自動(dòng)駕駛數(shù)據(jù)的訓(xùn)練,可根據(jù)文本、圖像和視頻等輸入組合以及機(jī)器人傳感器或運(yùn)動(dòng)數(shù)據(jù)生成基于物理學(xué)的視頻。

黃仁勛在CES主題演講期間展示了一些開(kāi)發(fā)者使用Cosmos模型的用例:

1)視頻搜索和理解:使開(kāi)發(fā)者能從視頻數(shù)據(jù)中輕松找到特定的訓(xùn)練場(chǎng)景,例如雪天路況或倉(cāng)庫(kù)擁堵等。

2)基于物理學(xué)的逼真合成數(shù)據(jù)生成:使用Cosmos模型從NVIDIA Omniverse平臺(tái)上開(kāi)發(fā)的可控3D場(chǎng)景中生成逼真視頻。

3)物理AI模型開(kāi)發(fā)和評(píng)估:在基礎(chǔ)模型上構(gòu)建自定義模型,使用Cosmos進(jìn)行強(qiáng)化學(xué)習(xí)以改進(jìn)模型,或者測(cè)試模型在特定仿真場(chǎng)景中的表現(xiàn)。

4)預(yù)測(cè)與“多元宇宙”模擬:使用Cosmos和Omniverse生成AI模型所有未來(lái)可能實(shí)現(xiàn)的結(jié)果,以便幫助其選擇最佳和最準(zhǔn)確的路徑。

二、提供先進(jìn)開(kāi)發(fā)工具,保護(hù)數(shù)據(jù)隱私安全

構(gòu)建物理AI模型需要數(shù)PB(petabytes)的視頻數(shù)據(jù)以及數(shù)萬(wàn)小時(shí)的計(jì)算,來(lái)處理、整理和標(biāo)記這些數(shù)據(jù)。

為了幫助節(jié)省在數(shù)據(jù)整理、訓(xùn)練和模型定制方面的巨大成本,Cosmos提供了以下功能:

NVIDIA NeMo Curator驅(qū)動(dòng)的NVIDIA AI和CUDA加速數(shù)據(jù)處理管線,使開(kāi)發(fā)者能夠使用NVIDIA Blackwell平臺(tái)在14天內(nèi)處理、整理和標(biāo)記2000萬(wàn)小時(shí)的視頻,而如果僅用CPU則需要3年以上。NVIDIA Cosmos Tokenizer是先進(jìn)的可視化tokenizer,可將圖像和視頻轉(zhuǎn)換成token。與當(dāng)前領(lǐng)先的tokenizer相比,其總壓縮率提高了8倍,處理速度提高了12倍。NVIDIA NeMo框架可用于高效的模型訓(xùn)練、定制和優(yōu)化。

關(guān)于世界模型的隱私數(shù)據(jù)保護(hù)問(wèn)題,NVIDIA也做了一系列設(shè)計(jì)。Cosmos根據(jù)NVIDIA的可信AI原則開(kāi)發(fā)而成。該原則將優(yōu)先考慮隱私、安全、保障、透明和減少不必要的偏見(jiàn)。

Cosmos開(kāi)放平臺(tái)加入了專為減少有害文字和圖像而設(shè)計(jì)的護(hù)欄,并提供了一個(gè)增強(qiáng)文字提示準(zhǔn)確性的工具。使用NVIDIA API目錄上的Cosmos 自回歸模型和擴(kuò)散模型生成的視頻會(huì)帶有隱形水印,可識(shí)別AI生成的內(nèi)容,這有助于減少錯(cuò)誤信息和錯(cuò)誤歸屬的可能性。NVIDIA還將進(jìn)一步改進(jìn)其應(yīng)用的護(hù)欄和水印解決方案。

三、多家物理AI企業(yè)已采用,加速人形機(jī)器人、自動(dòng)駕駛開(kāi)發(fā)

許多物理AI行業(yè)的領(lǐng)先者已開(kāi)始使用Cosmos技術(shù)。

例如AI人形機(jī)器人公司1X使用Cosmos Tokenizer推出了1X World Model Challenge數(shù)據(jù)集。Hillbot和Skild AI正在使用Cosmos加速其通用機(jī)器人的開(kāi)發(fā)。小鵬汽車也將使用Cosmos加快其人形機(jī)器人的開(kāi)發(fā)。

“數(shù)據(jù)的稀缺性和可變性是在機(jī)器人環(huán)境中成功學(xué)習(xí)的主要挑戰(zhàn)!盇gility首席技術(shù)官Pras Velagapudi分享說(shuō),“借助Cosmos的文本、圖像和視頻到世界的能力,我們能夠在各種任務(wù)中生成和增強(qiáng)逼真的場(chǎng)景并利用這些場(chǎng)景訓(xùn)練模型,而不需要采集那么多昂貴的真實(shí)數(shù)據(jù)!

一些交通運(yùn)輸領(lǐng)域的領(lǐng)先企業(yè)也在使用Cosmos構(gòu)建適用于自動(dòng)駕駛汽車的物理AI。

Waabi是一家從自動(dòng)駕駛汽車開(kāi)始致力于開(kāi)發(fā)物理世界生成式AI的公司,正在評(píng)估Cosmos在自動(dòng)駕駛汽車軟件開(kāi)發(fā)和仿真中數(shù)據(jù)整理的應(yīng)用。自動(dòng)駕駛AI基礎(chǔ)模型公司W(wǎng)ayve也正在評(píng)估使用Cosmos搜索用于提高安全性和驗(yàn)證的極端駕駛場(chǎng)景。

自動(dòng)駕駛汽車工具鏈提供商Foretellix將使用Cosmos與NVIDIA Omniverse Sensor RTX API大規(guī)模評(píng)估和生成高保真測(cè)試場(chǎng)景與訓(xùn)練數(shù)據(jù)。

全球共享出行巨頭Uber正與NVIDIA合作共同加速自動(dòng)駕駛汽車的發(fā)展。Uber豐富的駕駛數(shù)據(jù)集在與Cosmos平臺(tái)和NVIDIA DGX Cloud的功能結(jié)合后,能幫助自動(dòng)駕駛汽車合作伙伴更加高效地構(gòu)建更強(qiáng)大的AI模型。

Uber首席執(zhí)行官Dara Khosrowshahi提到生成式AI將驅(qū)動(dòng)未來(lái)的移動(dòng)出行,這需要豐富的數(shù)據(jù)和強(qiáng)大的算力。他相信在NVIDIA的助力下,Uber團(tuán)隊(duì)能夠幫助行業(yè)更快開(kāi)發(fā)出安全、可擴(kuò)展的自動(dòng)駕駛解決方案。

結(jié)語(yǔ):打開(kāi)AI理解物理世界之門

機(jī)器人、自動(dòng)駕駛等物理AI的開(kāi)發(fā)離不開(kāi)大量真實(shí)數(shù)據(jù)。NVIDIA Cosmos平臺(tái)的出現(xiàn)恰逢其時(shí),通過(guò)能夠生成高仿真虛擬世界狀態(tài)的世界基礎(chǔ)模型,為一眾開(kāi)發(fā)者們提供了教AI理解物理世界的關(guān)鍵工具。

這是也是NVIDIA未來(lái)AI雄心的展現(xiàn)。真實(shí)世界充滿各種物理原理,要讓AI具備更強(qiáng)的通用智能、能夠模擬出與現(xiàn)實(shí)世界如出一轍的自然運(yùn)作,理解物理世界是不可避免的下一個(gè)重點(diǎn)發(fā)展方向。而NVIDIA打造的Cosmos、Omniverse平臺(tái)組合,將使得生成逼真合成數(shù)據(jù)更加輕而易舉,從而加速物理AI的構(gòu)建與應(yīng)用。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開(kāi)

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港