編輯部 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
我對于具身智能的定義很簡單,就是能幫人類做各種事,比如幫我們的爺爺奶奶養(yǎng)老!F(xiàn)在定義具身智能的L1-L5級沒有意義,核心標(biāo)準(zhǔn)還是我們的機器人能解決哪些實際問題。
具身智能趨勢大熱,敢于給斷言的人不多,高陽是一個。
他是清華大學(xué)交叉信息研究院助理教授,于美國加州大學(xué)伯克利分校獲得博士學(xué)位,后于加州伯克利大學(xué)與 Pieter Abbeel 等人合作完成了博士后研究。目前主持具身視覺與機器人實驗室 (Embodied Vision and Robotics,簡稱EVAR Lab),專注于利用人工智能技術(shù)賦能機器人,致力于打造通用的具身智能框架,由他提出的ViLa算法被Figure AI采用。
2024年,高陽作為聯(lián)合創(chuàng)始人創(chuàng)立具身智能公司千尋智能。這家公司也被稱為中國版Figure 01,1年時間快速完成三輪融資,其中種子輪+天使輪2億。
MEET 2025智能未來大會上,量子位邀請到高陽博士深入探討了具身智能的發(fā)展現(xiàn)狀與未來,從模型架構(gòu)、數(shù)據(jù)、產(chǎn)業(yè)落地等維度展開深入探討。
MEET 2025智能未來大會是由量子位主辦的行業(yè)峰會,20余位產(chǎn)業(yè)代表與會討論。線下參會觀眾1000+,線上直播觀眾320萬+,獲得了主流媒體的廣泛關(guān)注與報道。
核心觀點
具身智能的定義,就是機器人能幫我們做各種事。
AI和機器人制造的成熟,催生具身智能產(chǎn)業(yè)。
具身智能要降低對人工采集數(shù)據(jù)的依賴。
現(xiàn)在定義具身智能L1-L5沒有意義,很長時間內(nèi)都只能停留在L2.99。
我們抵達RobotGPT的1.0階段,原理已經(jīng)確定;4年后可以達到RobotGPT-3.5階段。
希望10年后,世界上10%的人可以擁有自己的機器人。
(為更好呈現(xiàn)高陽的觀點,量子位在不改變原意的基礎(chǔ)上做了如下梳理)
10年后10%人類可以有專屬機器人量子位:你怎么定義具身智能?
高陽:我覺得這個問題是一個非常直觀的問題。
有一次我在做一個關(guān)于具身智能的演講,有一位大概60、70歲老奶奶聽我講很多,問我說什么時候機器人能給她養(yǎng)老。
其實這個就是具身智能。
具身智能就是我們構(gòu)建一個機器人,這個機器人能(比如在家里面)幫我們做各種事情,比如幫我們的爺爺奶奶養(yǎng)老。
所以我創(chuàng)建了千尋智能,我最大的一個理想和愿望就是在十年之后,希望這個世界上10%的人可以擁有自己的機器人。
它能干什么,也非常直觀。比如說我自己每天晚上回到家已經(jīng)比較晚了,可能想吃點夜宵,吃完之后不想收拾盤子;周末家里很多東西沒有歸位,我想讓一個機器人幫我把這些東西歸位……
這些就是所謂的具身智能,有實體機器人可以幫我們做各種各樣我們自己不想做或者懶得做的一些事情,這是我認知里的具身智能。
量子位:具身智能這個概念來自于阿蘭圖靈,是半個世紀(jì)以前開始定義/構(gòu)想的事。今年被我們定義為具身智能元年,或者說它發(fā)展成熟了。您在產(chǎn)業(yè)中看到了怎樣的技術(shù)/要素變化,讓您覺得具身智能變得成熟,并讓您決定開始創(chuàng)業(yè)?
高陽:這里唯一的變量就是OpenAI證明了預(yù)訓(xùn)練(Pre-training)加上一系列Post-training的方式,可以真正產(chǎn)生、至少看起來像是人類智能,或者達到人類智能表象一樣的能力,我覺得這是現(xiàn)在做具身智能創(chuàng)業(yè)的一個最核心的變量。
像剛才大家講的,以前的機器人都是手寫的一些規(guī)則,都是寫死的,就導(dǎo)致對于環(huán)境的適應(yīng)性很差。其實我之前對機器人硬件并不是特別了解,但當(dāng)我真的去看的時候,看到工業(yè)機器人一年的銷量有多少臺,我非常驚訝,工業(yè)機器人一年的銷量全球只有大概200萬臺的量級左右。
這個量級相比于汽車、手機都是一個非常小的量。背后的核心制約就是機器人非常難用,這只是一個專用的設(shè)備,你需要有很高的技術(shù)儲備,才能把它用起來。
所以我覺得是這兩者之間的區(qū)別在于,一個是智能技術(shù)使得機器人變得越來越好用,另一個是我們在造機器人這件事情上,已經(jīng)走了非常遠,我們可以把機器人做到亞毫米的精度,以非常便宜的價格。
這兩方面的成熟催生具身智能產(chǎn)業(yè)。當(dāng)然這個產(chǎn)業(yè)現(xiàn)在處于非常初期的階段,我也經(jīng)常講,這個東西其實很難,因為經(jīng)常講具身智能像是一個硅基生命的造物主,如果把具身智能做出來了,人類作為碳基生命的引導(dǎo)程序任務(wù)也基本完成了。所以我覺得這個東西是很長期的事情,我至少從我自己來講,我是把它當(dāng)作一個lifetime的事業(yè)來做。
數(shù)據(jù)仍是具身智能發(fā)展攻堅重點量子位:您怎么看過去一年具身智能領(lǐng)域的核心進展,哪些值得在2025年重點攻堅?
高陽:我認為具身智能過去一年比較大的突破,除了剛剛談過的VLA模型外,還有一些是模型如何做預(yù)訓(xùn)練。像我們現(xiàn)在的方式(包括Phi),都是狂采了一萬個小時的數(shù)據(jù)去訓(xùn)練,讓模型具備一些能力。
如果我們回顧當(dāng)前所有讓人印象深刻的大模型,比如ChatGPT、Stable Diffusion、視頻生成模型(Sora)等,它們的數(shù)據(jù)量都是100T tokens或者幾十個billion的image-text pair。
現(xiàn)在我們通過人工去采集的操作數(shù)據(jù),遠遠小于這個量級。所以我認為在具身智能發(fā)展過程之中,如何去更多利用互聯(lián)網(wǎng)上的數(shù)據(jù)做預(yù)訓(xùn)練是一個非常重要的事情。
關(guān)于這個問題,比如VLA其實做的比較弱。VLA的預(yù)訓(xùn)練數(shù)據(jù)中只有圖像和文本。我覺得在學(xué)術(shù)界,大家有很多新奇的思路來解決這個問題,這應(yīng)該是未來3-4年內(nèi)都能夠持續(xù)發(fā)展且非常重要的事情。
舉幾個具體的例子。比如我覺得Google的RT-Trajectory是一個比較有代表性的工作。這個模型介紹,如果只用采集的模仿學(xué)習(xí)的數(shù)據(jù)去訓(xùn)練,數(shù)據(jù)量永遠不夠。
它采用一種新的方法,用一個中間表示來表示機器人移動的大致軌跡,讓機器人去大概follow這條軌跡。具體細節(jié)是由底層策略直接產(chǎn)生。
類似這類的文章有很多,包括我自己的研究組也做了很多相關(guān)工作。我自己做的是一些用物體的未來粒子運動方式來刻畫中間層表示。
我覺得這些工作是非常令人興奮的,因為以前大家也可以去采集數(shù)據(jù)、也可以去訓(xùn)練模仿學(xué)習(xí),但是這波大模型浪潮來臨時,我們需要足夠多的數(shù)據(jù)。
這一年這些新的研究工作,其實也為我們未來發(fā)展指明了方向。
VLA本身是一個非常好的范式,也是未來核心之一。但是在VLA之外,我看到了更多降低對人類采集數(shù)據(jù)依賴的工作,這也是今年非常令人興奮的進展。
現(xiàn)在定義具身智能L1-L5沒有意義量子位:如果我們要定制一個機器人、具身智能標(biāo)準(zhǔn),這個標(biāo)準(zhǔn)應(yīng)該是怎樣的?
高陽:制定一個標(biāo)準(zhǔn)本意是為了促進一個行業(yè)發(fā)展,可以衡量每個公司的技術(shù)達到了怎樣的水平。
但我覺得可能在一個相當(dāng)長的時間內(nèi),無論這個標(biāo)準(zhǔn)是什么樣,可能大多數(shù)具身智能因為客觀技術(shù)限制,只能達到或者號稱達到L2.99,或者是達到了有限場景內(nèi)的L4.
所以這個標(biāo)準(zhǔn)最后可能就變成了一個偏向宣傳話術(shù)的東西,有限時間內(nèi)大家做不到廣泛場景的L4或L5的水平。
所以標(biāo)準(zhǔn)還是要看我們能不能解決客戶的需求,這可以是非常清晰的。
比如說我們要服務(wù)一些工廠、商業(yè)、家庭場景,我們的機器人到底能不能做到,我們服務(wù)到這個場景的時候,downtime的概率是多少。
這些是我認為更加明確的、更加可以去追求的一些指標(biāo)。
甚至我現(xiàn)在覺得,去定義一個具身智能的L1-L5指標(biāo)也不是非常有意義。
關(guān)鍵在于具身智能大腦能不能解決具體問題,比如外賣送貨、比如工廠安裝零件,這是需要我們探討和追求的。
我們還要等機器人“大學(xué)畢業(yè)”量子位:那么,我們現(xiàn)在處于具身智能的什么階段?
高陽:我們剛剛目睹了GPT從1.0到3.5、4.0再到o1的發(fā)展。GPT-1剛剛出來時,沒人瞧得起它,它說話不利索、沒有推理能力,跟人溝通很有問題。
但是在GPT-1誕生時,大語言模型技術(shù)的原理已經(jīng)基本確定。
我認為現(xiàn)在我們處于RobotGPT的1.0階段。因為基本原理已經(jīng)定下來,可能未來幾年大家看這個技術(shù)也還是處于低級水平、沒太大進展,但是智能發(fā)展是一個指數(shù)上升的曲線,所以我個人覺得對于具身智能大腦端,會在4年之后達到RobotGPT-3.5階段?赡軟]有那么高階,但是已經(jīng)可以看到很多令人驚訝的能力了。
我認為我們距離那一天有一段時間,但也不會很遠。
量子位:讓RobotGPT上一個大學(xué)。
高陽:對,他才剛剛進大學(xué),什么都不會,需要大學(xué)畢業(yè),真正進入每一個人的家庭,從現(xiàn)在開始算大概需要10年時間。
雖然GPT-4已經(jīng)可以回答很多問題了,但是它仍然有10%的情況沒有那么可靠,所以我們?nèi)匀恍枰^續(xù)提升語言模型的能力使得它能夠真的深入到人類生產(chǎn)生活中的方方面面。
對于機器人的模型來講,我覺得也是一樣的,我們在做出來3.5之后,它可能沒有那么魯棒,成本可能有點高,我們需要繼續(xù)改進這個技術(shù),所以我認為在10年之后會有10%的人擁有自己的機器人。