在AI技術(shù)飛速發(fā)展的今天,人形機器人正從科幻走向現(xiàn)實。當(dāng)下最火爆機器人初創(chuàng)公司之一的Figure,正在其創(chuàng)始人Brett Adcock的帶領(lǐng)下,正在人形機器人領(lǐng)域掀起一場前所未有的技術(shù)革命。這位有“小馬斯克”之稱的創(chuàng)始人,在近期的訪談中,分享了Figure在人形機器人領(lǐng)域的突破性進展,以及他對未來科技發(fā)展的深刻見解。
Adcock表示,人形機器人是通用人工智能(AGI)的最佳載體,不僅能執(zhí)行復(fù)雜任務(wù),還能通過自然交互融入人類生活。他指出,如果AGI只能存在于服務(wù)器中,那么它將永遠(yuǎn)無法真正融入物理世界。
他認(rèn)為,人形機器人正在迎來類似智能手機的“iPhone時刻”,成為人類生活中不可或缺的工具。他預(yù)測,未來幾年內(nèi),人形機器人的價格將大幅下降,而性能大幅提升,最終實現(xiàn)大規(guī)模普及。
Adcock還預(yù)測,在未來五年內(nèi),人形機器人領(lǐng)域需要實現(xiàn)三個關(guān)鍵突破:首先,開發(fā)出高度復(fù)雜且可靠的硬件,使其能夠在真實環(huán)境中穩(wěn)定運行;其次,通過神經(jīng)網(wǎng)絡(luò)賦予機器人類似人類的學(xué)習(xí)和模仿能力,這在人形機器人上尚未實現(xiàn);最后,解決機器人領(lǐng)域的“圣杯”問題泛化能力,即讓機器人能夠通過語音指令理解并執(zhí)行從未見過的任務(wù),實現(xiàn)端到端的自主操作。
見聞總結(jié)要點如下:
人形機器人領(lǐng)域正在發(fā)生類似iPhone時刻的事情,這將是一個巨大的突破。人形機器人即將成為現(xiàn)實。問題是,我們只需要沿著這條曲線繼續(xù)推進,讓它更快地進入家庭。我相信,這將在本世紀(jì)發(fā)生。在未來幾年內(nèi),你會看到人形機器人通過語音控制進入家庭,能夠長時間工作而無需任何提示。
如果我們解決了AGI,但它只是存在于某個服務(wù)器中,比所有人都更聰明,最終,如果它想在物理世界中做些什么,它將不得不請求人類去做。人形機器人是AGI的終極部署載體。
我們設(shè)計的是一種能夠勝任各種任務(wù)的機器人,從家庭機器人到遛狗、煮咖啡、洗衣服,再到商業(yè)勞動力大約一半的GDP是人類勞動。這是世界上最大的市場。目標(biāo)市場規(guī)模是50萬億到60萬億美元。
未來你會看到這些機器人的價格在2萬到3萬美元之間。我們在材料成本方面做了很多工作。如果你從頭開始分解,逐項分析,看看它在大規(guī)模制造中的樣子,系統(tǒng)中目前沒有任何跡象表明這個產(chǎn)品會非常昂貴。
我們需要在接下來的5年左右時間里做到三件從未有人做到的事情。首先,我們需要打造一款極其復(fù)雜的人形機器人硬件。其次,你必須通過神經(jīng)網(wǎng)絡(luò),讓機器人像人類一樣學(xué)習(xí)和模仿。這在人形機器人上從未被解決過......第三,你需要解決一個機器人領(lǐng)域的“圣杯”問題:泛化能力。你需要讓機器人通過語音指令理解它從未見過的任務(wù),并且能夠用一個神經(jīng)網(wǎng)絡(luò)完整地執(zhí)行這個任務(wù),從頭到尾。
真正困難的部分是,機器人需要解決家庭環(huán)境中的泛化問題。每個家庭都是不同的。你知道,我們都有不同的烤箱、不同的鍋鏟、不同的餐具,而且這些物品的擺放位置會不斷變化。所以,你必須解決這種“語義智能”,也就是人類世界與機器人世界之間的語義連接。
機器人在互相移動時需要進行一定程度的交流。從機器人與人類的互動設(shè)計角度來看,這非常重要.....我們需要讓機器人學(xué)會人類的表情,就像我們需要它們學(xué)會抓取物品一樣。隨著我們大規(guī)模地將機器人引入整個世界,這種能力將變得至關(guān)重要。
(人形機器人)有兩個主要的應(yīng)用方向:勞動力市場和家庭市場。很多人沒有意識到的是,勞動力市場才是最大的市場,它占據(jù)了GDP的一半。機器人在勞動力市場中執(zhí)行的任務(wù)大多是重復(fù)性的,而家庭市場則像“狂野的西部”,極其復(fù)雜。家庭市場的復(fù)雜性遠(yuǎn)高于勞動力市場。
以下為訪談實錄全文,由AI翻譯
旁白:
非常榮幸能向大家介紹Brett Adcock,F(xiàn)igure的創(chuàng)始人兼首席執(zhí)行官。
主持人:
你們從零開始,在短短31個月內(nèi)就推出了第一臺機器人。
Adcock:
我們每12到18個月設(shè)計一個新的硬件平臺。在我提交C公司注冊文件之前,我們的機器人在不到12個月的時間內(nèi)就已經(jīng)能夠行走。我認(rèn)為在未來幾年,你會看到它通過語音控制被放入家庭中,能夠長時間工作而無需任何提示。人形機器人領(lǐng)域正在發(fā)生類似iPhone時刻的事情,這將是一個巨大的突破。
主持人:
現(xiàn)在,女士們、先生們,這是一個宏偉的目標(biāo)。我想大多數(shù)人都知道,新聞媒體總是給我們帶來負(fù)面消息,因為我們對負(fù)面消息的關(guān)注度是正面消息的10倍。對我來說,唯一真正值得投入且能影響人類的是科學(xué)和技術(shù)的使用。這就是我關(guān)注的內(nèi)容。每周我都會發(fā)布兩篇博客,一篇關(guān)于人工智能和指數(shù)技術(shù),另一篇關(guān)于長壽。
好的,讓我們回到這一集。感謝你今天來到這里。是的,謝謝。我知道,你有三個年幼的孩子,還有一個機器人工廠和一個令人難以置信的工程師團隊,你真的很忙。我不會認(rèn)為這是理所當(dāng)然的。是的,我唯一的請求是下次我想要一臺Figure機器人。
Adcock:
好的,我明白了。
主持人:
寶馬已經(jīng)預(yù)訂了它們的生產(chǎn)線份額。
Adcock:
是的,我們確實有很多。實際上,我們每天都在運行它們。所以,它們今天就在那里運行,就在他們最大的工廠里。
主持人:
為什么你要創(chuàng)辦Figure?我是說,你已經(jīng)取得了令人難以置信的成功,Archer也非常出色。然后你跳進了可能是最難進入的行業(yè)之一。
Adcock:
是的,我認(rèn)為我們真的需要為AGI找到一種方式來賦予它一個身體。我認(rèn)為,如果我們解決了AGI,但它只是存在于某個服務(wù)器中,比所有人都更聰明,最終,如果它想在物理世界中做些什么,它將不得不請求人類去做。人形機器人是AGI的終極部署載體。你無法用其他東西解決這個問題。你需要某種單一平臺,無需硬件更改就能做人類能做的一切。你還需要某種對神經(jīng)網(wǎng)絡(luò)有益的東西。人形機器人中的神經(jīng)網(wǎng)絡(luò)可以通過遷移學(xué)習(xí)實現(xiàn)多任務(wù)處理,這非常適合神經(jīng)網(wǎng)絡(luò)。因此,我們基本上可以構(gòu)建一個單一的神經(jīng)網(wǎng)絡(luò)基礎(chǔ)模型,為整個機器人提供端到端的全部功能。
主持人:
恭喜你,你們從零開始,在31個月內(nèi)就推出了第一臺機器人,這非常了不起。許多公司在這么長的時間內(nèi)可能只是準(zhǔn)備好他們的PPT并籌集了第一筆資金。我將會看到一些機器人,當(dāng)我上次去北邊拜訪你的時候,向我展示了Figure 1,還有Figure 2,還有Figure 3的設(shè)計。
讓我感到真正驚嘆的是你們迭代的速度。你能談?wù)勥@一點嗎?快速迭代在硬件領(lǐng)域有多重要?因為硬件很難。
Adcock:
是的,這是一個難題。我們必須想出一種從未有人做過的事情。這是一個非常復(fù)雜的系統(tǒng),從工程角度來看,它肯定比Archer更復(fù)雜,就像建造一架電動飛機一樣。所以,我的經(jīng)驗法則是,第一代或第二代硬件總是會很糟糕。你知道,第一代iPhone并不好。第一次做某事時,你永遠(yuǎn)無法一次就做對。硬件就是這樣。你必須能看到五年后的未來,確切地知道產(chǎn)品是什么樣的,然后從第一天起就進行全新的設(shè)計。如果你在這些方面犯了錯誤,你可以通過設(shè)計過程來修正。你有很長的前置時間、供應(yīng)鏈,等等。所以,我們每12到18個月設(shè)計一個新的硬件平臺。
主持人:
順便說一下,這聽起來真的很令人驚嘆,對吧?每12到18個月就進行一次全新的迭代。
Adcock:
是的,我們在提交C公司注冊文件之前,就已經(jīng)讓Figure 1實現(xiàn)了行走,不到12個月。
主持人:
另一件你們做到的事情是你們實現(xiàn)了完全的垂直整合。
Adcock:
是的,這并不是必要之舉。人形機器人沒有供應(yīng)鏈。沒有電機供應(yīng)商,沒有傳感器供應(yīng)商,沒有電池系統(tǒng)供應(yīng)商,沒有運動學(xué)結(jié)構(gòu)供應(yīng)商……所有軟件也是如此,相當(dāng)廣泛。包括固件、嵌入式系統(tǒng)、操作系統(tǒng)、中間件、控制系統(tǒng)。
主持人:
那么,帶我們參觀一下你的工廠吧。你之前已經(jīng)帶我參觀過,但像,設(shè)計方面……你是如何從頭開始設(shè)計的?
Adcock:
是的,我們從頭開始全新設(shè)計所有東西。我們從本質(zhì)上思考產(chǎn)品需要做什么。產(chǎn)品需要能夠與人類交流,并且能夠在沒有任何人類干預(yù)的情況下完成任務(wù)。它需要能夠出去完成任務(wù)。所以,我們設(shè)計的是一種能夠勝任各種任務(wù)的機器人,從家庭機器人到遛狗、煮咖啡、洗衣服,再到商業(yè)勞動力大約一半的GDP是人類勞動。這是世界上最大的市場。
主持人:
全球GDP是110萬億到120萬億美元。你的目標(biāo)市場規(guī)模是50萬億到60萬億美元。這很不錯。
Adcock:
是的,這將會成為我們有生之年最大的業(yè)務(wù),遠(yuǎn)遠(yuǎn)超出其他領(lǐng)域。這個領(lǐng)域……是的,所以,我們從產(chǎn)品需要進入的終端市場開始思考。我們進行所有硬件設(shè)計,包括運動學(xué)設(shè)計、關(guān)節(jié)、電機、電池系統(tǒng)、傳感器。我們進行所有軟件設(shè)計,包括固件、嵌入式系統(tǒng)、控制系統(tǒng)、所有人工智能工作,端到端。然后我們進行所有測試、制造、集成,并將它們交付給客戶。所以,我們現(xiàn)在有兩家企業(yè)客戶。第一個是寶馬。我們的機器人每天都在那里運行。它們在南卡羅來納州的斯巴達(dá)堡,幫助制造汽車。
主持人:
我想我有一些寶馬工廠的視頻,如果我們可以播放背景視頻或重復(fù)播放這段視頻。
Adcock:
好的,我們可以播放。我們還有一些機器人在寶馬工廠的視頻。這些機器人基本上是在將金屬板材固定在夾具上。這是世界上每一家大型制造公司都在做的事情。我們的機器人已經(jīng)完全自主地完成了這項任務(wù),達(dá)到了我們需要的高性能,沒有人工干預(yù),沒有故障,沒有失敗。
主持人:
沒有藥物測試。沒有病假。沒有休息日。
Adcock:
是的,24/7全天候運行。
主持人:
這很有趣,對吧?讓我跳到另一個問題。從體積上看,我相信我聽到你說過,未來你會看到這些機器人的價格在2萬到3萬美元之間。
Adcock:
是的,我們在材料成本方面做了很多工作。如果你從頭開始分解,逐項分析,看看它在大規(guī)模制造中的樣子,系統(tǒng)中目前沒有任何跡象表明這個產(chǎn)品會非常昂貴。
主持人:
我的計算是,如果我要租一輛3萬美元的車,每月大約是300美元,也就是每天10美元,每小時40美分。所以,我的問題是,如果你每月支付300美元,就能擁有一臺24/7運行、從不抱怨、不會和女朋友或男朋友吵架的機器人,你會想要擁有多少臺呢?我認(rèn)為,每個人可能都需要擁有多臺。
Adcock:
是的,你會想要一臺的。它們可以在你每天早上醒來時幫助卸下洗碗機,撿起孩子們的玩具。我再也不想做這些事了。你知道,這些事我再也不想做了。我們已經(jīng)很久沒有在家庭中看到創(chuàng)新了,差不多50到70年了。它們是相同的電器,相同的東西。我們需要新的機器人。
主持人:
我們需要舊的,我們現(xiàn)在稱它們?yōu)橄赐霗C。
Adcock:
是的,它們已經(jīng)存在很長時間了。我們?nèi)祟惒坏貌幻刻炫c這些機器打交道。未來你不需要再這樣做了。你只需要和機器人說話,讓它去做。它可以按照時間表工作。你可以隨時呼叫它、發(fā)短信給它、和它說話,讓它去做事,它就會去做。它會比你自己更了解你。
主持人:
我記得幾年前,我很自豪地成為Figure的早期投資者,我把團隊介紹給你。我說,首先,布雷特是一位出色的運營者,有多個成功案例。未來最好的預(yù)測器是什么?是一個人在過去做過什么。這確實是未來最好的預(yù)測器之一。但我發(fā)現(xiàn)最令人驚嘆的是你組建的團隊。你能談?wù)勥@一點嗎?因為我認(rèn)為我們這里有很多觀眾都在關(guān)注他們的宏偉目標(biāo)。這是一個宏偉目標(biāo)。你退出Archer后,你是如何開始的?你是如何組建團隊的?你能描述一下那個早期時刻嗎?
Adcock:
是的,你知道,我在一生中并沒有創(chuàng)辦過很多公司。每次我都會回去思考,我哪里做錯了?哪里做對了?如何讓事情變得更好。
從根本上說,我花時間思考的是,要打造世界上最偉大的產(chǎn)品,你需要世界上最偉大的團隊。然后你需要將這個團隊與共享愿景對齊,每個人都需要對這個愿景負(fù)責(zé),理解它。然后你需要弄清楚如何全力加速。
所以,F(xiàn)igure的整個文化,甚至在我創(chuàng)辦Archer并組建最初的團隊時,都是非常有意識的。即使在Figure,如果你現(xiàn)在去左邊,我們有文化手冊,我們有總體規(guī)劃,我們有一些真正獨特的東西。我們在硅谷,但幾乎與硅谷的風(fēng)格相反。我們必須每天在辦公室工作。我們每周工作五到七天,非常努力,F(xiàn)在很多人不想這樣,這沒關(guān)系。只是他們不適合我們。我們現(xiàn)在已經(jīng)聚集了世界上最好的航空航天工程師。沒有人能接近我們所做到的。
主持人:
是的,這真是令人難以置信。
Adcock:
是的,這太不可思議了。我的整個商業(yè)團隊從Archer時期就和我在一起,現(xiàn)在也在Figure。他們都是出色的運營者。他們給了我能力去專注于產(chǎn)品工程,打造最好的產(chǎn)品。他們幫助擴展業(yè)務(wù),這很棒。招聘、人力資源、法律、財務(wù),各個方面都很出色。所以,團隊非常出色。但更重要的是,我們的文化非常精準(zhǔn)。就像每個人都知道自己應(yīng)該做什么。我不需要進行一對一的溝通,因為我們的團隊有一個共同的愿景,那就是推出產(chǎn)品。這就是我們的動力所在,也是我們所有人共同的目標(biāo),這真的很好。這是一個非常困難的事情。人形機器人可能是我從事過的最復(fù)雜的項目之一。如果沒有這種文化,我們根本無法實現(xiàn)目標(biāo)。
主持人:
你知道,我們明天會聽到特拉維斯克朗(Travis Klang)的分享,他也會說類似的話你的“巨大變革目標(biāo)”、清晰的使命和愿景,以及如何圍繞這些目標(biāo)來組織團隊和文化。這都始于你。你用自己的資金啟動了這個項目,然后開始聯(lián)系其他公司的人。你當(dāng)時的說辭是什么?是為了籌集資金,還是為了吸引員工加入?不,是為了讓員工加入。
Adcock:
哦,那么你在2022年的說辭是:“我會資助這個項目多年。你知道,這很昂貴。我們在最初的六個月里就達(dá)到了每月100萬美元的燒錢速度。但這并不是說沒有風(fēng)險,我只是從一開始就全力以赴。我非常清楚我們要做什么。
你知道,Archer在某種程度上就像一架飛行機器人。所以我知道如何組建團隊,我知道產(chǎn)品要做什么。我對動力系統(tǒng)、控制系統(tǒng)、軟件和傳感器的技術(shù)細(xì)節(jié)有深刻的理解。所以我們很快就行動起來了。我的說辭是:“嘿,我會資助這個項目,所以至少在未來幾年內(nèi)不會有資金風(fēng)險。我們有機會打造下一個‘iPhone時刻’。人形機器人領(lǐng)域即將迎來這樣的時刻,這將是一個巨大的機遇!
主持人:
那么,你告訴他們成功的概率是多少?
Adcock:
成功的概率很低。我們需要在接下來的5年左右時間里做到三件從未有人做到的事情,否則我們肯定會失敗。首先,我們需要打造一款極其復(fù)雜的人形機器人硬件。它不能出故障,必須始終正常工作,并且要以人類的速度和靈活性運行。從來沒有人做到過這一點。比如,波士頓動力的機器人雖然可以跳躍、翻跟頭,但還無法做到像人類一樣靈活地操作物體。這是一個硬件系統(tǒng)的巨大挑戰(zhàn),可能和制造噴氣發(fā)動機一樣復(fù)雜。
其次,這是一個神經(jīng)網(wǎng)絡(luò)問題,而不是控制問題。你不能通過編寫代碼來解決這個問題。你不能雇傭一堆博士,讓他們?yōu)闄C器人編寫程序來解決每一個問題。你必須通過神經(jīng)網(wǎng)絡(luò),讓機器人像人類一樣學(xué)習(xí)和模仿。這在人形機器人上從未被解決過,因為這是一個高維度的系統(tǒng),而不是像桌上的機械臂那樣簡單,后者大多數(shù)都沒有人工智能。
第三,你需要解決一個機器人領(lǐng)域的“圣杯”問題:泛化能力。你需要讓機器人通過語音指令理解它從未見過的任務(wù),并且能夠用一個神經(jīng)網(wǎng)絡(luò)完整地執(zhí)行這個任務(wù),從頭到尾。
我們需要在2022年解決這些問題。如果我們能做到,我們就會在這個十年內(nèi)取得成功,打造出人形機器人領(lǐng)域的“iPhone時刻”。我們已經(jīng)全面啟動了。但在2022年,這些看起來幾乎是不可能完成的任務(wù)。當(dāng)時,波士頓動力的機器人雖然可以做很多動作,但還遠(yuǎn)遠(yuǎn)達(dá)不到進入家庭所需的靈活性和操作能力,F(xiàn)在,我們可以說我們已經(jīng)在這些方面取得了實質(zhì)性進展。
主持人:
這太令人驚嘆了。
所以,去年有一個關(guān)鍵的時刻,你說OpenAI是一個重要的投資者,你們原本計劃使用OpenAI的AI系統(tǒng),但你最終決定自己開發(fā)內(nèi)部的AI系統(tǒng)Helix。你能談?wù)勥@個決定嗎?我想展示一段關(guān)于Figure在家庭中應(yīng)用的視頻。
Adcock:
好的。你看到的是Helix,這是我們內(nèi)部開發(fā)的大型AI系統(tǒng),它是一個視覺-語言-動作模型。這段視頻是公開的,可以在YouTube上找到?评铮–orey)是Helix團隊的負(fù)責(zé)人,他給出的指令是“把雜貨放在桌子上”。
但機器人并沒有被告知這些雜貨應(yīng)該放在哪里,也沒有被告知它們是什么。實際上,我們在訓(xùn)練中故意沒有讓機器人接觸過這些物品。所以,這是機器人第一次通過自己的攝像頭和傳感器看到這些物品。真正困難的部分是,機器人需要解決家庭環(huán)境中的泛化問題。每個家庭都是不同的。你知道,我們都有不同的烤箱、不同的鍋鏟、不同的餐具,而且這些物品的擺放位置會不斷變化。所以,你必須解決這種“語義智能”,也就是人類世界與機器人世界之間的語義連接。
Helix能夠通過單個神經(jīng)網(wǎng)絡(luò)在每個機器人之間進行通信,并且能夠?qū)⑦@些物品正確地放置到位。這可能是機器人歷史上最重要的AI更新。未來所有能動的物體都將是機器人,它們將由像這樣的AI代理驅(qū)動。這個系統(tǒng)是用非常少的數(shù)據(jù)訓(xùn)練的,只有500小時的數(shù)據(jù)。
主持人:
我非常喜歡他們互相看著對方以確認(rèn)的方式,比如“是的,我明白了”,或者“哦,把那個東西放在那里是個好主意”。
Adcock:
是的,這確實很有趣。部分原因是這種行為是從訓(xùn)練中自然產(chǎn)生的。當(dāng)機器人進行物品交接時,它們實際上會互相看一眼,這是一種信號,表明它們應(yīng)該在何時松開或抓住物品,以防止物品掉落。這種行為是從訓(xùn)練中自然產(chǎn)生的,非常有趣。另一個原因是,機器人在互相移動時需要進行一定程度的交流。從機器人與人類的互動設(shè)計角度來看,這非常重要。你不想走進一個房間,看到機器人只是呆呆地站著,不看你,也不做出任何反應(yīng)。人類會通過眼神交流、點頭和手勢來進行溝通。所有這些對于機器人來說都是非常重要的,因為我們需要讓機器人學(xué)會這些人類的表情,就像我們需要它們學(xué)會抓取物品一樣。隨著我們大規(guī)模地將機器人引入整個世界,這種能力將變得至關(guān)重要。
主持人:
我有一千個問題想問你。讓我快速地提幾個。好的,那我們開始吧。Figure 3什么時候能展示出來?我看到了它的設(shè)計。Figure 3什么時候能公開展示?
Adcock:
你會一直問我們這個問題。你覺得它好看嗎?我認(rèn)為你已經(jīng)看到了它。
主持人:
它的設(shè)計非常出色。我認(rèn)為人們還不明白這有多么令人驚嘆。
Adcock:
因為我們還沒有公開展示,所以他們不知道。你知道,F(xiàn)igure 1是我們在視頻中展示的機器人,那是第一代機器人。你可以看到,F(xiàn)igure 1有點粗糙,外面還露著電線,設(shè)計得更快速,以便讓我們的工程師能夠盡快開始進行實際的用例測試。
Figure 2是一個功能完備的機器人,它幾乎可以完成人類能做的所有事情。我們還沒有公開談?wù)撎,但我們現(xiàn)在已經(jīng)完成了Figure 3的設(shè)計。我想我們可能會在下周展示一個更新版本。雖然這次更新可能不會涉及太多技術(shù)細(xì)節(jié),但Figure 3相比前代產(chǎn)品是一個巨大的飛躍。從Figure 1到Figure 2,已經(jīng)是一個巨大的飛躍,從一個大學(xué)宿舍項目的原型到一個相當(dāng)不錯的機器人。而Figure 3的飛躍同樣巨大。我們花了18個月從頭開始設(shè)計它。從高層來看,它比前代產(chǎn)品便宜了90%,更小、更輕,配備了更好的傳感器。它的手部、頭部和腳部的設(shè)計完全為神經(jīng)網(wǎng)絡(luò)優(yōu)化。這可以說是我職業(yè)生涯中最自豪的工程成就之一。我們計劃今年開始量產(chǎn)Figure 3,并將其推向市場。
這就是我們希望推向全世界的機器人。我們希望它成本低廉,功能強大,并且在幾乎所有方面都更優(yōu)秀。我們很快會發(fā)布更多關(guān)于它的更新。這就是我們希望推向家庭和勞動力市場的機器人。
主持人:
關(guān)于未來三到四年的生產(chǎn)計劃,以及我什么時候能在家里看到它?
Adcock:
我們有兩個主要的應(yīng)用方向:勞動力市場和家庭市場。很多人沒有意識到的是,勞動力市場才是最大的市場,它占據(jù)了GDP的一半。我們可以在家庭市場收取更高的價格,但家庭市場也更復(fù)雜。機器人在勞動力市場中執(zhí)行的任務(wù)大多是重復(fù)性的,而家庭市場則像“狂野的西部”,極其復(fù)雜。我們面臨巨大的安全挑戰(zhàn),例如確保機器人不會撞到人或引發(fā)危險,比如打翻蠟燭引發(fā)火災(zāi)。家庭市場的復(fù)雜性遠(yuǎn)高于勞動力市場。
目前,我們在勞動力市場的需求非常旺盛。我們的前兩個商業(yè)客戶寶馬和其他一家大型物流公司已經(jīng)對我們的機器人表現(xiàn)出極高的興趣。如果今天有10萬臺機器人可用,這些客戶會立刻購買。我們還與50家財富100強公司進行了接觸,他們都對我們的產(chǎn)品表示了強烈的興趣。勞動力市場的需求幾乎是無限的,因為全球人口結(jié)構(gòu)的變化導(dǎo)致勞動力短缺,尤其是在制造業(yè)和物流領(lǐng)域。
我們計劃在家庭市場進行內(nèi)部測試,最早可能在今年開始。我們的目標(biāo)是讓機器人能夠通過語音指令完成各種家務(wù)任務(wù),比如收拾餐具、照顧孩子、做家務(wù)等。我們相信,隨著Helix的不斷進步,機器人將能夠在家庭環(huán)境中自主學(xué)習(xí)和執(zhí)行任務(wù),而不需要人類的持續(xù)指導(dǎo)。
我們面臨的最大挑戰(zhàn)仍然是語義智能,即機器人需要理解它所處的環(huán)境并正確執(zhí)行任務(wù)。我們相信,通過增加訓(xùn)練數(shù)據(jù)量,Helix將能夠更好地理解家庭環(huán)境。目前,Helix的訓(xùn)練數(shù)據(jù)量還比較有限,只有大約500小時。我們計劃在未來幾個月內(nèi)大幅增加數(shù)據(jù)量,以提升機器人的性能。
目前,Helix的訓(xùn)練數(shù)據(jù)量還比較有限,只有大約500小時。我們在網(wǎng)站上提到Helix時,展示了一個小實驗:把一些奇怪的小物件放在機器人面前,比如從孩子房間里拿出來的仙人掌玩具,然后告訴它“撿起那個沙漠物品”,它會把仙人掌識別為一種沙漠植物。它能夠識別并撿起這些物品。所有這些都存儲在它的權(quán)重中,它有一個很大的語言模型作為支撐。因此,它真的理解了世界的語義基礎(chǔ)。
我們覺得,現(xiàn)在Helix只是數(shù)據(jù)受限。如果我們把訓(xùn)練Helix的數(shù)據(jù)集增加幾個數(shù)量級,它可能會表現(xiàn)得更好。目前,Helix已經(jīng)能夠識別并撿起我們放在它面前的幾乎所有小物件。比如,我們放了一個會唱歌、會動的玩具仙人掌,它識別出了這是一個“沙漠物品”,并將其撿起。所有這些都存儲在它的權(quán)重中,它有一個很大的語言模型作為支撐。所以,它真的理解了世界的語義基礎(chǔ)。
我們只需要更多的數(shù)據(jù),這基本上是目前的瓶頸。我們覺得,只要增加Helix訓(xùn)練的數(shù)據(jù)量,它就能更好地理解家庭環(huán)境。目前,Helix已經(jīng)能夠很好地完成任務(wù),比如識別并撿起我們放在它面前的物品。它甚至可以通過語義理解來完成任務(wù),比如當(dāng)我們說“把那個沙漠物品撿起來”,它會把仙人掌識別為與“沙漠”相關(guān)的物品并撿起它。所有這些都表明,Helix已經(jīng)具備了很強的語義理解能力。
我認(rèn)為,我們已經(jīng)開始看到一些突破性的進展,這在歷史上從未有過。人形機器人即將成為現(xiàn)實。問題是,我們只需要沿著這條曲線繼續(xù)推進,讓它更快地進入家庭。我相信,這將在本世紀(jì)發(fā)生。在未來幾年內(nèi),你會看到人形機器人通過語音控制進入家庭,能夠長時間工作而無需任何提示。
主持人:
好的,感謝大家收聽本期節(jié)目。這是我最喜歡分享的內(nèi)容。每周我都會發(fā)布兩篇博客,很多內(nèi)容都來自這里,這些是我的個人筆記,記錄了我關(guān)于人工智能、長壽以及正改變我們世界的前沿技術(shù)的學(xué)習(xí)和思考。下周我們再見!
本文來自華爾街見聞,歡迎下載APP查看更多