文 | 闌夕
這幾天刷推很明顯的感覺到英文技術(shù)社區(qū)對中國AI產(chǎn)業(yè)的進步速度處于一種半震動半懵逼的狀態(tài),應(yīng)激來源主要是兩個,一個是宇樹(Unitree)的輪足式機器狗B2-W,另一個是開源MoE模型DeepSeek-V3。
宇樹在早年基本上屬于是波士頓動力的跟班,產(chǎn)品形態(tài)完全照貓畫虎,商業(yè)上瞄準的也是低配平替生態(tài)位,沒有太大的吸引力,但從B系列型號開始,宇樹的機器狗就在靈活性上可以和波士頓動力平起平坐了。
B2-W的意外在于切換了技術(shù)線,用運動性更高但平衡性同時也更難的動輪方案取代了B2還在沿用四足方案,然后在一年時間里完成了能在戶外環(huán)境里跋山涉水的訓(xùn)練,很多美國人在視頻底下說這一定是CGI的畫面,不知道是真假還是心態(tài)炸了。
波士頓在機器狗身上也曾短暫用過動輪方案,或者說它測過的方案遠比宇樹要多公司成立時長擺在那里但是作為行業(yè)先驅(qū),它連保持一家美國公司的實體都辦不到了。
現(xiàn)代汽車2020年以打折價從軟銀手里買了波士頓動力,正值軟銀賬面巨虧需要回血,而軟銀當(dāng)初又是在2017年從Google那里買到手的,Google為什么賣呢,因為覺得太燒錢了,虧不起。
這理由就很離譜,美國的風(fēng)險資本系統(tǒng)對于虧損的容忍度本來就是全球最高的,沒有之一,對于前沿性的研究,砸錢畫餅是再尋常不過了的看這兩年硅谷在AI上的投入產(chǎn)出比就知道了但波士頓動力何以在獨一檔的地位上被當(dāng)成不良資產(chǎn)賣來賣去?
那頭房間里的大象,美國的科技行業(yè)普遍都裝作看不到:美國人,如今的美國人,從投行到企業(yè),從CEO到程序員,從紐約到灣區(qū),對制造業(yè)的厭棄已經(jīng)成為本能了。
A16Z的合伙人馬克安德森2011年在「華爾街日報」寫了那篇流傳甚廣的代表作「軟件吞噬世界」,大概意思是,邊際成本極低的軟件公司注定接管一切水草繁盛之地,和這種可以提供指數(shù)級增長的生意比起來,其他的行業(yè)都不夠看。
并不是說馬克安德森的表達有問題,后面這十幾年來的現(xiàn)實走向,也確實在證明這條攫取規(guī);麧櫟幕貓笫亲罡叩,但美國人的路徑依賴到最后必然帶來一整代人喪失制造能力的結(jié)果。
這里說的喪失制造能力,并不是說喪失制造興趣或是熱情,我前段時間拜訪了深圳一家逆向海淘公司,業(yè)務(wù)就是把華強北的電子配件做成可索引的結(jié)構(gòu)化目錄,然后提供從采購到驗貨再到發(fā)包的全流程服務(wù),最大的買方就是美國的DIY市場和高校學(xué)生,他們之所以要不遠萬里的等上幾個星期委托中國人來買東西,就是因為在諾大的美國本土,根本找不到供應(yīng)鏈。
然后那些學(xué)生也只有在讀書時才有真正嘗試制造某些東西的機會,到了要去大公司里上班領(lǐng)薪后,再也沒人愿意把手弄臟了。
但軟件終究不能脫離硬件運行,哪怕硬件生產(chǎn)的附加值再不夠看,基于采集一手物理數(shù)據(jù)的入口,制造商腰板硬起來后去做全套解決方案,只取決于能不能組建好的工程師團隊,反過來卻不一樣,制造訂單長期外包出去,它就變成產(chǎn)業(yè)鏈配套回不來了。
所以像是多旋翼無人機和四足機器狗這類新興科技萌芽的原型機一般都還是產(chǎn)自有著試錯資本的歐美,也就是所謂「從零到一」的過程,而在「從一到十」的落地階段,中國的追趕成果就會開始密集呈現(xiàn),進入「從十到百」的量產(chǎn)之后,中國的供應(yīng)鏈成本直接殺死比賽。
波士頓動力的機器人最早在網(wǎng)上爆火的時候,Google X的負責(zé)人在內(nèi)部備忘錄里說他已經(jīng)和媒體溝通了,希望不要讓視頻和Google扯上太大關(guān)系,是不是很迷惑,這么牛逼的事情,你作為母公司非但不高興,還想躲起來,現(xiàn)在你們懂得這種顧慮從何而來了,就是覺得貴為軟件巨頭的Google去卷袖子干制造的活兒太卑賤了唄。
當(dāng)然美國也還有馬斯克這樣的建設(shè)者(Builder),但你要知道馬斯克的故事之所以動人,是因為他這樣的人現(xiàn)在是極度稀缺的,而且長期以來不受主流科技業(yè)界待見,完全是靠逆常識的成就造汽車,造火箭,造隧道,這都是硅谷唯恐避之不及的事情去一步步打臉打出來的名聲。
如果說宇樹是在硬件上引起了一波懷疑現(xiàn)實的熱度,那么DeepSeek則在軟件的原生地盤,把大模型廠商都給硬控住了。
在微軟、Meta、Google都在奔著10萬卡集群去做大模型訓(xùn)練時,DeepSeek在2000個GPU上,花了不到600萬美金和2個月的時間,就實現(xiàn)了對齊GPT-4o和Claude 3.5 Sonnet的測試結(jié)果。
DeepSeek-V2在半年前就火過一波,但那會兒的敘事還相對符合舊版本的預(yù)期:中國AI公司推出了低成本的開源模型,想要成為行業(yè)里的價格屠夫,中國人就擅長做這種便宜耐用的東西,只要不去和頂級產(chǎn)品比較,能用是肯定的。
但V3則完全不同了,它把成本降了10倍以上,同時質(zhì)量卻能比肩t1陣營,關(guān)鍵還是開源的,相關(guān)推文的評論區(qū)全是「中國人咋做到的?」
雖然但是,后發(fā)的大模型可以通過知識蒸餾等手段實現(xiàn)性價比更高的訓(xùn)練類似你學(xué)習(xí)牛頓三定律的速度降低的斜率也在有利于追趕者,肯定比牛頓本人琢磨出定律的速度要快成本,但匪夷所思的效率提升,是很難用已知訓(xùn)練方法來歸納的,它一定是在底層架構(gòu)上做了不同于其他巨頭的創(chuàng)新。
另一個角度更有意思,如果針對中國的AI芯片禁售政策最后產(chǎn)生的后果,是讓中國的大模型公司不得不在算力受限的約束下實現(xiàn)了效率更高的解決方案,這種適得其反的劇情就太諷刺了。
DeepSeek的創(chuàng)始人梁文鋒之前也說過,公司差的從來都不是錢,而是高端芯片被禁運。
所以中國的大模型公司,像是字節(jié)和阿里這樣的大廠,卡能管夠,把年收入的1/10拿出來卷AI,問題不大,但初創(chuàng)公司沒這么多彈藥,保持不下牌桌的唯一方法就是玩命創(chuàng)新。
李開復(fù)今年也一直在表達一個觀點,中國做AI的優(yōu)勢從來不是在不設(shè)預(yù)算上限的情況下去做突破性研究,而是在好、快、便宜和可靠性之間找出最優(yōu)解。
零一和DeepSeek用的都是MoE(混合專家)模式,相當(dāng)于是在事先準備的高質(zhì)量數(shù)據(jù)集上去做特定訓(xùn)練,不能說在跑分上完全沒有水分,但市場并不關(guān)心原理,只要質(zhì)價比夠看,就一定會有競爭力。
當(dāng)然DeepSeek不太一樣的是,它不太缺卡,2021年就囤了1萬張英偉達A100,那會兒ChatGPT還沒影呢,和Meta為了元宇宙囤卡卻陰差陽錯的趕上AI浪潮很像,DeepSeek買那么多卡,是為了做量化交易
我最早對梁文鋒有印象,是「西蒙斯傳」里有他寫的序,西蒙斯是文藝復(fù)興科技公司的創(chuàng)始人,用算法模型去做自動化投資的開創(chuàng)者,梁文鋒當(dāng)時管著600億人民幣的量化私募,寫序?qū)儆陧樌沓烧碌慕o行業(yè)祖師爺致敬。
交待這個背景,是想說,梁文鋒的幾家公司,從量化交易做到大模型開發(fā),并不是一個金融轉(zhuǎn)為科技的過程,而是數(shù)學(xué)技能在兩個應(yīng)用場景之間的切換,投資的目的是預(yù)測市場,大模型的原理也是預(yù)測Token。
后來看過幾次梁文鋒的采訪,對他的印象很好,非常清醒和聰明的一個人,我貼幾段你們感受一下:
「暗涌」:大部分中國公司都選擇既要模型又要應(yīng)用,為什么DeepSeek目前選擇只做研究探索?
梁文鋒:因為我們覺得現(xiàn)在最重要的是參與到全球創(chuàng)新的浪潮里去。過去很多年,中國公司習(xí)慣了別人做技術(shù)創(chuàng)新,我們拿過來做應(yīng)用變現(xiàn),但這并非是一種理所當(dāng)然。這一波浪潮里,我們的出發(fā)點,就不是趁機賺一筆,而是走到技術(shù)的前沿,去推動整個生態(tài)發(fā)展。
「暗涌」:互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)時代留給大部分人的慣性認知是,美國擅長搞技術(shù)創(chuàng)新,中國更擅長做應(yīng)用。
梁文鋒:我們認為隨著經(jīng)濟發(fā)展,中國也要逐步成為貢獻者,而不是一直搭便車。過去三十多年IT浪潮里,我們基本沒有參與到真正的技術(shù)創(chuàng)新里。我們已經(jīng)習(xí)慣摩爾定律從天而降,躺在家里18個月就會出來更好的硬件和軟件。Scaling Law也在被如此對待。但其實,這是西方主導(dǎo)的技術(shù)社區(qū)一代代孜孜不倦創(chuàng)造出來的,只因為之前我們沒有參與這個過程,以至于忽視了它的存在。
「暗涌」:但這種選擇放在中國語境里,也過于奢侈。大模型是一個重投入游戲,不是所有公司都有資本只去研究創(chuàng)新,而不是先考慮商業(yè)化。
梁文鋒:創(chuàng)新的成本肯定不低,過去那種拿來主義的慣性也和過去的國情有關(guān)。但現(xiàn)在,你看無論中國的經(jīng)濟體量,還是字節(jié)、騰訊這些大廠的利潤,放在全球都不低。我們創(chuàng)新缺的肯定不是資本,而是缺乏信心以及不知道怎么組織高密度的人才實現(xiàn)有效的創(chuàng)新。
「暗涌」:但做大模型,單純的技術(shù)領(lǐng)先也很難形成絕對優(yōu)勢,你們賭的那個更大的東西是什么?
梁文鋒:我們看到的是中國AI不可能永遠處在跟隨的位置。我們經(jīng)常說中國AI和美國有一兩年差距,但真實的gap是原創(chuàng)和模仿之差。如果這個不改變,中國永遠只能是追隨者,所以有些探索也是逃不掉的。英偉達的領(lǐng)先,不只是一個公司的努力,而是整個西方技術(shù)社區(qū)和產(chǎn)業(yè)共同努力的結(jié)果。他們能看到下一代的技術(shù)趨勢,手里有路線圖。中國AI的發(fā)展,同樣需要這樣的生態(tài)。很多國產(chǎn)芯片發(fā)展不起來,也是因為缺乏配套的技術(shù)社區(qū),只有第二手消息,所以中國必然需要有人站到技術(shù)的前沿。
「暗涌」:很多大模型公司都執(zhí)著地去海外挖人,很多人覺得這個領(lǐng)域前50名的頂尖人才可能都不在中國的公司,你們的人都來自哪里?
梁文鋒:V2模型沒有海外回來的人,都是本土的。前50名頂尖人才可能不在中國,但也許我們能自己打造這樣的人。
「暗涌」:所以你對這件事也是樂觀的?
梁文鋒:我是八十年代在廣東一個五線城市長大的。我的父親是小學(xué)老師,九十年代,廣東賺錢機會很多,當(dāng)時有不少家長到我家里來,基本就是家長覺得讀書沒用。但現(xiàn)在回去看,觀念都變了。因為錢不好賺了,連開出租車的機會可能都沒了。一代人的時間就變了。以后硬核創(chuàng)新會越來越多,F(xiàn)在可能還不容易被理解,是因為整個社會群體需要被事實教育。當(dāng)這個社會讓硬核創(chuàng)新的人功成名就,群體性想法就會改變。我們只是還需要一堆事實和一個過程。
是不是很牛逼?反正我是被圈粉了,做最難的事情,還要站著把錢賺了,一切信念都基于對真正價值的尊重和判斷,這樣的80后、90后越來越多的站上了主流舞臺,讓人非常寬慰,你可以說他們在過去是所謂的「小鎮(zhèn)做題家」,但做題怎么了,參與世界未來的塑造,就是最有挑戰(zhàn)性的題,喜歡解這樣的題,才有樂趣啊。