12月21日,在華爾街見聞和中歐國際工商學院聯(lián)合舉辦的「Alpha峰會」上,峰瑞資本投資創(chuàng)始人陳石對AI行業(yè)的發(fā)展進行了回顧和展望,并分享了對業(yè)內(nèi)前沿大模型和AI應(yīng)用的理解。
以下為演講精彩觀點:
1. 除AMD和英特爾外,美國不少科技大廠、模型廠商和創(chuàng)業(yè)公司都在做自己的算力芯片,希望能夠在巨大的AI大模型算力需求中,從英偉達芯片的市場分一杯羹,特別是在推理芯片方面。應(yīng)用方面,模型的小型和端側(cè)化是一個明顯的趨勢,如果你在終端上運行較大的模型或通過遠程API調(diào)用云端大模型,其實會很慢,而且成本也不劃算,所以基本上來說這是一種趨勢。
2.當前,兩類AI手機應(yīng)用最掙錢,一類是AI+圖像/視頻,即多模態(tài)創(chuàng)意工具,包括制作商業(yè)視頻、修圖等偏營銷的內(nèi)容創(chuàng)作,這類產(chǎn)品的市場份額為53%。另一類是AI+Chatbot,包括ChatGPT這類大模型助手和Character.ai這類AI陪伴聊天助手,市場份額在30%左右。
3.在AI產(chǎn)業(yè)供應(yīng)鏈中,大型云廠商扮演著風險吸收者的角色,但反過來講,大型云廠商也掌握著AI的商業(yè)生態(tài),掌握著資源、人才和高達數(shù)千億美金的云計算市場。所以我覺得當前AI產(chǎn)業(yè)供應(yīng)鏈的鏈主是大型科技云廠商,而非模型廠商。
4. 當前類似GPT系列的預訓練模型,其回答問題的模式是“一下子給出答案”,不具備分步驟、回溯迭代等“思考”能力,而OpenAI o1/o3這類模型在接收到問題指令后會先“深思熟慮”,在解決問題的過程中搜索可能涉及到的思維鏈空間,然后再輸出答案。這與人類的復雜思考過程類似,它更適合做復雜推理,這是以前的模型都做不到的。
5. 現(xiàn)在用戶越來越希望獲得AI模型的即時反饋,洞察個人需求并給出貼切的個性化答案,這對模型性能、產(chǎn)品規(guī)劃等方面都是巨大的挑戰(zhàn),但這種產(chǎn)品一旦做出來,就有希望打敗基于傳統(tǒng)代碼的移動互聯(lián)網(wǎng)產(chǎn)品。
6.當前,大模型廠商陣營基本形成,陣營里的5家公司分別是:谷歌、OpenAI、Anthropic、xAI和Meta。這意味著,AI的基礎(chǔ)設(shè)施已經(jīng)具備,后續(xù)應(yīng)用開發(fā)面臨的問題不會太大。
7.2025年有望成為AI應(yīng)用大年,供應(yīng)鏈的資產(chǎn)負債表可能會逐步得到修復,這得益于前期投入的累積,另外,客戶端收益的能見度也會有所提升。
以下為演講實錄:
謝謝大家,謝謝Alpha峰會的邀請,去年我也來做過一次AI主題的分享,當時提到了一些話題,比如生成式AI的多模態(tài)、復雜推理、具身智能以及模型的自我迭代。最近這一年,我發(fā)現(xiàn)AI技術(shù)發(fā)展十分迅速,已經(jīng)出現(xiàn)了實踐的產(chǎn)品。峰瑞資本2024年一共投了近30個項目,大部分都是跟AI相關(guān)的,比如應(yīng)用、硬件、芯片、具身智能、AI賦能科研等,所以今天我也想跟大家做一次分享,分享我們2024年的投資實踐和產(chǎn)業(yè)思考。
我的演講分為三個部分,第一個部分是行業(yè)整體情況,包括供應(yīng)鏈等;第二個部分是模型和應(yīng)用的深入講解;第三個部分是對2025年AI的行業(yè)展望和其未來趨勢。
我們先對2024年AI的發(fā)展進行快速回顧,大概分成兩部分,上面一部分是關(guān)于AI行業(yè)的原始驅(qū)動力,如大模型以及它的基礎(chǔ)設(shè)施,下面一部分則側(cè)重于AI 在應(yīng)用端的情況。
在大模型方面,我們看到在閉源基座模型領(lǐng)域中全球出現(xiàn)了三家領(lǐng)先者,分別是Anthropic的Claude 3.5, Google的Gemini 1.5,還有OpenAI的GPT-4o,這三個模型并駕齊驅(qū),達到業(yè)界的SOTA水平。
但在今年的下半年,很多人會產(chǎn)生疑問,AI行業(yè)是不是正面臨衰退?他們觀察到規(guī)模法則似乎不再奏效, OpenAI 一段時間內(nèi)也并未推出特別好的新模型。當然, OpenAI 后來還是不負眾望,在今年9月份發(fā)布了o1模型,在12月份又發(fā)布了o3模型,它幾乎是我們AI行業(yè)全村的希望。
為什么這么說?閉源模型到了GPT-4水平之后,現(xiàn)有的預訓練方式其實很難再有大的提升,除非它的基礎(chǔ)設(shè)施再提高幾倍甚至十倍,據(jù)說訓練下一代模型需要的算力是當前模型的10倍。而現(xiàn)在的o1和o3新模型是一個新的訓練范式,能帶來復雜推理和自我迭代能力的極大提升,這部分后面我會再簡單介紹一下。
在多模態(tài)方面,2024年也有很大的進步,從年初 OpenAI的視頻生成模型Sora到年末Google的Veo2模型,還有5月份發(fā)布的GPT-4o(o是omni,全能的意思),它的輸入支持多模態(tài)、輸出也支持多模態(tài),特別是實時語音對話,效果很驚艷。
在開源方面,我覺得Meta是一個很聰明的公司。在閉源領(lǐng)域前三家難以被超越,Meta選取開源的生態(tài)位是很明智的,大量的開發(fā)者、行業(yè)應(yīng)用和行業(yè)模型都會使用Meta的Llama3開源模型,原因是開源模型能帶給他們更多二次開發(fā)、模型微調(diào)和能力擴展的空間。當然我們欣喜地看到國內(nèi)也推出很有競爭力的開源模型,例如Qwen和DeepSeek。國內(nèi)企業(yè)在研發(fā)的行業(yè)或企業(yè)模型及應(yīng)用時,一般會首選國產(chǎn)的開源模型。
在基礎(chǔ)設(shè)施方面,我覺得變化并不顯著,英偉達還是一股獨大。但是我們看到,除AMD和英特爾外,美國不少科技大廠、模型廠商和創(chuàng)業(yè)公司都在做自己的算力芯片,希望能夠在巨大的AI算力市場中,從英偉達手中分一杯羹,特別是在推理芯片方面。中國也有不少這類芯片公司,包括我們峰瑞投資的公司,在積極從事這方面的研發(fā)和生產(chǎn)。
從用戶側(cè)應(yīng)用的角度看,模型的小型和端側(cè)化是一個明顯的趨勢,因為如果在終端上運行較大的模型或通過遠程調(diào)用云端大模型,速度慢且成本高。美國蘋果公司在10月底發(fā)布的Apple Intelligence功能,采用一個自研30億參數(shù)的端側(cè)小模型,能夠在當前的手機、Pad和筆記本上部署和運行。但最近有媒體報道Apple Intelligence偶爾會出錯,包括幻覺和新聞標題錯誤等,這可能也跟模型參數(shù)小有關(guān)系,有進一步提升空間。
此外,AI和大模型的技術(shù)在2024年的破圈較為明顯。第一個是基礎(chǔ)科學,今年物理學、化學的諾貝爾獎都頒發(fā)給了AI領(lǐng)域的科學家和工程師,第二個是在自動駕駛上,特斯拉的FSD算法,以及國內(nèi)的新能源廠商或智能駕駛公司,在算法和模型上的突飛猛進,都離不開基座模型和AI技術(shù)的賦能。第三個獲得AI賦能的領(lǐng)域是具身智能,也是AI方向很熱的賽道,我們峰瑞今年也投了多家這個領(lǐng)域的公司。
最后一點是AI應(yīng)用的落地。2023年我在Alpha峰會的分享中,也提到過AI應(yīng)用要開始大力發(fā)展,但很遺憾,2024年AI應(yīng)用的發(fā)展不及預期,相信明年AI應(yīng)用會有比較好的產(chǎn)出,具體情況我接下來會有分析。
AI行業(yè)的現(xiàn)狀如何?美國紅杉最近發(fā)文稱,“AI的基礎(chǔ)已經(jīng)穩(wěn)固建立!意思是現(xiàn)在全球的五大模型廠商陣營已經(jīng)基本形成,后面可能會有一些微小變化,比如說蘋果是不是會進入,但現(xiàn)在看起來這五家已經(jīng)處于領(lǐng)先的地位,包括谷歌、OpenAI、Anthropic、xAI和Meta,這五家各有所長,再加上o1和o3這樣的新模型還在繼續(xù)發(fā)展,構(gòu)成的整體模型能力已形成支持AI應(yīng)用落地的穩(wěn)固基礎(chǔ)。
現(xiàn)在我們來看一下AI行業(yè)的投入產(chǎn)出,這也是AI行業(yè)被詬病最多的一點,具體來說,投入巨大但是產(chǎn)出寥寥。四家頭部的科技巨頭Meta、Google、 Microsoft和Amazon,它們2024年第二季度的資本支出是529億美金,大部分投資在AI方向。此外VC和科技巨頭一起投資的AI創(chuàng)業(yè)公司,在投資額上也是創(chuàng)出新高。上述四巨頭運營的AI數(shù)據(jù)中心的數(shù)量,也從2020年的500家擴展到2024年的近1000家,而且這些數(shù)據(jù)中心都是高級別、以GPU為主的算力密集型大型數(shù)據(jù)中心。
頭部AI算力芯片提供方英偉達公司2025財年Q2的收入達到300億美金,這些收入主要來自于AI行業(yè)的算力投入,當然除了算力還有大量人才的投入。
業(yè)界認為,對比上述的各種投入,AI行業(yè)的產(chǎn)出要到6000億美元才能達到投入產(chǎn)出的合理水平,但今天AI行業(yè)的真正產(chǎn)出是在數(shù)百億美元的水平,精確的數(shù)字很難統(tǒng)計,但估計應(yīng)該是300億美元左右,距離6000億美元仍有較大差距。
還有另一項統(tǒng)計數(shù)據(jù)顯示,當前全球AI創(chuàng)業(yè)公司年循環(huán)收入能達到1000萬美元的不到100家,收入整體相對較低。我這里列出幾家頭部公司的收入數(shù)據(jù)中,OpenAI應(yīng)該是收入最多的,它聲稱2024年要做到37億美元營收,其他包括微軟的Github Copilot和Anthropic等。此外,根據(jù)Sensor Tower發(fā)布的圖表,2024年手機端的AI應(yīng)用收入約33億美元,其中兩類AI手機應(yīng)用最掙錢,一類是AI+圖像/視頻,也就是多模態(tài)創(chuàng)意工具,包括視頻、圖像創(chuàng)作編輯等,這類產(chǎn)品的市場份額為53%。另一類是AI+Chatbot,包括諸如ChatGPT的大模型助手和Character.ai這類的AI陪伴聊天助手,市場份額為29%,其他類型的應(yīng)用相對收入較少。從國家市場上看,歐美占據(jù)三分之二左右,所以出海也是主要的需求,我們投資的AI應(yīng)用公司大多在出海。
剛才講到了AI行業(yè)投入產(chǎn)出的不匹配,那么這個行業(yè)的風險由誰承擔?美國紅杉資本提出當前AI的供應(yīng)鏈處于 “脆弱的平衡”狀態(tài)。分層來看,最下層的代工廠是盈利的,比如臺積電;往上一層的半導體廠商也是盈利的,比如英偉達;中間的云廠商是虧損的;之后的模型廠商應(yīng)該也是虧損的,且模型廠商的投資來自云廠商或風險投資;最上面則是客戶層,也就是應(yīng)用層的收入,比如ChatGPT、Github Copilot等。那么風險在哪?風險主要在大型云廠商。大型云廠商投入大量的資本支出,扮演著風險吸收者的角色。從另外一個角度看,我會覺得大型云廠商其實掌握著AI的商業(yè)生態(tài),掌握著資源和人才,也掌握著高達數(shù)千億美金的云計算市場,AI供應(yīng)鏈的鏈主就是大型云廠商,這種情況在中國和美國都適用。所以業(yè)界需要思考,模型創(chuàng)業(yè)應(yīng)該如何做?大模型創(chuàng)業(yè)公司能不能獨立發(fā)展起來?
美國頭部的語言模型陣營已經(jīng)基本收斂,主要是科技大廠和頭部模型的結(jié)對,剛才提到了這5家模型廠商。本來可能的挑戰(zhàn)者,如Character.ai、Inflection和ADEPT等,也紛紛被這幾家大廠收購,再此驗證大廠對AI供應(yīng)鏈的控制力。中國的語言模型陣營也在迅速收斂,中國的大型云廠商阿里、字節(jié)、騰訊、百度等,不但自研模型,其中幾家也在積極投資模型創(chuàng)業(yè)公司。作為創(chuàng)業(yè)公司,中國的模型六小虎已經(jīng)跑在前列,但在今年也承受了很大的壓力。其他還有少數(shù)有競爭力的跟隨者;氐轿覀兦懊嬗懻摰模中國未來我覺得也是云廠商在控制AI供應(yīng)鏈,獨立的大模型還是比較困難的。當然,中國還有一個特殊因素就是國家隊。我覺得應(yīng)該會有國家隊出現(xiàn),或者國家隊支持的創(chuàng)業(yè)公司。
有一個來自EpochAI的圖表,顯示開源模型和閉源模型的時間差距是5-22個月例如GPT-4發(fā)布之后,Llama 3.1大約經(jīng)過16個月時間可追平當時GPT-4的水平。你可以認為開源就代表著行業(yè)的基準線,所以這是一場殘酷的生存之戰(zhàn),即我們的三大閉源模型,它們最多只有22個月來發(fā)展用戶和占領(lǐng)市場,不然行業(yè)就會追趕上來。
所以,如果Llama及Qwen等模型的開源策略不變的話,中外的閉源基座模型都將面臨很大的競爭壓力。開源模型的定位很不錯,抓住了行業(yè)和企業(yè)的開發(fā)者,也包括一些大型企業(yè),大力形成合作生態(tài),并成為了閉源模型很好的跟隨者。當然,國內(nèi)的閉源模型廠商更難受些,無論是大廠還是創(chuàng)業(yè)公司都一樣,因為你在警惕海內(nèi)外開源模型的追趕之余,還要投入巨資持續(xù)追趕全球最領(lǐng)先的模型,窗口期更短。據(jù)說,GPT-4基座模型的訓練成本需要1億美金,而GPT-5或下一代基座模型的訓練成本要達到10億美金。即便是中國的大廠,要拿出10億美金去訓練模型也會面臨挑戰(zhàn)。當然后續(xù)也還存在不確定的因素,那就是如果Meta要花10億美金訓練下一代模型,它還會不會愿意像現(xiàn)在這樣開源?這也是未知因素,所以這個行業(yè)其實存在很多的不確定性。
前面討論了模型,現(xiàn)在講應(yīng)用,為什么覺得AI應(yīng)用不達預期?除了前面提到的收入低之外,還有兩個部分。一方面,我們AI應(yīng)用的前兩位,即用戶量最大的應(yīng)用分別是ChatGPT和Character.ai,ChatGPT的訪問量在經(jīng)歷了早期瘋狂陡峭的曲線上升之后,到2023年夏季突然間走平,到2024年夏季才突然又有上升趨勢,應(yīng)該是GPT-4o發(fā)布的時間節(jié)點,后面的數(shù)據(jù)暫未更新有待觀察。Character.ai更是在2023年下半年訪問量就開始下滑且一直沒有抬頭的趨勢。所以在用戶增長方面,頭部公司面臨一些挑戰(zhàn)。另一方面,把現(xiàn)在的頭部AI應(yīng)用跟互聯(lián)網(wǎng)/移動互聯(lián)網(wǎng)時代的頭部應(yīng)用進行對比,發(fā)現(xiàn)前者的用戶活躍指標遠遠不如后者的,這也是一個不那么理想的情況。
當然這只是現(xiàn)狀,而且有個體原因,但AI作為新興行業(yè),如果頭部企業(yè)不能持續(xù)快速發(fā)展的話,行業(yè)整體都會稍微面臨壓力,我猜主要問題可能還是模型能力不夠,使得我們的AI應(yīng)用對比傳統(tǒng)應(yīng)用拉不開差距。如果我們能夠有新的模型,解鎖更多更強大的能力,就有可能創(chuàng)造出體驗遠超當前的應(yīng)用,說不定會有機會跳過增長陷阱。
據(jù)美國a16z統(tǒng)計,全球用戶訪問排名前50家的應(yīng)用和App中,有52%是創(chuàng)意工具,即圖片視頻編輯工具,這是比較明顯的最大品類。第二大品類是AI + Chatbot,例如ChatGPT這類的大模型助手和Character.ai這類的AI陪伴聊天助手。其他的品類變化不大,所以2024年頭部AI應(yīng)用在品類上也沒產(chǎn)生顯著的變化。
在行業(yè)整體概覽之后,我們來深度講解一下模型的進展。我們先聚焦于OpenAI的o1,o1 代表一種模型新范式,借助思維鏈,帶來復雜推理能力的增強。推理Reasoning,是指使用理性思維和認知過程,從現(xiàn)有知識中推斷出新知識。這是人類一個非常強大的能力,包括常識推理、數(shù)學推理、符號推理、因果推理等。
那么思維鏈是什么?思維鏈是指一系列中間推理的步驟。人在思考一個復雜問題的時候,他腦子里是有一個思維鏈條甚至是思維樹、思維圖的,這些統(tǒng)稱為思維鏈。在思考過程中如果發(fā)現(xiàn)走這一步不行,那就退回到前面的步驟進一步探索。但是我們今天的預訓練模型例如GPT-4,是沒有回退的能力,它的工作模式就像“文字接龍”,每次出一個字(token),如果你走了十步,發(fā)現(xiàn)前面有個字出錯了,是沒有辦法退回來的,只能在后面進行修補,但這可能就修補不來。這只是個不準確的簡單比喻,但有助于我們理解為什么當前的基座模型,在復雜推理等方面的能力不如人類。
今天,o1就有比較強大的復雜推理能力。如果我們提問題,它會先思考,而不是馬上給出答案,在思考過程中做思維鏈的搜索或遍歷,遍歷結(jié)束后它會開始說出結(jié)論。在我這個演示里,它給出了結(jié)論結(jié)果之后,還會有一個叫思維鏈步驟的總結(jié),這里它總結(jié)出9個思考步驟,但是它其實有個隱含的復雜思維鏈,根據(jù)OpenAI的論文,以上述9個思考步驟的思維鏈為例,隱含的思考過程大概有600多行文字,每一行都有點像自言自語,是“我做了這個、我猜可能什么樣、發(fā)現(xiàn)不是我又回退到前面什么地方”,這個過程就非常類似人類的思考過程,更接近復雜推理能力。
復雜推理的評測標準是什么?一個是AIME,即美國數(shù)學邀請賽;另外一個是Codeforces,非常難的編程競賽;還有一個是GPQA,博士級的科學問題。o1的回答明顯超過之前其他模型,部分評測超過人類專家。而o3在o1基礎(chǔ)上能力又有大幅提升。OpenAI在今年7月份發(fā)布了基座模型的5個能力等級,并認為當前的o1或o3已經(jīng)達到第二等級即“推理者”的水平,就是推理能力比較強、能夠執(zhí)行基本任務(wù)的等級,相當于沒有任何工具的博士學位水平的人類。
簡單理解,我覺得AI模型的學習分為兩個步驟。第一個步驟是GPT類型的預訓練,利用大量的人類文本數(shù)據(jù)去訓練,可以理解為是“模仿學習”,模仿人類如何遣詞造句、怎么做思考等等。而到了當前階段,可供模仿的互聯(lián)網(wǎng)數(shù)據(jù)已經(jīng)差不多用完了,這時候o1、o3這類模型,開始選擇用“強化學習”,通過主動探索和自我博弈之類的方式生成數(shù)據(jù),基于思維鏈等方式來進行模型的訓練和推理,并實現(xiàn)“測試時間計算”。
做個類比,有點像一位武學大師,年輕的時候跟師傅學習,學得挺好,但是超過師傅之后,如果找不到更好的師傅怎么辦呢?他只能自我學習,自己摸索著前進。
之前下圍棋的AI模型(AlphaGo和AlphaZero)也是如此。AlphaGo原先是利用人類棋譜訓練,到達一定程度后棋力升級乏力,然后AlphaZero就出來了,它完全扔掉人類棋譜,依靠自我博弈來訓練自己,達到更高的境界。這也是模仿學習和強化學習逐步遞進的案例之一。所以其實技術(shù)上有很多概念是互通的。
o1或o3這類AI模型的強化學習難度比圍棋更大,因為圍棋是有簡單的評測標準的(例如輸贏),而AI模型在大部分情況下拿不到準確的評測信號。不過很聰明的一點是,這次它們拉來一個幫手,即之前模仿學習訓練出來的GPT這類預訓練模型,后者可以幫助生成更好的評測信號,從而幫助o1或者o3的強化學習訓練。
最近有一個討論是關(guān)于陶哲軒和Mark Chen的,陶哲軒是著名數(shù)學家和菲爾茨獎獲得者,Mark Chen是OpenAI的研發(fā)副總裁。陶哲軒說,AI不擅長找到正確的問題,但它可以在一個更大的項目中處理非常狹窄的特定部分,類似于在僅有稀疏數(shù)據(jù)時產(chǎn)生推理,所以這個能力很強大,來自于直覺和經(jīng)驗。Mark Chen則說,我們現(xiàn)在正在做test time computer,即測試時間計算,他認為這個是可以超越當前推理能力,在稀疏數(shù)據(jù)條件下達到與人類類似的直覺式的推理。我覺得兩者都是有道理的,陶哲軒那個時候還只在用GPT-4,用AI作為數(shù)據(jù)科研,當時的GPT4預訓練模型確實只有這個能力,但是Mark Chen說的也有道理,因為像o3這樣的新模型確實有能力達到這個水平。
因為o3是今天(北京時間12月21日)凌晨4點發(fā)布的,我特地添加了一頁PPT。模型的三大能力之一是編碼編程,數(shù)據(jù)集評測分數(shù)比o1提高到70%多。我們投資了一家做AI Coding應(yīng)用的公司,創(chuàng)始人跟我說,如果模型在高難度編程測試數(shù)據(jù)集的評測分數(shù)超過70%,基本就算可實用了,因為我們可以想些其他辦法降低實際應(yīng)用的難度,讓70%的模型能力做到接近100%的應(yīng)用能力,所以70%以上模型基本就夠用了。此外,o3的美國數(shù)學競賽和科學問題的得分也明顯高于o1。
這里還想提一點,按照OpenAI官方的說法,o1是一個大型推理模型,是用強化學習來訓練的語言模型,o3只不過進一步地擴展了強化學習的規(guī)模,但是短短的三個月時間內(nèi)讓o3相對o1有那么大的提升,還是非常令人驚喜的。這還可能只是第一步,后續(xù)應(yīng)該還有進一步提升和優(yōu)化的空間。當然,o3的運行成本非常貴,據(jù)非官方測算,最高配置的o3回答一個問題的成本可達2500美元。但我覺得,未來成本問題是可以逐步解決的。
去年我在這也提到過多模態(tài),當時業(yè)界認為視頻會在2024取得突破,今年果然有突破。突破的標準是,我們看到有些公司開始用這些視頻生成工具來生產(chǎn)廣告或者影視作品的原始素材。多模態(tài)其實只是人類的概念,如果從AI模型的角度來說,各種模態(tài)在它的“腦!崩锒际且粋高維空間的向量。例如GPT-3.5模型的向量是12288維的,后來維度有所降低和優(yōu)化。所以無論是文本、圖像,還是視頻,對AI模型來說都是向量。向量就可以相互做計算,比如以前我們說的“國王”這個向量,減去一個“男人”向量,加上一個“女人”向量,就得到一個“女皇”或“皇后”向量。AI模型的訓練和推理,本質(zhì)上都是在進行類似的向量計算。但是因為AI模型需要跟人類交流,它還是需要認識我們的多模態(tài)數(shù)據(jù),另外也需要輸出多模態(tài)數(shù)據(jù),所以就有個“解構(gòu)”和“重構(gòu)”的過程,這個過程就要借助一些算法。其實我們今天看到的算法,包括大家都知道的擴散模型(Diffusion Model)、神經(jīng)輻射場(NeRF)等都是一些非常有意思的算法。
以AI畫圖為例,一般人類畫師如果繪圖,他會找張白紙,先勾勒出大致形象,然后逐步補充細節(jié),再去染色,最后做些小的修補,一步步生產(chǎn)出一張畫像。但是AI畫圖并不遵循這樣的流程。以Diffusion Model為例,它首先生成一張原圖(其實是一張隨機生成的噪聲圖,即各向同性高斯分布的噪聲圖),就是PPT里左上角的一塊圖,然后AI模型在提示詞的指導下,每次生成一張去噪圖(其實也是一張噪聲圖),并從原圖中去掉這個去噪圖,這樣循環(huán)操作,經(jīng)過幾十步或者上百步的去噪過程,就畫出這張帶著帽子的女士的畫像。這個操作很違背我們?nèi)祟惖闹庇X,人類直覺不會覺得還能這樣畫圖,但AI就是這么理解、這么畫圖的,這甚至可能比人類還高效。這些算法比較復雜,大家沒必要都仔細去了解,但是這些算法確實非常神奇。
今天的多模態(tài)其實還是以文本作為主模態(tài)的,因為其他模態(tài)都是通過文本模態(tài)做的“轉(zhuǎn)譯”或映射。這個“轉(zhuǎn)譯”原理有個通俗的比喻,如果AI看到一張圖,它會先進行“看圖寫作”,寫一篇很長的作文來描述這張圖,然后把這篇作文的文本作為整體映射到語言的高維空間里,形成一個高維向量,這個向量就是這張圖的向量。所以它是借助于文本這個載體映射到高維空間里面去的。
模態(tài)的概念是可以延展的,不僅僅是當前的文本、圖像和視頻這幾類模態(tài),像Alpha FOLD生成的蛋白質(zhì)三維結(jié)構(gòu),兩人對話形式的播客等都可以算是一類模態(tài)。我們峰瑞投資的一家公司叫Top view.AI,其目標就是給TikTok或者Instagram的商家制作商業(yè)視頻,但是它基本上無需人工介入即可完成大部分工作,我們只要提供商品詳情頁的鏈接,它可以自己抓取文本、圖像、視頻,融入指定的數(shù)字人的形象,然后自動進行劇本創(chuàng)作、配音配樂和視頻剪輯合成等一系列工作,最后完成視頻。
今年有個詞特別流行,叫“世界模型”,它到底是什么?首先說我們?yōu)槭裁葱枰澜缒P。我剛才講到文本是主模態(tài),其他模態(tài)通過文本映射進入這個高維空間,但是文本難以準確表達物理世界,比如說復雜的空間關(guān)系,寫作文來表達它很困難,再比如說物理屬性,杯子摔下來可能會碎,那這種情況應(yīng)該怎么去描述?不可描述。所以大家認為,是不是還應(yīng)該再做一個模型,使其天然就具備一些視覺的能力,我們叫感知。例如,我今天站在講臺上往前看,我會迅速感知到在中歐工商學院,Alpha峰會的現(xiàn)場是什么樣,有個整體感知,就不需要通過文本去映射其他模態(tài),而且感知之后我還可以預測,預測之后還可以跟這個物理世界做交互。這些就屬于“世界模型”的基本概念。總結(jié)一下,大語言模型形成了一個基于文本的“世界模型”,而文本是一種抽象,它有損失,所以我們要做一個“視覺”的世界模型。Yann LeCun提出的“世界模型”,李飛飛提出的“空間智能”,其中都有類似的概念。
被稱為OpenCV之父的知名AI專家Gary Bradski,提出了一個“WHAT-WHERE-WHY”框架,可用來簡單解釋什么是“世界模型”!癢hat”指我看一眼知道今天有誰,有些什么東西,有什么事件;“Where”指在哪里,即它的位置,以及相互之間的空間關(guān)系;“Why”指事件背后的因果關(guān)系或目的等,以今天我的AI分享為例,聽眾們是金融行業(yè)的翹楚,過來想了解一下AI行業(yè)的發(fā)展情況,這就是一個前因后果的實例。這個模型比較簡單,有助于我們理解“世界模型”的基本概念。
前面探討了模型的算法,現(xiàn)在講講算力。馬斯克建造的十萬卡的集群,是全球最大的集群之一,當前,其他公司都在追趕,面臨著不小的競爭壓力。從數(shù)字上來說,四巨頭在2024年的資本支出超過2000億美元,大部分可能都投入在了數(shù)據(jù)中心建設(shè)上,據(jù)說訓練下一代模型的算力需要10倍,也有人說下一個階段數(shù)據(jù)中心物理建設(shè)的重要程度將超過科學發(fā)現(xiàn)。
接下來我們討論數(shù)據(jù)。眾所周知,算法、算力和數(shù)據(jù)被普遍視為模型的三大生產(chǎn)資料。在AI領(lǐng)域構(gòu)建一個大模型的時候,前面的預訓練階段已經(jīng)使用了大部分數(shù)據(jù),剩余的人類數(shù)據(jù)比較少,就需要大量的前沿數(shù)據(jù)來訓練。當前,預訓練模型的能力邊界是數(shù)據(jù),數(shù)據(jù)到不了的地方模型就不能模仿,所以要沿著它的能力邊界去構(gòu)建一些數(shù)據(jù),從而幫助模型產(chǎn)生相應(yīng)的能力。因此前沿數(shù)據(jù)的重要性凸顯。現(xiàn)在比較缺乏的是復雜推理、專業(yè)知識、人類思維模式等這類高品質(zhì)的數(shù)據(jù)。
但是我們還有一條路徑,就是所謂的算法合成數(shù)據(jù),包括今天提到的強化學習、自我博弈,這些都是新的方法,但反過來講,強化學習又需要新的數(shù)據(jù)來訓練它的能力,所以這三者是非常耦合的關(guān)系。我們投資了一家做數(shù)據(jù)工程的公司,人機結(jié)合來標注數(shù)據(jù),也積極利用算法來合成數(shù)據(jù),這家公司當前也在積極出海。這個領(lǐng)域的頭部的公司叫Scale AI,盈利能力很強,估值也很高。
再來談?wù)凙I應(yīng)用,我覺得AI應(yīng)用跟傳統(tǒng)互聯(lián)網(wǎng)應(yīng)用不太一樣。我們以前一般把應(yīng)用分為兩大類,一個叫ToB,一個叫ToC,但我覺得今天在AI行業(yè),應(yīng)該有一個新的分類叫ToP(Prosumer,專業(yè)用戶),這個類別的應(yīng)用當前在用戶增長和商業(yè)化方面表現(xiàn)出色。Prosumer包括比如說內(nèi)容創(chuàng)作者,這就是創(chuàng)作者經(jīng)濟,從業(yè)者估計有1億以上。還包括一些專業(yè)從業(yè)者、技術(shù)專家、深度用戶等,這些都是未來的超級個體。這類人有明確的需求,熱愛學習,能夠積極學習去掌握一個功能強大但上手操作并不簡單的AI工具,我覺得這些專業(yè)用戶是當前最理想的AI應(yīng)用使用者和付費方。今天ChatGPT 大家說可能是ToC,但我覺得它是ToP,因為說句實在話,我身邊也很少有人能夠真正地把ChatGPT、豆包、Kimi這類AI工具用好。我最近寫一篇文章,在整理思路、構(gòu)建框架、形成初稿和文字潤色等各個方面,高強度地使用了ChatGPT,感覺寫作效率和寫作質(zhì)量都有大幅提升,這個過程讓我深刻體驗到這類AI應(yīng)用對于專業(yè)用戶的價值。
這只是一個案例,說明當我們要真正把AI作為深度生產(chǎn)力工具的時候,首先會面臨一條陡峭的學習曲線,并非所有人都能學會,掌握后還要容忍它出錯,因為盡管AI強大,它也容易出錯,產(chǎn)生幻覺,所以我們還要有能力去判斷,不能盲目接受。具備這類能力的人當前還不多,我覺得在座都可以是這樣的專業(yè)用戶,但一定要廣泛嘗試和深度使用AI工具。
我也想鼓勵AI應(yīng)用的創(chuàng)業(yè)者先做ToP這個市場,要找各行各業(yè)的專業(yè)用戶,給專業(yè)用戶先提供一個功能強大工具,體驗要明顯優(yōu)于傳統(tǒng)互聯(lián)網(wǎng)應(yīng)用,偶爾不穩(wěn)定和出錯也沒關(guān)系。這類工具先從ToP做起來,后續(xù)有機會可以往ToB或ToC去延展。前面我們提到的多模態(tài)創(chuàng)意工具大部分也屬于ToP, ChatGPT本質(zhì)上也是ToP,當前To P應(yīng)用明顯占優(yōu),用戶增長不錯、營收能力也強。
第二個就是ToB,面向企業(yè)提供服務(wù)。因為人類的工作流程很復雜,再加上人機混合的難度,AI應(yīng)用切入進來不太容易。所以我覺得它可能應(yīng)該先從一些獨立的業(yè)務(wù)模塊或者標準的技能模塊切入進來。
第三個是ToC,ToC的話感覺是顛覆時刻未到,我覺得核心原因是模型的能力還不足夠。舉個例子,我們之前看過一些項目,讓AI在小紅書等社交媒體發(fā)帶貨文章來掙錢,能形成一定的收入;但是后續(xù)我們發(fā)現(xiàn),它寫的文章并不能有效漲粉,阻礙了這類應(yīng)用的進一步發(fā)展。為什么呢?我覺得,今天的語言模型可以寫出中上水平的內(nèi)容,但要創(chuàng)作出圈粉的文章,預訓練模型的自己能力還達不到,可能需要大量人類的參與和指導。o1、o3這類模型之后情況可能會有所好轉(zhuǎn)嗎?暫不可知。現(xiàn)在很多ToC的AI應(yīng)用都跟上述案例類似,就是功能雖然不錯,但是跟傳統(tǒng)軟件相比的功能領(lǐng)先優(yōu)勢不大。
進入到最后一部分展望和挑戰(zhàn)。關(guān)于挑戰(zhàn),一個顯著的問題是產(chǎn)品落地緩慢,技術(shù)應(yīng)用周期長。核心原因可能是大家都認識到AI要競爭過傳統(tǒng)移動互聯(lián)網(wǎng),產(chǎn)品體驗是一定不能減分的,成本可以初期承受損失,之后再慢慢降低。但因為模型能力還不足夠,產(chǎn)品質(zhì)量很難達到八九十分的水準,可能就只有六十分甚至不及格。
還有一點,現(xiàn)在用戶會變得越來越希望AI成為貼心的助手,當我問什么問題,AI可以精確判斷我的意圖,直接給我需要的反饋結(jié)果,而不是給我一堆搜索答案、或者需要讓我多次交互。未來的AI應(yīng)用,一定需要服務(wù)用戶較長時間,對用戶的習慣(“上下文”)有深度理解和長期記憶,當用戶問個問題,AI就能知道用戶問題背后的需求,從而直接給出準確的答案,甚至給出一些用戶自己都沒想到的答復,這才是AI時代的應(yīng)用產(chǎn)品應(yīng)該具備的模樣。如果做出這種產(chǎn)品,相信它絕對可以打敗現(xiàn)有的基于移動互聯(lián)網(wǎng)的傳統(tǒng)應(yīng)用產(chǎn)品。但是這對模型的要求很高,對產(chǎn)品的設(shè)計、建構(gòu)、規(guī)劃都有很大的壓力。
關(guān)于2025年的行業(yè)期望,有以下幾點。一是模型逐漸成熟(特別是在o1、o3等新模型的加持之下),AI應(yīng)用落地取得階段性的成果,我覺得2025年可能會成為AI應(yīng)用的大年,AI供應(yīng)鏈的資產(chǎn)負債表可能會逐步得到修復。
二是關(guān)于模型的優(yōu)化,比如“世界模型”與物理世界融合的推進,無論是對自動駕駛還是智能機器人,我覺得都會有很大幫助。三是多模態(tài)融合,我覺得還可以更進一步。四是模型的可解釋性與安全性,我們叫可解釋性是因為它是個黑盒子,你不知道它在想什么東西。AI模型是高階智慧,它的能力未來會超過人類,我們需要了解它到底在想什么,然而這是一項極具挑戰(zhàn)性的任務(wù),現(xiàn)階段還沒有成熟的方法,但這也是我們想要的,否則你真的很難控制一個能力這么強、但是又不聽你的模型。
人類的勞動分為體力勞動和腦力勞動,其中腦力勞動以知識、智力和創(chuàng)造力為核心。但是今天,我覺得AI在解構(gòu)人類的勞動,未來AI也會具備這樣的勞動能力,甚至超過人類。AI 還有一點比人強,人類培養(yǎng)出一個愛因斯坦這樣的頂尖科學家非常難,卻很難將其能力復制給其他人,而AI一旦訓練出一位頂尖科學家,它可以迅速批量復制。所以最后這些人類引以為傲的腦力勞動能力,可能未來AI都會具備,而且經(jīng)過規(guī);瘡椭坪,最終會以軟件化的方式低成本提供。如果再加上具身智能的機器人,體力勞動也可能被大范圍替代。
所以,未來的勞動可能會軟件化,就像即插即用的工具一樣來獲取。當然我覺得大家也不必過于緊張,這還是很遙遠的事情,而且我們?nèi)祟愡會找到自己跟AI相處的方式;氐疆斍,我覺得最重要的是,我們在座各位,大家要多用AI工具,多了解它的能力,多了解它的不足。在這個過程中我們也能有一些新的思考和進步,對我們自己的事業(yè)、工作和生活也會有很大的促進,希望大家有機會一定要認真地去用當前的AI,用AI工具把自己武裝起來,成為未來的“超級個體”,謝謝大家!
Alpha峰會由全新林肯飛行家AVIATOR為您特約呈現(xiàn)
即刻啟程,從容駕馭2025全球投資之旅
本文來自華爾街見聞,歡迎下載APP查看更多