“我認為2025年將至關重要。我認為我們必須意識到這一刻的緊迫性,并需要作為一家公司加快步伐。風險很高。這些都是顛覆性的時刻。在2025年,我們需要堅持不懈地專注于釋放這項技術的優(yōu)勢并解決真正的用戶問題!12月18日舉行的2025年戰(zhàn)略會議上,谷歌首席執(zhí)行官桑達爾皮查伊(Sundar Pichai)如是說。
聽起來像是公司生死存亡的時刻,事實是遠沒有到這地步。谷歌剛剛經(jīng)歷了一個揚眉吐氣的12月,當然揚眉吐氣之前是灰頭喪氣。
而在2023-2024年,能讓谷歌的命運如此波折的事件,只有當下最受矚目的新賽道大模型。谷歌在大模型的賽場上可謂受盡了冷眼和嘲諷。
首先要說,谷歌的大模型或者人工智能起步非常早,幾乎是Mag-7中起步最早的,甚至在OpenAI發(fā)布了3.5之后,馬上在2023年發(fā)布了自己的第一代成熟大模型Bard。但幾乎招來的不是贊嘆,而是近乎嘲諷的對待,股價也隨之低迷。直到現(xiàn)在,谷歌仍然是Mag-7中PE最低的。
作為上個移動互聯(lián)網(wǎng)時代的絕對勝利者,早在2001年就已經(jīng)開始機器學習研究的谷歌來說,這是無法容忍的。
01 坎坷的大模型之旅起大早趕晚集作為上個移動互聯(lián)網(wǎng)時代絕對的勝利者,谷歌向來在技術儲備和技術創(chuàng)新方面不遜色于任何公司。尤其是在深度學習、神經(jīng)網(wǎng)絡這類人工智能領域,需要絕對比拼算力和算法的領域,谷歌一直都處于領導地位。
2001年,谷歌開始利用機器學習來幫助人們糾正關鍵詞輸入的錯誤拼寫。
2006年,推出基于機器學習的谷歌翻譯。
2015年,開源機器學習框架 TensorFlow推出,使得人工智能更易于訪問、可擴展和高效,由此推薦算法進入主流移動應用場景。
2016年,DeepMind開發(fā)的AlphaGo擊敗世界圍棋冠軍,人工智能這個曾經(jīng)出現(xiàn)在科幻作品中的詞匯變成現(xiàn)實。
同年,DeepMind就推出了機器學習發(fā)明并針對 TensorFlow 優(yōu)化的定制芯片TPU,這種定制化芯片可以更快、更有針對性地訓練和運行AI模型,2024年12月谷歌的新一代大模型Gemini 2.0 就是基于第六代TPU訓練得來。
2017年,谷歌推出了新型神經(jīng)網(wǎng)絡架構(gòu)Transformer,奠定了生成式 AI 系統(tǒng)的基石。
2019年2月,GPT-2正式基于Transformer架構(gòu)的語言模型,隨后催生了GPT-3.5、GPT 4.0,GPT o1等等。遺憾的是,谷歌自己的初代大模型反而不是基于Transformer架構(gòu)。
競爭來的太快太急為了應對2022年底GPT-3.5的爆紅,2023年2月6日谷歌發(fā)布大模型Bard,3月份首批在美國和英國推出。
初代版本的Bard,是基于谷歌2021年發(fā)布的LaMDA(Language Models for Dialog Applications)大模型。這款模型具有多達 1370 億個參數(shù),更注重自然對話能力,對于信息和數(shù)據(jù)處理的能力不夠強,因此在巴黎的直播發(fā)布會中表現(xiàn)不佳,導致谷歌的股價下跌了8%。
谷歌內(nèi)部和媒體紛紛批評和質(zhì)疑谷歌的大模型能力。我們的測試中,也發(fā)現(xiàn)和ChatGPT相比,Bard更像是上個時代的產(chǎn)物,對話效果比Apple的Siri好不了多少。
2023年4月10日,Bard的底層模型升級為更強大的通用語言模型PaLM(Pathways Language Model)。和前代LaMDA模型相比,PaLM擁有更強大的語言理解和生成能力,對話過程更為流暢自然。
5月10日,Bard升級為PaLM2大模型,在PaLM的基礎上增加大大提升了邏輯推理能力,來減少對話中的笑話。谷歌在這個階段開始了大模型和自身產(chǎn)品的集成,從PaLM2開始大模型已經(jīng)為多款 Google產(chǎn)品提供生成式AI功能,包括Gmail 和Workspace等。
一直到2023年12月,Bard才再次迎來大升級,谷歌官方給出的表現(xiàn)報告顯示Gemini Pro性能表現(xiàn)全面超越GPT-3.5,模型從PaLM切換為Gemini Pro。Gemini Pro在文本理解、總結(jié)、推理、編碼和規(guī)劃等方面都得到了顯著加強。
在整個2023年中,盡管谷歌在不斷迭代模型,但始終并未進入“大模型頂流”行列,甚至應用范圍沒有走出谷歌自己的生態(tài)鏈。要知道彼時已經(jīng)有不少套殼產(chǎn)品依靠OpenAI的chatgpt開始盈利了。
谷歌周圍,強敵環(huán)伺。OpenAI占據(jù)大模型絕對的領頭羊第二,Anthropic的Claude每次迭代都能帶來驚喜,并不斷投Amazon等一輪輪融資,大有趕超OpenAI氣勢。Meta索性將自家大模型開源,劍走偏鋒。
谷歌自己的基本盤搜索業(yè)務上,又有垂直AI搜索產(chǎn)品Preplexy爆火,直接改革了搜索結(jié)果這一谷歌搜索廣告的重要流量源。
谷歌大概很多年沒有感受到這么強烈的危機感了。大模型競賽就像一場開卷考試,比拼的就是算法、算力和基建,幸好這幾樣谷歌都不缺。
老牌霸主憑實力趕上2024年2月8日 Bard正式更名為Gemini,谷歌開始了趕超之旅。
2024年5月14日Gemini 1.5Pro和Gemini1.5Pro,2024年12月6日Gemini發(fā)布2.0 Flash。
在迎頭趕上垂直大模型產(chǎn)品之外,谷歌還拓展了大模型外圍產(chǎn)品,廣受好評的就是NotebookLM。
NotebookLM是2024年9月份谷歌發(fā)布了一款AI筆記應用。該產(chǎn)品可以對輸入進行理解和摘要,生成一個對談式的音頻內(nèi)容,堪稱播客制作的先天圣體。12月份NotebookLM進行了重大升級,包括新外觀、新功能(例如“加入”音頻概覽以與主持人交談的能力)以及高級版本 NotebookLM Plus。
我們在測試了兩款由該筆記應用制作的播客節(jié)目,談話的嫻熟程度已經(jīng)超過播客從業(yè)者初級水平,AI主持人的音色自然,聊天過程中的不乏由談話內(nèi)容產(chǎn)生的抑揚頓挫,幾乎無法識別是真人還是AI節(jié)目。唯一的不足就是對內(nèi)容的理解,過于“AI”化,對輸入內(nèi)容的挖掘無法跟進時下熱門內(nèi)容。
但這款AI音頻制作工具帶來的強大效率是真人播客無法比擬的,不僅可以應用在播客制作,還可以應用在論文理解和解讀方面,大大降低了人們對高深內(nèi)容的閱讀門檻。Spotify Wrapped 的粉絲們推出一檔Spotify Wrapped AI 播客,該播客完全使用NotebookLM 構(gòu)建。
多模態(tài)方面 ,2024年2月,谷歌推出了文生圖模型Imagen 2。但推出后不久,就被用戶發(fā)現(xiàn)混淆了真實歷史錯誤而蒙上陰影。隨后進行“回爐再造”直到8月才迭代到Imagen 3。
重生后的Imagen 3模型細節(jié)準確性方面得到了增強,并支持多種畫面各種風格和更豐富的紋理,文生圖像質(zhì)量得到顯著提高。
5月份,谷歌發(fā)布視頻生成模型Veo來對抗OpenAI的Sora。初期Veo主要面向內(nèi)容創(chuàng)作者,可以支持高清晰度的視頻生成,用戶能夠輕松制作分辨率達1080p、時長超過60秒的高質(zhì)量視頻,還支持多種電影效果的視頻風格。
多家媒體測評發(fā)現(xiàn),盡管Veo在畫質(zhì)方面細膩度更勝一籌,但視頻內(nèi)容“科幻感”太強,無法做到Sora的現(xiàn)實感,幾乎一眼假。
DeepMind還為天氣預測研發(fā)了AI天氣模型GenCast,可以做到比其他天氣預報系統(tǒng)提前15天預報氣象變化,這對于農(nóng)業(yè)地區(qū)氣象災難預警極為有利。
2024年10月份DeepMind因為蛋白質(zhì)結(jié)構(gòu)預測模型AlphaFold順便拿了一個諾貝爾化學獎,盡管是和David Baker均分的。無論是天氣還是在生物醫(yī)藥領域,都表明谷歌AI在科研領域滲透遠超OpenAI等AI新秀。
豐收的月份經(jīng)過2024年一年的煎熬和打磨,谷歌找到了自己的節(jié)奏,在24年最后一個月份迎來了豐收。不僅以Gemini 2.0打破了OpenAI連續(xù)12天產(chǎn)品發(fā)布會的連續(xù)劇,更是以量子芯片Willow證明了自己在科技界不可撼動的地位。
12月11日Gemini 2.0發(fā)布前,谷歌已經(jīng)“不引人注意”地發(fā)布了gemini-exp-1206模型。這是一款實驗性模型,甫一發(fā)布就在小范圍內(nèi)成為了多個LLM評分榜單的top,甚至超過自家后來發(fā)布的2.0 flash。預計這個版本的模型會是未來更先進模型的測試版。
更轟動的當然是12月11日的Gemini 2.0 Flash,從“flash”這個單詞可以看出,大概率這還不是Gemini 2.0的完整版,但目前釋放出的功能就足以幫谷歌拿回技術引領者地位。
其強大之處不僅在于強大的推理能力,更在于一步到位的多模態(tài)支持能力。
這點和OpenAI相比就良心很多,說實話這兩年OpenAI的發(fā)布有點像評估的擠牙膏,每隔一段時間就發(fā)布一款模型,能力上絕對高于上一代,但提高的不多,對于多模態(tài)的支持更是相當滯后。
Gemini 2.0 Flash比上一代的推理能力更強,響應速度更快。谷歌官方稱,2.0 Flash 在關鍵基準測試中甚至比 1.5 Pro 更快,速度是 1.5 Pro 的兩倍。
2.0 Flash作為一款原生多模態(tài)模型,可以支持圖像、視頻和音頻等多種信息模態(tài)的輸入和輸出。還可以原生調(diào)用 Google 搜索、代碼執(zhí)行等工具以及第三方用戶定義函數(shù)。尤其是在數(shù)學運算、編程等方面,lmarena ai給出的評測結(jié)果是力壓OpenAI 的o1-preview和o1-mini。
除了性能和多模態(tài)能力的提升外,Gemini 2.0 Flash也在積極推進AI代理的產(chǎn)品形態(tài)演進和應用,伴隨這次模型發(fā)布谷歌還推出了一系列相關功能,包括對多模態(tài)人工智能助手Project Astra 的更新,推出了瀏覽器助手Project Mariner和代碼助手Jules。
人工智能助理Project Astra最早于2024年5月推出,用戶可以借助攝像頭、麥克風等端口和AI互動,用來進行物體識別、語音信息交互等操作。更新之后的Project Astra增加了對多語言、口音和生僻詞的支持。同時和谷歌產(chǎn)品生態(tài)進行了更好的融合,借助Project Astra用戶可以使用谷歌的搜索、Lens和地圖產(chǎn)品,增加了上下文記憶功能,可以擁有長達10分鐘的對話記憶,語音延遲方面也有了很大的改善。
現(xiàn)階段的Project Mariner以一款實驗性質(zhì)的瀏覽器擴展形態(tài)存在,該拓展可以理解當前頁面上的像素、文本、代碼、圖像和表單等元素,并根據(jù)用戶的指令輸入完成特定的任務,如下單購物、填寫表單、瀏覽關閉等操作。
Jules是一款為開發(fā)者打造的代碼助理,目前已經(jīng)集成到GitHub 工作流中,幫助開發(fā)者進行代碼分析和指導。
這次發(fā)布還推出了二代的視頻和圖像生成模型,Veo 2 和 Imagen 3。視頻大模型Veo2,基于對現(xiàn)實世界的物理有了更好的理解因此它可以制作出非常高質(zhì)量的視頻,整體上細節(jié)和真實感都有所提高。
以及為研究人員打造的研究工具Deep Research,它直接使用高級推理模式幫助研究人員進行研究主題的探索和編寫研究報告,根據(jù)筆者在多個社媒論壇潛水發(fā)現(xiàn)不僅各類學科的學生、教師群體第一時間已經(jīng)使用上了Deep Research,某些從事復雜技術工作的企事業(yè)員工也正常嘗試將其作為大模型的首選產(chǎn)品。
可以說這次發(fā)布會將谷歌帶回了人工智能超一流行當,取得了大模型競賽階段性的全方位的勝利。更重要的是,借助其產(chǎn)品生態(tài)鏈完整的優(yōu)勢,谷歌有能力在AI大模型競賽的下一個賽場AI Agent研發(fā)和應用上比其他廠商走的更遠。
谷歌的在大模型領域的領先不僅包含其“大模型”產(chǎn)品本身的性能、多模態(tài)能力領先,更包含谷歌在模型芯片、模型訓練平臺和下游應用場景的全方位覆蓋。
隨著2.0flash模型的發(fā)布,其背后的核心硬件也浮出水面第六代TPUTrillium。Gemini2.0的訓練和推理100%由該芯片支持。
TrilliumTPU是谷歌云AI超級計算機的關鍵組件,這是一種突破性的超級計算機架構(gòu),它采用性能優(yōu)化的硬件、開放式軟件、領先的ML框架和靈活的消費模型的集成系統(tǒng)。
與上一代TPU v5e相比,Trillium TPU可將密集型LLM(如Llama-2-70b和gpt3-175b)的訓練速度提高高達4倍,將MoE模型的訓練速度提高高達3.8倍。主機動態(tài)隨機存取內(nèi)存(DRAM)是v5e的3倍,有助于最大限度地提高性能和規(guī)模吞吐量。
現(xiàn)在Trillium已經(jīng)走向?qū)嶋H應用階段,任何廠商都可以購買來構(gòu)建自己的大模型產(chǎn)品。
但面對NVIDIA的強大競爭壓力,Trillium目前只取得了參數(shù)層面的領先,以及一個成功的大模型案例,其與上下游硬件的兼容能力和業(yè)界的接受度還需要時間的檢驗。
02 谷歌的優(yōu)勢和隱憂優(yōu)勢:生態(tài)與金錢一直以來谷歌都是個“愛折騰”的公司,最為著名的就是曾經(jīng)的“谷歌20%時間政策”,允許谷歌員工每周可以花費20%的工作時間開展自己感興趣的項目。在類似的鼓勵創(chuàng)新的企業(yè)氛圍下,谷歌內(nèi)部誕生了大量大大小小的項目,盡管大部分都悄然下線,但其中也誕生了不少至今仍帶給谷歌滾滾財源的營收產(chǎn)品,據(jù)說Gmail、Adsense就是這一政策的產(chǎn)物。
這條政策能夠執(zhí)行至今,都說明谷歌是個鼓勵創(chuàng)新的企業(yè),這是新技術和新產(chǎn)品的溫床。
除了鼓勵創(chuàng)新,谷歌在算力、云服務方面的基建能力和技術架構(gòu)、人才儲備是其他垂直廠商和Meta、Amazon等大公司短時間無法追趕的。
除了發(fā)展大模型所必須的軟硬件條件,下游應用生態(tài)的比拼中谷歌也是一枝獨秀。谷歌自己的視頻平臺Youtube天然就是多模態(tài)最佳應用場景、谷歌的搜索已經(jīng)上線了AI Overview來應對Preplexity AI的追趕。谷歌的無人駕駛平臺Waymo,未來也未必不能應用語音模型產(chǎn)品。
豐富的產(chǎn)品生態(tài),使得谷歌可以嘗試AI Agent、AI硬件、機器人多個方向的大模型應用。更重要的,谷歌有錢。
根據(jù)三季度財報,谷歌當季營收883 億美元,同比增幅達到16%,凈利潤263億美元,同比增長35%。谷歌云服務營收114億美元,同比增長 35%。三季度實現(xiàn)了 176 億美元的自由現(xiàn)金流,季度末現(xiàn)金儲備達到了930億美元。
經(jīng)過兩年的大模型競賽,谷歌依然手握近千億美元現(xiàn)金。這樣大的現(xiàn)金儲備,什么算力、芯片、人才問題還會是問題嗎?
谷歌幾乎具備大模型從0到1,再到100以至于工業(yè)級應用所需的軟硬件條件。只要管理層不再像2023年初那樣亂了節(jié)奏,大模型給谷歌的營收和股價貢獻力量是就是不遠的現(xiàn)實。
隱憂:反壟斷風險谷歌的股價偏低,其主要原因就是反壟斷官司可能導致的業(yè)務被拆分的風險。最新的反壟斷審判中谷歌落敗之后,給谷歌核心業(yè)務的前景蒙上一層陰影。
美國司法部(DOJ)要求谷歌出售Chrome瀏覽器,解除與蘋果等公司達成的搜索引擎默認位置的協(xié)議,甚至未來可能要求出售安卓操作系統(tǒng)。
這一系列要求對于谷歌最為核心的搜索業(yè)務無疑會造成巨大的影響,其他這幾項調(diào)整關系到搜索的主要流量入口,沒有這幾個入口谷歌搜索的市占率勢必會受到影響,進而影響到搜索廣告的收入。出售安卓操作系統(tǒng)則可能會影響谷歌的移動端應用生態(tài)完整性。
為了應對司法部的要求,谷歌提出數(shù)項針對性瀏覽器協(xié)議、Android廠商的谷歌商店和瀏覽器改為非獨占性質(zhì),或者是搜索的默認設置進行年度評定來減少公眾對其“壟斷性”地位的認定。
近期日本公平交易委員會也做出了谷歌搜索違反日本《壟斷禁止法》的判決,這意味著未來谷歌日本的業(yè)務也會受到影響。甚至由此引發(fā)其他國家也會陸續(xù)對谷歌做出反壟斷相關的判決。
樹大招風,曾經(jīng)幫助谷歌搜索崛起的因素似乎開始出現(xiàn)不穩(wěn)定的波動,谷歌面對內(nèi)外強大的競爭對手和核心業(yè)務的多重打擊,很是需要一個穩(wěn)定強硬的管理層。無怪乎桑達爾皮查伊內(nèi)部公開說,2025年風險很高,谷歌到了緊迫性時刻。
谷歌正在逐漸奪回大模型競賽的行業(yè)關注度和開發(fā)者認同,反壟斷大錘還尚未真正落下,谷歌獲得了一個難得的發(fā)展窗口來在新的技術革新潮流中暫時站穩(wěn)腳跟,為下一個人工智能時代真正到來前做好準備。