機器之心報道
機器之心編輯部2024年,我們居然進(jìn)步這么大。
剛剛過去的 2024 年是生成式 AI 大發(fā)展的一年,我們見證了 OpenAI Sora 的崛起,大模型服務(wù)價格的飛速下降,以及國內(nèi)開源大模型的奮起直追。這全方位的快速發(fā)展讓我們對下一波 AI 的新技術(shù)大規(guī)模應(yīng)用充滿了信心。對于身在 AI 領(lǐng)域的工程師和學(xué)者們來說,他們看待這一年的觀點會有不同嗎?新年伊始,就有人對過去一年里大模型技術(shù)的發(fā)展進(jìn)行了詳盡的總結(jié)。本文的作者 Simon Willison 是英國知名獨立研究員和開放源代碼創(chuàng)建者。
讓我們看看他是怎么說的。2024 年,大型語言模型領(lǐng)域發(fā)生了很多事情。以下是過去 12 個月我們對該領(lǐng)域的研究成果的回顧,以及我嘗試確定的關(guān)鍵主題和關(guān)鍵時刻。2023 年的總結(jié)在這里:https://simonwillison.net/2023/Dec/31/ai-in-2023/在 2024 年,我們可以看到:
GPT-4 壟斷被全面打破
一些 GPT-4 級模型可以在筆記本電腦上運行
由于競爭和優(yōu)化,大模型服務(wù)的價格崩盤
多模態(tài)視覺已經(jīng)變得常見,音頻和視頻模型開始出現(xiàn)
語音和實時攝像頭模式正從科幻小說變成現(xiàn)實
一個提示詞做出一個 APP,已經(jīng)很普遍了
對最佳模型的普遍訪問僅持續(xù)了短短幾個月
AI 「智能體」可能還有點遠(yuǎn)
評估真的很重要
Apple Intelligence 很糟糕,但 MLX 庫很出色
正在崛起的「推理」模型
目前最好的 LLM 來自中國,訓(xùn)練成本不到 600 萬美元?
環(huán)境影響變好了,但也在變得越來越嚴(yán)重
合成訓(xùn)練數(shù)據(jù)效果很好
LLM 不知何故變得更難用了
知識分布不均勻
LLM 需要更好的批評
GPT-4 壟斷被全面打破在 2023 年 12 月的評論中,我寫了關(guān)于我們還不知道如何構(gòu)建 GPT-4OpenAI 提出的領(lǐng)先大模型當(dāng)時已經(jīng)有近一年的歷史了,但沒有其他人工智能實驗室能做出更好的模型。OpenAI 的做法里面有什么過人之處嗎?令人欣慰的是,這種情況在過去十二個月里完全改變了,F(xiàn)在有 18 個公司、機構(gòu)在 Chatbot Arena 排行榜上的模型排名高于 2023 年 3 月的原始 GPT-4(排行榜上的 GPT-4-0314) 總共有 70 個模型。
其中最早的是谷歌于 2 月發(fā)布的 Gemini 1.5 Pro。除了產(chǎn)生 GPT-4 級別的輸出外,它還為該領(lǐng)域引入了幾項全新的功能 最值得注意的是其 100 萬(后來是 200 萬)個 token 輸入上下文長度,以及接收視頻的能力。我當(dāng)時在《The killer app of Gemini Pro 1.5 is video》中寫到了這一點,這讓我在 5 月的谷歌 I/O 開幕主題演講中作為主持人短暫露面。Gemini 1.5 Pro 還展示了 2024 年的一個關(guān)鍵主題:增加上下文長度。去年,大多數(shù)模型接收 4096 或 8192 個 token,但 Claude 2.1 是個值得注意的例外,它能接收 20 萬個 token。如今,每個嚴(yán)肅的提供商都有一個 10 萬以上的 token 模型,而谷歌的 Gemini 系列最多可以接受 200 萬個 token。更長的輸入極大地增加了使用 LLM 可以解決的問題范圍:你現(xiàn)在可以投入一整本書并詢問有關(guān)其內(nèi)容的問題。但更重要的是,你可以輸入大量示例代碼來幫助模型正確解決編碼問題。涉及長輸入的 LLM 用例對我來說比純粹依賴模型權(quán)重中已經(jīng)嵌入的信息的短提示更有趣。我的許多工具都是使用這種模式構(gòu)建的。回到擊敗 GPT-4 的模型:Anthropic 的 Claude 3 系列于 3 月推出,Claude 3 Opus 很快成為我最喜歡的日常大模型。他們在 6 月進(jìn)一步提高了賭注,推出了 Claude 3.5 Sonnet 六個月后,這個模型仍然是我的最愛(盡管它在 10 月 22 日進(jìn)行了重大升級,令人困惑的是保留了相同的 3.5 版本號。Anthropic 粉絲從那時起就喜歡稱它為 Claude 3.6)。然后是其余的大模型。如果你今天瀏覽 Chatbot Arena 排行榜(仍然是獲得基于情緒的模型評估的最有用的地方),你會發(fā)現(xiàn) GPT-4-0314 已經(jīng)跌至第 70 位左右。擁有得分較高的模型的 18 家組織分別是 Google、OpenAI、阿里、Anthropic、Meta、Reka AI、01 AI、亞馬遜、Cohere、DeepSeek、英偉達(dá)、Mistral、NexusFlow、Zhipu AI、xAI、AI21 Labs、普林斯頓和騰訊。一些 GPT-4 級模型可以在筆記本電腦上運行我的個人筆記本電腦是 2023 年的 64GB M2 MacBook Pro。這是一臺功能強大的機器,但它也已經(jīng)有近兩年的歷史了 而且至關(guān)重要的是,我自 2023 年 3 月第一次在電腦本地上運行 LLM 以來,一直在使用的是同一臺筆記本電腦。去年 3 月,同一臺筆記本電腦幾乎可以運行 GPT-3 類模型,現(xiàn)在已經(jīng)運行了多個 GPT-4 類模型!我對此的一些注釋:Qwen2.5-Coder-32B 是一款可以很好地編碼的 LLM,可在我的 Mac 上運行,11 月份,我談到了 Qwen2.5-Coder-32BApache 2.0 許可模型。我現(xiàn)在可以在我的筆記本電腦上運行 GPT-4 類模型,運行 Meta 的 Llama 3.3 70B(12 月發(fā)布)。這對我來說仍然很令人驚訝。我們原本會想當(dāng)然地認(rèn)為具有 GPT-4 功能和輸出質(zhì)量的模型需要一臺數(shù)據(jù)中心級服務(wù)器,該服務(wù)器具有一個或多個價值 4 萬美元以上的 GPU。事實上,這些模型占用了我 64GB 的內(nèi)存空間,所以我不經(jīng)常運行它們 運行的時候就不能干其他的事了。它們能夠運行的事實證明了 AI 領(lǐng)域在過去一年中取得了令人難以置信的訓(xùn)練和推理性能提升。事實證明,在模型效率方面,還有很多唾手可得的成果。我預(yù)計未來還會有更多。Meta 的 Llama 3.2 模型值得特別提及。它們可能不是 GPT-4 級別,但在 1B 和 3B 大小下,它們的性能遠(yuǎn)遠(yuǎn)超出了參數(shù)量的水平。我使用免費的 MLC Chat iOS 應(yīng)用程序在 iPhone 上運行 Llama 3.2 3B,對于其微小(<2GB)的參數(shù)量來說,這是一個功能驚人的模型。嘗試啟動它并要求它提供「Netflix 圣誕電影的情節(jié)大綱,其中一位數(shù)據(jù)記者愛上了一位當(dāng)?shù)氐奶沾蓭煛。這是我得到的結(jié)果,每秒 20 個 token 的速度相當(dāng)可觀:
它平淡而普通,但我的手機現(xiàn)在可以向 Netflix 推薦平淡而普通的圣誕電影了!由于競爭和優(yōu)化大模型服務(wù)的價格崩盤在過去的 12 個月中,通過頂級托管服務(wù)的 LLM 運行 token 的成本急劇下降。2023 年 12 月(這是 OpenAI 定價頁面的互聯(lián)網(wǎng)快照),OpenAI 對 GPT-4 收取 30 美元 / 百萬輸入 token,對當(dāng)時新推出的 GPT-4 Turbo 收取 10 美元 /mTok,對 GPT-3.5 Turbo 收取 1 美元 /mTok。今天 30 美元 /mTok 可以讓你獲得 OpenAI 最昂貴的模型 o1。GPT-4o 售價 2.50 美元(比 GPT-4 便宜 12 倍),GPT-4o mini 售價 0.15 美元 /mTok 比 GPT-3.5 便宜近 7 倍,功能強大得多。其他模型提供商的收費甚至更低。Anthropic 的 Claude 3 Haiku(從 3 月開始,但仍然是他們最便宜的型號)為 0.25 美元 /mTok。Google 的 Gemini 1.5 Flash 為 0.075 美元 /mTok,而他們的 Gemini 1.5 Flash 8B 為 0.0375 美元 /mTok 比去年的 GPT-3.5 Turbo 便宜 27 倍。我一直在我的 llm 定價標(biāo)簽下跟蹤這些價格變化。這些價格下降是由兩個因素驅(qū)動的:競爭加劇和效率提高。對于每個關(guān)心 LLM 對環(huán)境影響的人來說,效率真的很重要。這些價格下降與運行提示所消耗的能源量直接相關(guān)。關(guān)于大型 AI 數(shù)據(jù)中心建設(shè)對環(huán)境的影響,仍然有很多值得擔(dān)心的地方,但許多對單個提示的能源成本的擔(dān)憂已不再可信。這里有一個有趣的簡單計算:使用 Google 最便宜的型號 Gemini 1.5 Flash 8B(10 月發(fā)布)為我個人照片庫中的每 6.8 萬張照片生成簡短描述需要花費多少錢?每張照片需要 260 個輸入 token 和大約 100 個輸出 token。
260×68,000 = 17,680,000 個輸入 token
17,680,000×0.0375 美元 / 百萬 = 0.66 美元
100×68,000 = 6,800,000 個輸出 token
6,800,000×0.15 美元 / 百萬 = 1.02 美元
處理 68,000 張圖片的總成本為 1.68 美元。這太便宜了,我不得不計算了三次才能確認(rèn)我做對了。這些描述有多美好?這是我從一行命令中得到的結(jié)果:
llm -m gemini-1.5-flash-8b-latest describe -a IMG_1825.jpeg處理在加州科學(xué)院照的這張蝴蝶照片:
輸出內(nèi)容:一個淺盤,可能是蜂鳥或蝴蝶喂食器,是紅色的。盤內(nèi)可見橙色水果片。喂食器中有兩只蝴蝶,一只深棕色/黑色蝴蝶,帶有白色/奶油色斑紋。另一只大號棕色蝴蝶,帶有淺棕色、米色和黑色斑紋,包括明顯的眼斑。較大的棕色蝴蝶似乎正在吃水果。
260 個輸入 token,92 個輸出 token。成本約為 0.0024 美分(不到 400 分之一美分)。效率的提高和價格的降低是我最喜歡的 2024 年趨勢。我希望以極低的能源成本獲得 LLM 的效用,看起來這就是我們得到的。多模態(tài)視覺已經(jīng)變得常見音頻和視頻模型開始出現(xiàn)上面的蝴蝶示例說明了 2024 年的另一個關(guān)鍵趨勢:多模態(tài) LLM 正在興起。一年前,其中最引人注目的例子是 GPT-4 Vision,于 2023 年 11 月在 OpenAI 的 DevDay 上發(fā)布。谷歌的多模態(tài) Gemini 1.0 于 2023 年 12 月 7 日發(fā)布,因此它也(剛好)進(jìn)入了 2023 年的窗口。2024 年,幾乎每個重要的模型供應(yīng)商都發(fā)布了多模態(tài)模型。我們在 3 月看到了 Anthropic 的 Claude 3 系列,4 月看到了 Gemini 1.5 Pro(圖像、音頻和視頻),然后 9 月各家?guī)砹?Qwen2-VL 和 Mistral 的 Pixtral 12B 以及 Meta 的 Llama 3.2 11B 和 90B 視覺模型。10 月份,我們從 OpenAI 獲得了音頻輸入和輸出,11 月份,我們從 Hugging Face 獲得了 SmolVLM,12 月份,我們從 Amazon Nova 獲得了圖像和視頻模型。10 月份,我也升級了我的 LLM CLI 工具,以通過附件支持多模態(tài)模型。它現(xiàn)在擁有一系列不同視覺模型的插件。我認(rèn)為,抱怨 LLM 改進(jìn)速度放緩的人往往忽略了這些多模態(tài)模型的巨大進(jìn)步。能夠針對圖像(以及音頻和視頻)運行提示是一種應(yīng)用這些模型的迷人新方法。語音和實時攝像頭模式正從科幻小說變成現(xiàn)實新興的音頻和實時視頻模式值得特別關(guān)注。與 ChatGPT 對話的功能首次出現(xiàn)在 2023 年 9 月,但當(dāng)時還沒真正實現(xiàn):OpenAI 要用旗下的 Whisper 語音轉(zhuǎn)文本模型和一個新的文本轉(zhuǎn)語音模型(名為:tts-1)來實現(xiàn)與 ChatGPT 對話,但實際的模型還只能看到文本。5 月 13 日,OpenAI 春季發(fā)布會推出了 GPT-4o。多模態(tài)模型 GPT-4o(o 代表「omni」,是全能的意思)能直接「聽懂」你說的每一句話 接受音頻輸入并輸出令人難以置信的逼真語音,也不再需要 TTS 或 STT 模型在其中轉(zhuǎn)化。這個演中的聲音與斯嘉麗·約翰遜驚人地相似...... 在斯嘉麗投訴之后,這個聲音 Skye 從未在任何正式產(chǎn)品中亮相。不過,發(fā)布會上那個讓人眼前一亮的 GPT-4o 高級語音功能在產(chǎn)品端上線的計劃一再推遲,這引起了不少討論。當(dāng) 2024 年 8 月至 9 月期間,ChatGPT 高級語音模式最終上線時,效果真的驚艷到我了。我經(jīng)常在遛狗時使用它,更擬人的語調(diào),讓 AI 生成的內(nèi)容聽起來更生動。試驗 OpenAI 的音頻 API 也很有趣。更有趣的是:高級語音模式可以模仿口音!比如,我讓它「假裝你是一只帶著濃重俄羅斯口音的加利福尼亞棕鵜鶘,但只用西班牙語和我交談」:OpenAI 不是唯一一家在搞多模態(tài)音頻模型的公司,Google 的 Gemini 也能接收語音輸入,而且 Gemini 應(yīng)用現(xiàn)在也能像 ChatGPT 一樣說話了。亞馬遜也提前宣布了他們的 Amazon Nova 會有語音模式,不過得等到 2025 年第一季度才能用上。Google 在 9 月份發(fā)布的 NotebookLM 把音頻輸出玩出了新花樣 它能生成超級逼真的「播客主持人」對話,不管你給它什么內(nèi)容都行。后來他們還加入了自定義指令功能,我當(dāng)然二話不說就把主持人都變成了鵜鶘:最新的轉(zhuǎn)折出現(xiàn)在 12 月(這個月可真是熱鬧),就是實時視頻功能。ChatGPT 的語音模式現(xiàn)在讓你可以直接和模型分享攝像頭畫面,實時聊聊你看到的東西。Google Gemini 也推出了類似的預(yù)覽功能,這次終于搶在 ChatGPT 前一天發(fā)布了。
這些功能才剛出來幾個星期,我覺得它們的影響力還沒完全顯現(xiàn)出來。如果你還沒試過,真的要體驗一下!Gemini 和 OpenAI 都提供這些功能的 API 接口。OpenAI 最開始用的是比較難搞的 WebSocket API,不過在 12 月他們推出了新的 WebRTC API,用起來簡單多了,F(xiàn)在,要開發(fā)一個能和用戶語音對話的網(wǎng)頁應(yīng)用已經(jīng)變得超級容易了。一個提示詞做出一個 APP已經(jīng)很普遍了這在 2023 年就可以通過 GPT-4 實現(xiàn)了,但直到 2024 年它的價值才真正凸顯。我們早就知道大語言模型在寫代碼方面有著驚人的能力。如果你給出恰當(dāng)?shù)奶崾驹~,它們能用 HTML、CSS 和 JavaScript(如果配置好相關(guān)環(huán)境,還能用上 React 這樣的工具)為你構(gòu)建一個完整的交互式應(yīng)用程序 通常只需要一個提示詞就夠了。Anthropic 在發(fā)布 Claude 3.5 Sonnet 的公告中,順帶介紹了一個突破性的新功能:Claude Artifacts。這個功能起初并沒有引起太大關(guān)注,因為它只是在公告中寫了一下。有了 Artifacts,Claude 可以為你寫一個即時交互式應(yīng)用,然后讓你直接在 Claude 界面中使用它。這就是我用 Claude 生成的一個提取網(wǎng)頁 URL 的應(yīng)用:
現(xiàn)在 Claude Artifacts 已經(jīng)成為了我的依靠。很多其他團(tuán)隊也開發(fā)了類似的系統(tǒng),例如,GitHub 在 10 月份推出了他們的版本:GitHub Spark。Mistral Chat 在 11 月份添加了一個叫 Canvas 的類似功能。來自 Val Town 的 Steve Krause 基于 Cerebras 構(gòu)建了一個版本,展示了一個每秒處理 2000 個 token 的大語言模型如何能在不到一秒的時間內(nèi)對應(yīng)用進(jìn)行迭代更新。到了 12 月,Chatbot Arena 團(tuán)隊為此類功能推出了一個全新的排行榜,用戶可以用兩個不同的模型構(gòu)建相同的交互式應(yīng)用,然后對結(jié)果進(jìn)行投票。
排行榜前六位很難找到比這更有說服力的證據(jù),這項功能現(xiàn)在已經(jīng)成為能在所有主流模型上有效實現(xiàn)的通用功能了。我自己也在為 Datasette 項目開發(fā)類似的功能,目標(biāo)是讓用戶能夠通過提示來構(gòu)建和迭代針對自己數(shù)據(jù)的自定義小部件和數(shù)據(jù)可視化。我還通過 uv 找到了一種編寫一次性 Python 程序的類似模式。這種提示驅(qū)動的自定義界面功能非常強大,而且構(gòu)建起來也很容易(只要你搞定了瀏覽器沙箱的那些棘手細(xì)節(jié)),我預(yù)計在 2025 年會有一大波產(chǎn)品都會推出類似功能。對最佳模型的普遍訪問僅持續(xù)了短短幾個月今年有幾個月的時間,三個最好的可用模型:GPT-4o、Claude 3.5Sonnet 和 Gemini 1.5 Pro,都可以被世界上大多數(shù)人免費使用。OpenAI 在 5 月份向所有用戶開放了 GPT-4o 的免費使用權(quán)限,而 Claude 3.5 Sonnet 從 6 月份發(fā)布起就是免費的。這是一個重大的改變,因為在之前的一年里,免費用戶主要只能使用 GPT-3.5 級別的模型,這導(dǎo)致新用戶對大語言模型的實際能力形成了很不準(zhǔn)確的認(rèn)識。不過,這個時代似乎已經(jīng)結(jié)束了,而且很可能是永久性的,標(biāo)志是 OpenAI 推出了 ChatGPT Pro。這項每月 200 美元的訂閱服務(wù)是訪問他們最強大的新模型(o1 Pro)的唯一途徑。由于 o1 系列(以及「o 系列」未來的模型)背后的訣竅是投入更多的計算時間來獲得更好的結(jié)果,我認(rèn)為那些能免費就能訪問到最頂級的模型的日子,應(yīng)該不會再回來了。AI 「智能體」可能還有點遠(yuǎn)說實話,AI Agents 這個詞讓我很頭疼。它沒有一個統(tǒng)一、清晰且被廣泛認(rèn)可的定義。更糟的是,用這個詞的人似乎從來不承認(rèn)這一點。如果你告訴我你在開發(fā) AI Agents,這基本上等于什么都沒說。除非我能讀心,否則我根本不知道,AI Agents 定義有幾十種,你到底在造哪一種?我看到的 AI Agents 開發(fā)者主要有兩類:一類認(rèn)為 AI Agents 顯然就是替你做事的東西,就像旅行社那樣;另一類人則在想象為大語言模型配備各種工具,讓大模型能夠自主驅(qū)動,執(zhí)行任務(wù)。人們還經(jīng)常提到「autonomy」這個詞,但同樣也沒說清楚是什么意思。(幾個月前我在推特上收集了 211 個定義,我還讓 gemini-exp-1206 試著總結(jié)了一下這些定義。)文檔鏈接:https://lite.datasette.io/?json=https://gist.github.com/simonw/bdc7b894eedcfd54f0a2422ea8feaa80#/data/raw
不管這個詞到底是什么意思,AI Agents 總會給人一種「即將成真」的感覺。撇開術(shù)語不談,我對它們的實用性持懷疑態(tài)度,原因還是一個老問題:大語言模型很容易「輕信」,它會照單全收你告訴它的一切。這就暴露出一個關(guān)鍵問題:如果一個決策輔助系統(tǒng)連真假都分不清,它還能發(fā)揮多大作用?無論是旅行顧問、生活助手,還是研究工具,都會因為這個缺陷而大打折扣。最近就有一個現(xiàn)成的例子:就在前幾天,谷歌搜索鬧了個大烏龍。它把粉絲創(chuàng)作網(wǎng)站上一個虛構(gòu)的《魔法滿屋 2》劇情,當(dāng)成了真實電影來介紹。提示注入就是這種「輕信」的必然結(jié)果。自 2022 年 9 月以來我們一直在討論這個問題,但 2024 年在解決這個問題上,幾乎沒有什么進(jìn)展。我開始覺得,最流行的 AI Agents 概念其實依賴于通用人工智能的實現(xiàn)。要讓一個模型能夠抵抗「輕信」,這真是個艱巨的任務(wù)。評估真的很重要Anthropic 的 Amanda Askell(負(fù)責(zé) Claude 性格塑造的主要工作者)說:系統(tǒng)提示背后那個無聊但至關(guān)重要的秘密就是用測試驅(qū)動開發(fā)。你不是先寫一個系統(tǒng)提示,然后再想辦法測試它,而是先寫好測試,然后找到一個能通過這些測試的系統(tǒng)提示。
2024 年的經(jīng)驗告訴我們:在大語言模型應(yīng)用領(lǐng)域,最重要的核心競爭力是什么?是一套完善的自動化評估系統(tǒng)。為什么這么說?因為有了它,你就能:搶占先機,快人一步采用新模型,加速迭代,不斷優(yōu)化產(chǎn)品,確保功能既可靠又實用。Vercel 的 Malte Ubl 說:當(dāng) @v0 剛推出時,我們非常擔(dān)心要用各種預(yù)處理和后處理的復(fù)雜操作來保護(hù)提示。
于是我們徹底轉(zhuǎn)變思路,給了它充分的發(fā)揮空間。但很快就發(fā)現(xiàn):沒有評估標(biāo)準(zhǔn)、沒有模型指導(dǎo)、更沒有用戶體驗的提示,就像拿到一臺沒說明書的 ASML 機器 就算再先進(jìn),也無從下手。
我還在探索最適合自己的工作模式。評估的重要性已是共識,但「如何做好評估」這個問題卻仍然缺乏系統(tǒng)性的指導(dǎo)。我一直在通過評估標(biāo)簽追蹤這方面的進(jìn)展。我現(xiàn)在用的「鵜鶘騎自行車」SVG 基準(zhǔn)測試,與那些成熟的評估套件相比,還有很長的路要走。Apple Intelligence 很糟糕但 MLX 庫很出色去年,因為沒有配備 NVIDIA GPU 的 Linux/Windows 機器,我在嘗新模型的時候遇到了不少阻礙。從配置上看,64GB 的 Mac 本應(yīng)該是運行 AI 模型的理想之選 CPU 和 GPU 共享內(nèi)存的設(shè)計堪稱完美。但現(xiàn)實很殘酷:當(dāng)下的 AI 模型在發(fā)布時,基本都是以模型權(quán)重和開發(fā)庫的形式推出,而這些幾乎只適配 NVIDIA 的 CUDA 平臺。llama.cpp 生態(tài)系統(tǒng)在這方面幫了大忙,但真正的突破是蘋果的 MLX 庫,這是一個「專為 Apple Silicon 設(shè)計的數(shù)組框架」。它真的很棒。蘋果的 mlx-lm Python 支持在我的 Mac 上運行各種 MLX 兼容的模型,性能非常出色。Hugging Face 上的 mlx-community 提供了超過 1000 個已轉(zhuǎn)換為必要格式的模型。Prince Canuma 開發(fā)的優(yōu)秀且發(fā)展迅速的 mlx-vlm 項目也把視覺大語言模型帶到了 Apple Silicon 上。我最近用它運行了 Qwen 的 QvQ。雖然 MLX 是個改變游戲規(guī)則的東西,但蘋果自己的 Apple Intelligence 功能大多令人失望。我本來非常期待 Apple Intelligence,在我的預(yù)測中,我認(rèn)為蘋果繪專注于做能保護(hù)用戶隱私,打造讓用戶清晰明了、不會誤解的大語言模型應(yīng)用,F(xiàn)在這些功能已經(jīng)推出,效果相當(dāng)差。作為一個大語言模型的重度用戶,我知道這些模型能做什么,而蘋果的大語言模型功能只是提供了一個蒼白的模仿。我們得到的是曲解新聞標(biāo)題的通知摘要,以及完全沒用的寫作助手工具,不過 emoji 生成器還是挺有意思的。正在崛起的「推理」模型2024 年最后一個季度最有趣的進(jìn)展是一種新型 LLM 的出現(xiàn),以 OpenAI 的 o1 模型為代表。要理解這些模型,可以把它們看作是「思維鏈提示」技巧的延伸。這個技巧最早出現(xiàn)在 2022 年 5 月的論文《Large Language Models are Zero-Shot Reasoners》中。這個技巧主要在說,如果你讓模型在解決問題時「大聲思考」,它往往能得到一些原本想不到的結(jié)果。o1 把這個過程進(jìn)一步融入到了模型本身。具體細(xì)節(jié)有點模糊:o1 模型會花費一些「推理 token」來思考問題(用戶看不到這個過程,不過 ChatGPT 界面會顯示一個總結(jié)),然后給出最終答案。這里最大的創(chuàng)新在于,它開創(chuàng)了一種新的擴(kuò)展模型的方式:不單純地通過增加訓(xùn)練時的計算量來提升模型性能,而是讓模型在推理時投入更多計算資源來解決更難的問題。o1 的續(xù)作 o3 在 12 月 20 日發(fā)布,o3 在 ARC-AGI 基準(zhǔn)測試上取得了驚人成績。不過,從 o3 的巨額推理成本來看,它可能花掉了超過 100 萬美元的計算成本!o3 預(yù)計將在 1 月份推出。但我覺得很少有人的實際問題需要這么大的計算開銷,o3 也標(biāo)志著 LLM 架構(gòu)在處理復(fù)雜問題時邁出了實質(zhì)性的一步。OpenAI 并不是這個領(lǐng)域的「獨角戲」。谷歌在 12 月 19 日也推出了他們的第一個類似產(chǎn)品:gemini-2.0-flash-thinking-exp。阿里巴巴的 Qwen 團(tuán)隊在 11 月 28 日發(fā)布了他們的 QwQ 模型,我在自己電腦上就能跑。他們在 12 月 24 日又推出了一個叫 QvQ 的視覺推理模型,我也在本地運行過。DeepSeek 在 11 月 20 日通過他們的聊天界面提供了 DeepSeek-R1-Lite-Preview 模型試用。要深入了解推理擴(kuò)展,我推薦看看 Arvind Narayanan 和 Sayash Kapoor 寫的《Is AI progress slowing down?》這篇文章。Anthropic 和 Meta 還沒什么動靜,不過我賭他們肯定也在開發(fā)自己的推理擴(kuò)展模型。Meta 在 12 月發(fā)表了一篇相關(guān)論文《Training Large Language Models to Reason in a Continuous Latent Space》。目前最好的 LLM 來自中國訓(xùn)練成本不到 600 萬美元?不完全是,但差不多是。這的確是個吸引眼球的好標(biāo)題。今年年底的大新聞是 DeepSeek v3 的發(fā)布,它在圣誕節(jié)當(dāng)天連 README 文件都沒有就被放到了 Hugging Face 上,第二天就發(fā)布了文檔和論文。DeepSeek v3 是一個龐大的 685B 參數(shù)模型,是目前最大的公開授權(quán)模型之一,比 Meta 公司最大的 Llama 系列模型 Llama 3.1 405B 還要大得多;鶞(zhǔn)測試結(jié)果表明,它與 Claude 3.5 Sonnet 不相上下。Vibe 基準(zhǔn)測試(又稱聊天機器人競技場)目前將其排在第 7 位,僅次于 Gemini 2.0 和 OpenAI 4o/o1 型號。這是迄今為止排名最高的公開授權(quán)模型。DeepSeek v3 真正令人印象深刻的是其訓(xùn)練成本。該模型在 2,788,000 個 H800 GPU 時內(nèi)完成了訓(xùn)練,估計成本為 5,576,000 美元。Llama 3.1 405B 訓(xùn)練了 30,840,000 個 GPU 小時,是 DeepSeek v3 的 11 倍,但模型的基準(zhǔn)性能卻略遜一籌。美國對中國出口 GPU 的規(guī)定似乎激發(fā)了一些非常有效的訓(xùn)練優(yōu)化。環(huán)境影響得到改善模型(包括托管模型和我可以在本地運行的模型)效率的提高帶來了一個可喜的結(jié)果,那就是在過去幾年中,運行 Prompt 的能耗和對環(huán)境的影響大大降低了。與 GPT-3 時代相比,OpenAI 自己的提示詞器收費也降低了 100 倍。我有可靠消息稱,Google Gemini 和 Amazon Nova(兩家最便宜的模型提供商)都沒有虧本運行提示詞器。我認(rèn)為這意味著,作為個人用戶,我們完全不必為絕大多數(shù)提示詞消耗的能源感到內(nèi)疚。與在街上開車,甚至在 YouTube 上看視頻相比,其影響可能微乎其微。同樣,訓(xùn)練也是如此。DeepSeek v3 的訓(xùn)練費用不到 600 萬美元,這是一個非常好的跡象,表明訓(xùn)練成本可以而且應(yīng)該繼續(xù)下降。對于效率較低的模型,我認(rèn)為將其能源使用量與商業(yè)航班進(jìn)行比較是非常有用的。最大的 Llama 3 模型的成本約等于從紐約到倫敦的一位數(shù)滿載乘客航班。這當(dāng)然不是一無是處,但一旦經(jīng)過訓(xùn)練,該模型就可以供數(shù)百萬人使用,而無需額外的訓(xùn)練成本。環(huán)境影響也變得越來越嚴(yán)重更大的問題在于,未來這些模式所需的基礎(chǔ)設(shè)施建設(shè)將面臨巨大的競爭壓力。谷歌、Meta、微軟和亞馬遜等公司都在斥資數(shù)十億美元建設(shè)新的數(shù)據(jù)中心,這對電網(wǎng)和環(huán)境造成了巨大影響。甚至還有人說要建立新的核電站,但這需要幾十年的時間。這些基礎(chǔ)設(shè)施有必要嗎?DeepSeek v3 的 600 萬美元訓(xùn)練成本和 LLM 價格的持續(xù)暴跌可能暗示了這一點。但是,你是否希望自己成為一名大型科技公司的高管,在幾年后證明自己的觀點是錯誤的情況下,仍然堅持不建設(shè)這些基礎(chǔ)設(shè)施呢?一個有趣的比較點是,19 世紀(jì)鐵路在世界各地的鋪設(shè)方式。修建這些鐵路需要巨額投資,并對環(huán)境造成巨大影響,而且修建的許多線路被證明是不必要的,有時不同公司的多條線路服務(wù)于完全相同的路線。由此產(chǎn)生的泡沫導(dǎo)致了數(shù)次金融崩潰,參見維基百科中的 1873 年恐慌、1893 年恐慌、1901 年恐慌和英國的鐵路狂熱。它們給我們留下了大量有用的基礎(chǔ)設(shè)施,也造成了大量破產(chǎn)和環(huán)境破壞。「泔水」之年2024 年是「泔水」一詞成為藝術(shù)術(shù)語的一年。我在 5 月份寫過一篇文章,對 @deepfates 的這條推文進(jìn)行了擴(kuò)展:實時觀察「泔水」如何成為一個藝術(shù)術(shù)語。就像「垃圾郵件」成為不受歡迎電子郵件的專有名詞一樣,「泔水」也將作為人工智能生成的不受歡迎內(nèi)容的專有名詞被載入字典。
我把這個定義稍微擴(kuò)展了一下:「泔水」指的是人工智能生成的未經(jīng)請求和審查的內(nèi)容。
最后,《衛(wèi)報》和《紐約時報》都引用了我關(guān)于泔水的論述。以下是我在《紐約時報》上說的話:社會需要簡明扼要的方式來談?wù)摤F(xiàn)代人工智能,無論是正面的還是負(fù)面的!负雎阅欠忄]件,它是垃圾郵件 」和「忽略那篇文章,它是泔水」都是有用的教訓(xùn)。
我喜歡「泔水」這個詞,因為它簡明扼要地概括了我們不應(yīng)該使用生成式 AI 的一種方式!搞锼股踔吝入選了 2024 年牛津年度詞匯,但最終輸給了「腦腐」。合成訓(xùn)練數(shù)據(jù)很有效「模型崩潰」的概念,似乎出人意料地在公眾意識中根深蒂固。2023 年 5 月,《The Curse of Recursion: Training on Generated Data Makes Models Forget》一文首次描述了這一現(xiàn)象。2024 年 7 月,《自然》雜志以更醒目的標(biāo)題重復(fù)了這一現(xiàn)象:在遞歸生成的數(shù)據(jù)上進(jìn)行訓(xùn)練時,人工智能模型會崩潰。這個想法很有誘惑力:隨著人工智能生成的「泔水」充斥互聯(lián)網(wǎng),模型本身也會退化,將以一種導(dǎo)致其不可避免滅亡的方式吸收自己的輸出。這顯然沒有發(fā)生。相反,我們看到人工智能實驗室越來越多地在合成內(nèi)容上進(jìn)行訓(xùn)練 有意識地創(chuàng)建人工數(shù)據(jù),以幫助引導(dǎo)他們的模型走向正確的道路。我所見過的對此最好的描述之一來自 Phi-4 技術(shù)報告,其中包括以下內(nèi)容:合成數(shù)據(jù)作為預(yù)訓(xùn)練的重要組成部分正變得越來越普遍,Phi 系列模型也一直強調(diào)合成數(shù)據(jù)的重要性。與其說合成數(shù)據(jù)是有機數(shù)據(jù)的廉價替代品,不如說合成數(shù)據(jù)與有機數(shù)據(jù)相比有幾個直接優(yōu)勢。結(jié)構(gòu)化學(xué)習(xí)和逐步學(xué)習(xí)。在有機數(shù)據(jù)集中,token 之間的關(guān)系往往復(fù)雜而間接?赡苄枰S多推理步驟才能將當(dāng)前標(biāo)記與下一個 token 聯(lián)系起來,這使得模型很難有效地學(xué)習(xí)下一個 token 的預(yù)測。相比之下,語言模型生成的每個 token 顧名思義都是由前面的標(biāo)記預(yù)測的,這使得模型更容易遵循由此產(chǎn)生的推理模式。另一種常見的技術(shù)是使用較大的模型為較小、較便宜的模型創(chuàng)建訓(xùn)練數(shù)據(jù),越來越多的實驗室都在使用這種技巧。DeepSeek v3 使用了 DeepSeek-R1 創(chuàng)建的「推理」數(shù)據(jù)。Meta 的 Llama 3.3 70B 微調(diào)使用了超過 2500 萬個合成生成的示例。精心設(shè)計進(jìn)入 LLM 的訓(xùn)練數(shù)據(jù)似乎是創(chuàng)建這些模型的關(guān)鍵所在。從網(wǎng)絡(luò)上抓取全部數(shù)據(jù)并不加區(qū)分地將其投入訓(xùn)練運行的時代已經(jīng)一去不復(fù)返了。LLM 不知何故變得更難用了我一直在強調(diào),LLM 是強大的用戶工具,它們是偽裝成菜刀的電鋸。它們看起來簡單易用,給聊天機器人輸入信息能有多難?但實際上,要充分利用它們并避免它們的許多陷阱,你需要有深厚的理解力和豐富的經(jīng)驗。如果說在 2024 年,這個問題變得更加嚴(yán)重的話,好消息是我們已經(jīng)建立了可以用人類語言與之對話的計算機系統(tǒng),它們會回答你的問題,而且通常都能答對。這取決于問題的內(nèi)容、提問的方式,以及問題是否準(zhǔn)確地反映在未記錄的秘密訓(xùn)練集中?捎孟到y(tǒng)的數(shù)量激增。不同的系統(tǒng)有不同的工具,它們可以用來解決你的問題,比如 Python、JavaScript、網(wǎng)絡(luò)搜索、圖像生成,甚至數(shù)據(jù)庫查詢。所以你最好了解這些工具是什么,它們能做什么,以及如何判斷 LLM 是否使用了它們。你知道 ChatGPT 現(xiàn)在有兩種完全不同的 Python 運行方式嗎?想要構(gòu)建一個與外部 API 對話的 Claude 工件?你最好先了解一下 CSP 和 CORS HTTP 標(biāo)頭。模型可能變得更強大了,但大多數(shù)限制卻沒有改變。OpenAI 的 o1 也許終于能大部分計算「Strawberry」中的 R,但它的能力仍然受限于其作為 LLM 的性質(zhì),以及它所運行的線束對它的限制。O1 不能進(jìn)行網(wǎng)絡(luò)搜索,也不能使用 Code Interpreter,但 GPT-4o 卻可以 兩者都在同一個 ChatGPT UI 中。(如果你要求,o1 會假裝做這些事,這是 2023 年初 URL 幻覺 bug 的回歸)。我們對此有何對策?幾乎沒有。大多數(shù)用戶都被扔進(jìn)了深水區(qū)。默認(rèn)的 LLM 聊天 UI 就像是把全新的電腦用戶扔進(jìn) Linux 終端,然后指望他們自己能搞定一切。與此同時,終端用戶對這些設(shè)備的工作原理和功能所形成的不準(zhǔn)確的心理模型也越來越常見。我見過很多這樣的例子:有人試圖用 ChatGPT 的截圖來贏得爭論 這本來就是一個可笑的命題,因為這些模型本來就不可靠,再加上只要你正確提示,就能讓它們說任何話。這也有一個反面:很多見多識廣的人已經(jīng)完全放棄了 LLM,因為他們不明白怎么會有人能從一個有如此多缺陷的工具中獲益。要想最大限度地利用 LLM,關(guān)鍵在于學(xué)會如何使用這種既不可靠又強大無比的技術(shù)。這是一項絕對不顯而易見的技能!在這里,有用的教育內(nèi)容大有可為,但我們需要做得更好,而不是將其全部外包給那些在推特上狂轟濫炸的人工智能騙子。知識分布不均勻現(xiàn)在,大多數(shù)人都聽說過 ChatGPT。有多少人聽說過 Claude?積極關(guān)注這些內(nèi)容的人與 99% 不關(guān)注這些內(nèi)容的人之間存在著巨大的知識鴻溝。變革的速度也無濟(jì)于事。就在上個月,我們看到實時界面的普及,你可以將手機攝像頭對準(zhǔn)某樣?xùn)|西,然后用聲音談?wù)撍?..... 還可以選擇讓它假裝成圣誕老人。大多數(shù)自我認(rèn)證的 nerd 甚至還沒試過這個。鑒于這項技術(shù)對社會的持續(xù)及潛在影響,我不認(rèn)為這種差距的存在是健康的。我希望看到更多的努力來改善這種狀況。LLM 需要更好的批評很多人都非常討厭這種東西。在我混跡的一些地方(Mastodon、Bluesky、Lobste.rs,甚至偶爾在 Hacker News),即使提出「LLM 很有用」,也足以引發(fā)一場大戰(zhàn)。我明白不喜歡這項技術(shù)的理由有很多:環(huán)境影響、訓(xùn)練數(shù)據(jù)(缺乏)道德、缺乏可靠性、負(fù)面應(yīng)用、對人們工作的潛在影響。LLM 絕對值得批評。我們需要對這些問題進(jìn)行討論,找到緩解這些問題的方法,幫助人們學(xué)會如何負(fù)責(zé)任地使用這些工具,使其正面應(yīng)用大于負(fù)面影響。我喜歡對這些東西持懷疑態(tài)度的人。兩年多來,炒作的聲音震耳欲聾,大量的「假冒偽劣商品」和錯誤信息充斥其中。很多錯誤的決定都是在這種炒作的基礎(chǔ)上做出的。敢于批評是一種美德。如果我們想讓有決策權(quán)的人在如何應(yīng)用這些工具方面做出正確的決定,我們首先需要承認(rèn)確實有好的應(yīng)用,然后幫助解釋如何將這些應(yīng)用付諸實踐,同時避免許多非實用性的陷阱。(如果你仍然認(rèn)為根本沒有什么好的應(yīng)用,那我就不知道你為什么能讀完這篇文章了。。我認(rèn)為,告訴人們整個領(lǐng)域都是環(huán)境災(zāi)難性的剽竊機器,不斷地胡編亂造,無論這代表了多少真理,都是對這些人的傷害。這里有真正的價值,但實現(xiàn)這種價值并不直觀,需要指導(dǎo)。我們這些了解這些東西的人有責(zé)任幫助其他人弄明白。參考內(nèi)容:https://simonwillison.net/2024/Dec/31/llms-in-2024/#-agents-still-haven-t-really-happened-yet