當(dāng)前位置：人工智能實驗室> 人工智能動態(tài) > 全面打破GPT-4壟斷、DeepSeek打下訓(xùn)練成本...2024年大模型領(lǐng)域進(jìn)展全復(fù)盤

全面打破GPT-4壟斷、DeepSeek打下訓(xùn)練成本...2024年大模型領(lǐng)域進(jìn)展全復(fù)盤
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-02 19:02:07 瀏覽：268次

導(dǎo)讀：機器之心報道機器之心編輯部2024年，我們居然進(jìn)步這么大。剛剛過去的 2024 年是生成式 AI 大發(fā)展的一年，我們見證了 OpenAI Sora 的崛起，大模型服務(wù)價格的飛速下降，以及國內(nèi)開源大模型的奮起直追。這全方位的快速發(fā)展讓我們對下一波 AI 的新技術(shù)大規(guī)模應(yīng)用充滿了信心。對于身在 AI 領(lǐng)域的工程師和學(xué)者們來說，他們看待這一年的觀點會有不同嗎？新年伊始，就有人對過去一年里 ......

機器之心報道

機器之心編輯部2024年，我們居然進(jìn)步這么大。

剛剛過去的 2024 年是生成式 AI 大發(fā)展的一年，我們見證了 OpenAI Sora 的崛起，大模型服務(wù)價格的飛速下降，以及國內(nèi)開源大模型的奮起直追。這全方位的快速發(fā)展讓我們對下一波 AI 的新技術(shù)大規(guī)模應(yīng)用充滿了信心。對于身在 AI 領(lǐng)域的工程師和學(xué)者們來說，他們看待這一年的觀點會有不同嗎？新年伊始，就有人對過去一年里大模型技術(shù)的發(fā)展進(jìn)行了詳盡的總結(jié)。本文的作者 Simon Willison 是英國知名獨立研究員和開放源代碼創(chuàng)建者。全面打破GPT-4壟斷、DeepSeek打下訓(xùn)練成本...2024年大模型領(lǐng)域進(jìn)展全復(fù)盤

讓我們看看他是怎么說的。2024 年，大型語言模型領(lǐng)域發(fā)生了很多事情。以下是過去 12 個月我們對該領(lǐng)域的研究成果的回顧，以及我嘗試確定的關(guān)鍵主題和關(guān)鍵時刻。2023 年的總結(jié)在這里：https://simonwillison.net/2023/Dec/31/ai-in-2023/在 2024 年，我們可以看到：

GPT-4 壟斷被全面打破

一些 GPT-4 級模型可以在筆記本電腦上運行

由于競爭和優(yōu)化，大模型服務(wù)的價格崩盤

多模態(tài)視覺已經(jīng)變得常見，音頻和視頻模型開始出現(xiàn)

語音和實時攝像頭模式正從科幻小說變成現(xiàn)實

一個提示詞做出一個 APP，已經(jīng)很普遍了

對最佳模型的普遍訪問僅持續(xù)了短短幾個月

AI 「智能體」可能還有點遠(yuǎn)

評估真的很重要

Apple Intelligence 很糟糕，但 MLX 庫很出色

正在崛起的「推理」模型

目前最好的 LLM 來自中國，訓(xùn)練成本不到 600 萬美元？

環(huán)境影響變好了，但也在變得越來越嚴(yán)重

合成訓(xùn)練數(shù)據(jù)效果很好

LLM 不知何故變得更難用了

知識分布不均勻

LLM 需要更好的批評

GPT-4 壟斷被全面打破在 2023 年 12 月的評論中，我寫了關(guān)于我們還不知道如何構(gòu)建 GPT-4OpenAI 提出的領(lǐng)先大模型當(dāng)時已經(jīng)有近一年的歷史了，但沒有其他人工智能實驗室能做出更好的模型。OpenAI 的做法里面有什么過人之處嗎？令人欣慰的是，這種情況在過去十二個月里完全改變了�，F(xiàn)在有 18 個公司、機構(gòu)在 Chatbot Arena 排行榜上的模型排名高于 2023 年 3 月的原始 GPT-4（排行榜上的 GPT-4-0314）總共有 70 個模型。全面打破GPT-4壟斷、DeepSeek打下訓(xùn)練成本...2024年大模型領(lǐng)域進(jìn)展全復(fù)盤

其中最早的是谷歌于 2 月發(fā)布的 Gemini 1.5 Pro。除了產(chǎn)生 GPT-4 級別的輸出外，它還為該領(lǐng)域引入了幾項全新的功能最值得注意的是其 100 萬（后來是 200 萬）個 token 輸入上下文長度，以及接收視頻的能力。我當(dāng)時在《The killer app of Gemini Pro 1.5 is video》中寫到了這一點，這讓我在 5 月的谷歌 I/O 開幕主題演講中作為主持人短暫露面。Gemini 1.5 Pro 還展示了 2024 年的一個關(guān)鍵主題：增加上下文長度。去年，大多數(shù)模型接收 4096 或 8192 個 token，但 Claude 2.1 是個值得注意的例外，它能接收 20 萬個 token。如今，每個嚴(yán)肅的提供商都有一個 10 萬以上的 token 模型，而谷歌的 Gemini 系列最多可以接受 200 萬個 token。更長的輸入極大地增加了使用 LLM 可以解決的問題范圍：你現(xiàn)在可以投入一整本書并詢問有關(guān)其內(nèi)容的問題。但更重要的是，你可以輸入大量示例代碼來幫助模型正確解決編碼問題。涉及長輸入的 LLM 用例對我來說比純粹依賴模型權(quán)重中已經(jīng)嵌入的信息的短提示更有趣。我的許多工具都是使用這種模式構(gòu)建的。回到擊敗 GPT-4 的模型：Anthropic 的 Claude 3 系列于 3 月推出，Claude 3 Opus 很快成為我最喜歡的日常大模型。他們在 6 月進(jìn)一步提高了賭注，推出了 Claude 3.5 Sonnet 六個月后，這個模型仍然是我的最愛（盡管它在 10 月 22 日進(jìn)行了重大升級，令人困惑的是保留了相同的 3.5 版本號。Anthropic 粉絲從那時起就喜歡稱它為 Claude 3.6）。然后是其余的大模型。如果你今天瀏覽 Chatbot Arena 排行榜（仍然是獲得基于情緒的模型評估的最有用的地方），你會發(fā)現(xiàn) GPT-4-0314 已經(jīng)跌至第 70 位左右。擁有得分較高的模型的 18 家組織分別是 Google、OpenAI、阿里、Anthropic、Meta、Reka AI、01 AI、亞馬遜、Cohere、DeepSeek、英偉達(dá)、Mistral、NexusFlow、Zhipu AI、xAI、AI21 Labs、普林斯頓和騰訊。一些 GPT-4 級模型可以在筆記本電腦上運行我的個人筆記本電腦是 2023 年的 64GB M2 MacBook Pro。這是一臺功能強大的機器，但它也已經(jīng)有近兩年的歷史了而且至關(guān)重要的是，我自 2023 年 3 月第一次在電腦本地上運行 LLM 以來，一直在使用的是同一臺筆記本電腦。去年 3 月，同一臺筆記本電腦幾乎可以運行 GPT-3 類模型，現(xiàn)在已經(jīng)運行了多個 GPT-4 類模型！我對此的一些注釋：Qwen2.5-Coder-32B 是一款可以很好地編碼的 LLM，可在我的 Mac 上運行，11 月份，我談到了 Qwen2.5-Coder-32BApache 2.0 許可模型。我現(xiàn)在可以在我的筆記本電腦上運行 GPT-4 類模型，運行 Meta 的 Llama 3.3 70B（12 月發(fā)布）。這對我來說仍然很令人驚訝。我們原本會想當(dāng)然地認(rèn)為具有 GPT-4 功能和輸出質(zhì)量的模型需要一臺數(shù)據(jù)中心級服務(wù)器，該服務(wù)器具有一個或多個價值 4 萬美元以上的 GPU。事實上，這些模型占用了我 64GB 的內(nèi)存空間，所以我不經(jīng)常運行它們運行的時候就不能干其他的事了。它們能夠運行的事實證明了 AI 領(lǐng)域在過去一年中取得了令人難以置信的訓(xùn)練和推理性能提升。事實證明，在模型效率方面，還有很多唾手可得的成果。我預(yù)計未來還會有更多。Meta 的 Llama 3.2 模型值得特別提及。它們可能不是 GPT-4 級別，但在 1B 和 3B 大小下，它們的性能遠(yuǎn)遠(yuǎn)超出了參數(shù)量的水平。我使用免費的 MLC Chat iOS 應(yīng)用程序在 iPhone 上運行 Llama 3.2 3B，對于其微小（<2GB）的參數(shù)量來說，這是一個功能驚人的模型。嘗試啟動它并要求它提供「Netflix 圣誕電影的情節(jié)大綱，其中一位數(shù)據(jù)記者愛上了一位當(dāng)?shù)氐奶沾蓭煛�。這是我得到的結(jié)果，每秒 20 個 token 的速度相當(dāng)可觀：全面打破GPT-4壟斷、DeepSeek打下訓(xùn)練成本...2024年大模型領(lǐng)域進(jìn)展全復(fù)盤

它平淡而普通，但我的手機現(xiàn)在可以向 Netflix 推薦平淡而普通的圣誕電影了！由于競爭和優(yōu)化大模型服務(wù)的價格崩盤在過去的 12 個月中，通過頂級托管服務(wù)的 LLM 運行 token 的成本急劇下降。2023 年 12 月（這是 OpenAI 定價頁面的互聯(lián)網(wǎng)快照），OpenAI 對 GPT-4 收取 30 美元 / 百萬輸入 token，對當(dāng)時新推出的 GPT-4 Turbo 收取 10 美元 /mTok，對 GPT-3.5 Turbo 收取 1 美元 /mTok。今天 30 美元 /mTok 可以讓你獲得 OpenAI 最昂貴的模型 o1。GPT-4o 售價 2.50 美元（比 GPT-4 便宜 12 倍），GPT-4o mini 售價 0.15 美元 /mTok 比 GPT-3.5 便宜近 7 倍，功能強大得多。其他模型提供商的收費甚至更低。Anthropic 的 Claude 3 Haiku（從 3 月開始，但仍然是他們最便宜的型號）為 0.25 美元 /mTok。Google 的 Gemini 1.5 Flash 為 0.075 美元 /mTok，而他們的 Gemini 1.5 Flash 8B 為 0.0375 美元 /mTok 比去年的 GPT-3.5 Turbo 便宜 27 倍。我一直在我的 llm 定價標(biāo)簽下跟蹤這些價格變化。這些價格下降是由兩個因素驅(qū)動的：競爭加劇和效率提高。對于每個關(guān)心 LLM 對環(huán)境影響的人來說，效率真的很重要。這些價格下降與運行提示所消耗的能源量直接相關(guān)。關(guān)于大型 AI 數(shù)據(jù)中心建設(shè)對環(huán)境的影響，仍然有很多值得擔(dān)心的地方，但許多對單個提示的能源成本的擔(dān)憂已不再可信。這里有一個有趣的簡單計算：使用 Google 最便宜的型號 Gemini 1.5 Flash 8B（10 月發(fā)布）為我個人照片庫中的每 6.8 萬張照片生成簡短描述需要花費多少錢？每張照片需要 260 個輸入 token 和大約 100 個輸出 token。

260×68,000 = 17,680,000 個輸入 token

17,680,000×0.0375 美元 / 百萬 = 0.66 美元

100×68,000 = 6,800,000 個輸出 token

6,800,000×0.15 美元 / 百萬 = 1.02 美元

處理 68,000 張圖片的總成本為 1.68 美元。這太便宜了，我不得不計算了三次才能確認(rèn)我做對了。這些描述有多美好？這是我從一行命令中得到的結(jié)果：

llm -m gemini-1.5-flash-8b-latest describe -a IMG_1825.jpeg處理在加州科學(xué)院照的這張蝴蝶照片：全面打破GPT-4壟斷、DeepSeek打下訓(xùn)練成本...2024年大模型領(lǐng)域進(jìn)展全復(fù)盤

輸出內(nèi)容：一個淺盤，可能是蜂鳥或蝴蝶喂食器，是紅色的。盤內(nèi)可見橙色水果片。喂食器中有兩只蝴蝶，一只深棕色/黑色蝴蝶，帶有白色/奶油色斑紋。另一只大號棕色蝴蝶，帶有淺棕色、米色和黑色斑紋，包括明顯的眼斑。較大的棕色蝴蝶似乎正在吃水果。

260 個輸入 token，92 個輸出 token。成本約為 0.0024 美分（不到 400 分之一美分）。效率的提高和價格的降低是我最喜歡的 2024 年趨勢。我希望以極低的能源成本獲得 LLM 的效用，看起來這就是我們得到的。多模態(tài)視覺已經(jīng)變得常見音頻和視頻模型開始出現(xiàn)上面的蝴蝶示例說明了 2024 年的另一個關(guān)鍵趨勢：多模態(tài) LLM 正在興起。一年前，其中最引人注目的例子是 GPT-4 Vision，于 2023 年 11 月在 OpenAI 的 DevDay 上發(fā)布。谷歌的多模態(tài) Gemini 1.0 于 2023 年 12 月 7 日發(fā)布，因此它也（剛好）進(jìn)入了 2023 年的窗口。2024 年，幾乎每個重要的模型供應(yīng)商都發(fā)布了多模態(tài)模型。我們在 3 月看到了 Anthropic 的 Claude 3 系列，4 月看到了 Gemini 1.5 Pro（圖像、音頻和視頻），然后 9 月各家?guī)砹?Qwen2-VL 和 Mistral 的 Pixtral 12B 以及 Meta 的 Llama 3.2 11B 和 90B 視覺模型。10 月份，我們從 OpenAI 獲得了音頻輸入和輸出，11 月份，我們從 Hugging Face 獲得了 SmolVLM，12 月份，我們從 Amazon Nova 獲得了圖像和視頻模型。10 月份，我也升級了我的 LLM CLI 工具，以通過附件支持多模態(tài)模型。它現(xiàn)在擁有一系列不同視覺模型的插件。我認(rèn)為，抱怨 LLM 改進(jìn)速度放緩的人往往忽略了這些多模態(tài)模型的巨大進(jìn)步。能夠針對圖像（以及音頻和視頻）運行提示是一種應(yīng)用這些模型的迷人新方法。語音和實時攝像頭模式正從科幻小說變成現(xiàn)實新興的音頻和實時視頻模式值得特別關(guān)注。與 ChatGPT 對話的功能首次出現(xiàn)在 2023 年 9 月，但當(dāng)時還沒真正實現(xiàn)：OpenAI 要用旗下的 Whisper 語音轉(zhuǎn)文本模型和一個新的文本轉(zhuǎn)語音模型（名為：tts-1）來實現(xiàn)與 ChatGPT 對話，但實際的模型還只能看到文本。5 月 13 日，OpenAI 春季發(fā)布會推出了 GPT-4o。多模態(tài)模型 GPT-4o（o 代表「omni」，是全能的意思）能直接「聽懂」你說的每一句話接受音頻輸入并輸出令人難以置信的逼真語音，也不再需要 TTS 或 STT 模型在其中轉(zhuǎn)化。這個演中的聲音與斯嘉麗·約翰遜驚人地相似...... 在斯嘉麗投訴之后，這個聲音 Skye 從未在任何正式產(chǎn)品中亮相。不過，發(fā)布會上那個讓人眼前一亮的 GPT-4o 高級語音功能在產(chǎn)品端上線的計劃一再推遲，這引起了不少討論。當(dāng) 2024 年 8 月至 9 月期間，ChatGPT 高級語音模式最終上線時，效果真的驚艷到我了。我經(jīng)常在遛狗時使用它，更擬人的語調(diào)，讓 AI 生成的內(nèi)容聽起來更生動。試驗 OpenAI 的音頻 API 也很有趣。更有趣的是：高級語音模式可以模仿口音！比如，我讓它「假裝你是一只帶著濃重俄羅斯口音的加利福尼亞棕鵜鶘，但只用西班牙語和我交談」：OpenAI 不是唯一一家在搞多模態(tài)音頻模型的公司，Google 的 Gemini 也能接收語音輸入，而且 Gemini 應(yīng)用現(xiàn)在也能像 ChatGPT 一樣說話了。亞馬遜也提前宣布了他們的 Amazon Nova 會有語音模式，不過得等到 2025 年第一季度才能用上。Google 在 9 月份發(fā)布的 NotebookLM 把音頻輸出玩出了新花樣它能生成超級逼真的「播客主持人」對話，不管你給它什么內(nèi)容都行。后來他們還加入了自定義指令功能，我當(dāng)然二話不說就把主持人都變成了鵜鶘：最新的轉(zhuǎn)折出現(xiàn)在 12 月（這個月可真是熱鬧），就是實時視頻功能。ChatGPT 的語音模式現(xiàn)在讓你可以直接和模型分享攝像頭畫面，實時聊聊你看到的東西。Google Gemini 也推出了類似的預(yù)覽功能，這次終于搶在 ChatGPT 前一天發(fā)布了。

這些功能才剛出來幾個星期，我覺得它們的影響力還沒完全顯現(xiàn)出來。如果你還沒試過，真的要體驗一下！Gemini 和 OpenAI 都提供這些功能的 API 接口。OpenAI 最開始用的是比較難搞的 WebSocket API，不過在 12 月他們推出了新的 WebRTC API，用起來簡單多了�，F(xiàn)在，要開發(fā)一個能和用戶語音對話的網(wǎng)頁應(yīng)用已經(jīng)變得超級容易了。一個提示詞做出一個 APP已經(jīng)很普遍了這在 2023 年就可以通過 GPT-4 實現(xiàn)了，但直到 2024 年它的價值才真正凸顯。我們早就知道大語言模型在寫代碼方面有著驚人的能力。如果你給出恰當(dāng)?shù)奶崾驹~，它們能用 HTML、CSS 和 JavaScript（如果配置好相關(guān)環(huán)境，還能用上 React 這樣的工具）為你構(gòu)建一個完整的交互式應(yīng)用程序通常只需要一個提示詞就夠了。Anthropic 在發(fā)布 Claude 3.5 Sonnet 的公告中，順帶介紹了一個突破性的新功能：Claude Artifacts。這個功能起初并沒有引起太大關(guān)注，因為它只是在公告中寫了一下。有了 Artifacts，Claude 可以為你寫一個即時交互式應(yīng)用，然后讓你直接在 Claude 界面中使用它。這就是我用 Claude 生成的一個提取網(wǎng)頁 URL 的應(yīng)用：全面打破GPT-4壟斷、DeepSeek打下訓(xùn)練成本...2024年大模型領(lǐng)域進(jìn)展全復(fù)盤

現(xiàn)在 Claude Artifacts 已經(jīng)成為了我的依靠。很多其他團(tuán)隊也開發(fā)了類似的系統(tǒng)，例如，GitHub 在 10 月份推出了他們的版本：GitHub Spark。Mistral Chat 在 11 月份添加了一個叫 Canvas 的類似功能。來自 Val Town 的 Steve Krause 基于 Cerebras 構(gòu)建了一個版本，展示了一個每秒處理 2000 個 token 的大語言模型如何能在不到一秒的時間內(nèi)對應(yīng)用進(jìn)行迭代更新。到了 12 月，Chatbot Arena 團(tuán)隊為此類功能推出了一個全新的排行榜，用戶可以用兩個不同的模型構(gòu)建相同的交互式應(yīng)用，然后對結(jié)果進(jìn)行投票。全面打破GPT-4壟斷、DeepSeek打下訓(xùn)練成本...2024年大模型領(lǐng)域進(jìn)展全復(fù)盤

排行榜前六位很難找到比這更有說服力的證據(jù)，這項功能現(xiàn)在已經(jīng)成為能在所有主流模型上有效實現(xiàn)的通用功能了。我自己也在為 Datasette 項目開發(fā)類似的功能，目標(biāo)是讓用戶能夠通過提示來構(gòu)建和迭代針對自己數(shù)據(jù)的自定義小部件和數(shù)據(jù)可視化。我還通過 uv 找到了一種編寫一次性 Python 程序的類似模式。這種提示驅(qū)動的自定義界面功能非常強大，而且構(gòu)建起來也很容易（只要你搞定了瀏覽器沙箱的那些棘手細(xì)節(jié)），我預(yù)計在 2025 年會有一大波產(chǎn)品都會推出類似功能。對最佳模型的普遍訪問僅持續(xù)了短短幾個月今年有幾個月的時間，三個最好的可用模型：GPT-4o、Claude 3.5Sonnet 和 Gemini 1.5 Pro，都可以被世界上大多數(shù)人免費使用。OpenAI 在 5 月份向所有用戶開放了 GPT-4o 的免費使用權(quán)限，而 Claude 3.5 Sonnet 從 6 月份發(fā)布起就是免費的。這是一個重大的改變，因為在之前的一年里，免費用戶主要只能使用 GPT-3.5 級別的模型，這導(dǎo)致新用戶對大語言模型的實際能力形成了很不準(zhǔn)確的認(rèn)識。不過，這個時代似乎已經(jīng)結(jié)束了，而且很可能是永久性的，標(biāo)志是 OpenAI 推出了 ChatGPT Pro。這項每月 200 美元的訂閱服務(wù)是訪問他們最強大的新模型（o1 Pro）的唯一途徑。由于 o1 系列（以及「o 系列」未來的模型）背后的訣竅是投入更多的計算時間來獲得更好的結(jié)果，我認(rèn)為那些能免費就能訪問到最頂級的模型的日子，應(yīng)該不會再回來了。AI 「智能體」可能還有點遠(yuǎn)說實話，AI Agents 這個詞讓我很頭疼。它沒有一個統(tǒng)一、清晰且被廣泛認(rèn)可的定義。更糟的是，用這個詞的人似乎從來不承認(rèn)這一點。如果你告訴我你在開發(fā) AI Agents，這基本上等于什么都沒說。除非我能讀心，否則我根本不知道，AI Agents 定義有幾十種，你到底在造哪一種？我看到的 AI Agents 開發(fā)者主要有兩類：一類認(rèn)為 AI Agents 顯然就是替你做事的東西，就像旅行社那樣；另一類人則在想象為大語言模型配備各種工具，讓大模型能夠自主驅(qū)動，執(zhí)行任務(wù)。人們還經(jīng)常提到「autonomy」這個詞，但同樣也沒說清楚是什么意思。（幾個月前我在推特上收集了 211 個定義，我還讓 gemini-exp-1206 試著總結(jié)了一下這些定義。）文檔鏈接：https://lite.datasette.io/?json=https://gist.github.com/simonw/bdc7b894eedcfd54f0a2422ea8feaa80#/data/raw

不管這個詞到底是什么意思，AI Agents 總會給人一種「即將成真」的感覺。撇開術(shù)語不談，我對它們的實用性持懷疑態(tài)度，原因還是一個老問題：大語言模型很容易「輕信」，它會照單全收你告訴它的一切。這就暴露出一個關(guān)鍵問題：如果一個決策輔助系統(tǒng)連真假都分不清，它還能發(fā)揮多大作用？無論是旅行顧問、生活助手，還是研究工具，都會因為這個缺陷而大打折扣。最近就有一個現(xiàn)成的例子：就在前幾天，谷歌搜索鬧了個大烏龍。它把粉絲創(chuàng)作網(wǎng)站上一個虛構(gòu)的《魔法滿屋 2》劇情，當(dāng)成了真實電影來介紹。提示注入就是這種「輕信」的必然結(jié)果。自 2022 年 9 月以來我們一直在討論這個問題，但 2024 年在解決這個問題上，幾乎沒有什么進(jìn)展。我開始覺得，最流行的 AI Agents 概念其實依賴于通用人工智能的實現(xiàn)。要讓一個模型能夠抵抗「輕信」，這真是個艱巨的任務(wù)。評估真的很重要Anthropic 的 Amanda Askell（負(fù)責(zé) Claude 性格塑造的主要工作者）說：系統(tǒng)提示背后那個無聊但至關(guān)重要的秘密就是用測試驅(qū)動開發(fā)。你不是先寫一個系統(tǒng)提示，然后再想辦法測試它，而是先寫好測試，然后找到一個能通過這些測試的系統(tǒng)提示。

2024 年的經(jīng)驗告訴我們：在大語言模型應(yīng)用領(lǐng)域，最重要的核心競爭力是什么？是一套完善的自動化評估系統(tǒng)。為什么這么說？因為有了它，你就能：搶占先機，快人一步采用新模型，加速迭代，不斷優(yōu)化產(chǎn)品，確保功能既可靠又實用。Vercel 的 Malte Ubl 說：當(dāng) @v0 剛推出時，我們非常擔(dān)心要用各種預(yù)處理和后處理的復(fù)雜操作來保護(hù)提示。

于是我們徹底轉(zhuǎn)變思路，給了它充分的發(fā)揮空間。但很快就發(fā)現(xiàn)：沒有評估標(biāo)準(zhǔn)、沒有模型指導(dǎo)、更沒有用戶體驗的提示，就像拿到一臺沒說明書的 ASML 機器就算再先進(jìn)，也無從下手。

我還在探索最適合自己的工作模式。評估的重要性已是共識，但「如何做好評估」這個問題卻仍然缺乏系統(tǒng)性的指導(dǎo)。我一直在通過評估標(biāo)簽追蹤這方面的進(jìn)展。我現(xiàn)在用的「鵜鶘騎自行車」SVG 基準(zhǔn)測試，與那些成熟的評估套件相比，還有很長的路要走。Apple Intelligence 很糟糕但 MLX 庫很出色去年，因為沒有配備 NVIDIA GPU 的 Linux/Windows 機器，我在嘗新模型的時候遇到了不少阻礙。從配置上看，64GB 的 Mac 本應(yīng)該是運行 AI 模型的理想之選 CPU 和 GPU 共享內(nèi)存的設(shè)計堪稱完美。但現(xiàn)實很殘酷：當(dāng)下的 AI 模型在發(fā)布時，基本都是以模型權(quán)重和開發(fā)庫的形式推出，而這些幾乎只適配 NVIDIA 的 CUDA 平臺。llama.cpp 生態(tài)系統(tǒng)在這方面幫了大忙，但真正的突破是蘋果的 MLX 庫，這是一個「專為 Apple Silicon 設(shè)計的數(shù)組框架」。它真的很棒。蘋果的 mlx-lm Python 支持在我的 Mac 上運行各種 MLX 兼容的模型，性能非常出色。Hugging Face 上的 mlx-community 提供了超過 1000 個已轉(zhuǎn)換為必要格式的模型。Prince Canuma 開發(fā)的優(yōu)秀且發(fā)展迅速的 mlx-vlm 項目也把視覺大語言模型帶到了 Apple Silicon 上。我最近用它運行了 Qwen 的 QvQ。雖然 MLX 是個改變游戲規(guī)則的東西，但蘋果自己的 Apple Intelligence 功能大多令人失望。我本來非常期待 Apple Intelligence，在我的預(yù)測中，我認(rèn)為蘋果繪專注于做能保護(hù)用戶隱私，打造讓用戶清晰明了、不會誤解的大語言模型應(yīng)用�，F(xiàn)在這些功能已經(jīng)推出，效果相當(dāng)差。作為一個大語言模型的重度用戶，我知道這些模型能做什么，而蘋果的大語言模型功能只是提供了一個蒼白的模仿。我們得到的是曲解新聞標(biāo)題的通知摘要，以及完全沒用的寫作助手工具，不過 emoji 生成器還是挺有意思的。正在崛起的「推理」模型2024 年最后一個季度最有趣的進(jìn)展是一種新型 LLM 的出現(xiàn)，以 OpenAI 的 o1 模型為代表。要理解這些模型，可以把它們看作是「思維鏈提示」技巧的延伸。這個技巧最早出現(xiàn)在 2022 年 5 月的論文《Large Language Models are Zero-Shot Reasoners》中。這個技巧主要在說，如果你讓模型在解決問題時「大聲思考」，它往往能得到一些原本想不到的結(jié)果。o1 把這個過程進(jìn)一步融入到了模型本身。具體細(xì)節(jié)有點模糊：o1 模型會花費一些「推理 token」來思考問題（用戶看不到這個過程，不過 ChatGPT 界面會顯示一個總結(jié)），然后給出最終答案。這里最大的創(chuàng)新在于，它開創(chuàng)了一種新的擴(kuò)展模型的方式：不單純地通過增加訓(xùn)練時的計算量來提升模型性能，而是讓模型在推理時投入更多計算資源來解決更難的問題。o1 的續(xù)作 o3 在 12 月 20 日發(fā)布，o3 在 ARC-AGI 基準(zhǔn)測試上取得了驚人成績。不過，從 o3 的巨額推理成本來看，它可能花掉了超過 100 萬美元的計算成本！o3 預(yù)計將在 1 月份推出。但我覺得很少有人的實際問題需要這么大的計算開銷，o3 也標(biāo)志著 LLM 架構(gòu)在處理復(fù)雜問題時邁出了實質(zhì)性的一步。OpenAI 并不是這個領(lǐng)域的「獨角戲」。谷歌在 12 月 19 日也推出了他們的第一個類似產(chǎn)品：gemini-2.0-flash-thinking-exp。阿里巴巴的 Qwen 團(tuán)隊在 11 月 28 日發(fā)布了他們的 QwQ 模型，我在自己電腦上就能跑。他們在 12 月 24 日又推出了一個叫 QvQ 的視覺推理模型，我也在本地運行過。DeepSeek 在 11 月 20 日通過他們的聊天界面提供了 DeepSeek-R1-Lite-Preview 模型試用。要深入了解推理擴(kuò)展，我推薦看看 Arvind Narayanan 和 Sayash Kapoor 寫的《Is AI progress slowing down?》這篇文章。Anthropic 和 Meta 還沒什么動靜，不過我賭他們肯定也在開發(fā)自己的推理擴(kuò)展模型。Meta 在 12 月發(fā)表了一篇相關(guān)論文《Training Large Language Models to Reason in a Continuous Latent Space》。目前最好的 LLM 來自中國訓(xùn)練成本不到 600 萬美元？不完全是，但差不多是。這的確是個吸引眼球的好標(biāo)題。今年年底的大新聞是 DeepSeek v3 的發(fā)布，它在圣誕節(jié)當(dāng)天連 README 文件都沒有就被放到了 Hugging Face 上，第二天就發(fā)布了文檔和論文。DeepSeek v3 是一個龐大的 685B 參數(shù)模型，是目前最大的公開授權(quán)模型之一，比 Meta 公司最大的 Llama 系列模型 Llama 3.1 405B 還要大得多�；鶞�(zhǔn)測試結(jié)果表明，它與 Claude 3.5 Sonnet 不相上下。Vibe 基準(zhǔn)測試（又稱聊天機器人競技場）目前將其排在第 7 位，僅次于 Gemini 2.0 和 OpenAI 4o/o1 型號。這是迄今為止排名最高的公開授權(quán)模型。DeepSeek v3 真正令人印象深刻的是其訓(xùn)練成本。該模型在 2,788,000 個 H800 GPU 時內(nèi)完成了訓(xùn)練，估計成本為 5,576,000 美元。Llama 3.1 405B 訓(xùn)練了 30,840,000 個 GPU 小時，是 DeepSeek v3 的 11 倍，但模型的基準(zhǔn)性能卻略遜一籌。美國對中國出口 GPU 的規(guī)定似乎激發(fā)了一些非常有效的訓(xùn)練優(yōu)化。環(huán)境影響得到改善模型（包括托管模型和我可以在本地運行的模型）效率的提高帶來了一個可喜的結(jié)果，那就是在過去幾年中，運行 Prompt 的能耗和對環(huán)境的影響大大降低了。與 GPT-3 時代相比，OpenAI 自己的提示詞器收費也降低了 100 倍。我有可靠消息稱，Google Gemini 和 Amazon Nova（兩家最便宜的模型提供商）都沒有虧本運行提示詞器。我認(rèn)為這意味著，作為個人用戶，我們完全不必為絕大多數(shù)提示詞消耗的能源感到內(nèi)疚。與在街上開車，甚至在 YouTube 上看視頻相比，其影響可能微乎其微。同樣，訓(xùn)練也是如此。DeepSeek v3 的訓(xùn)練費用不到 600 萬美元，這是一個非常好的跡象，表明訓(xùn)練成本可以而且應(yīng)該繼續(xù)下降。對于效率較低的模型，我認(rèn)為將其能源使用量與商業(yè)航班進(jìn)行比較是非常有用的。最大的 Llama 3 模型的成本約等于從紐約到倫敦的一位數(shù)滿載乘客航班。這當(dāng)然不是一無是處，但一旦經(jīng)過訓(xùn)練，該模型就可以供數(shù)百萬人使用，而無需額外的訓(xùn)練成本。環(huán)境影響也變得越來越嚴(yán)重更大的問題在于，未來這些模式所需的基礎(chǔ)設(shè)施建設(shè)將面臨巨大的競爭壓力。谷歌、Meta、微軟和亞馬遜等公司都在斥資數(shù)十億美元建設(shè)新的數(shù)據(jù)中心，這對電網(wǎng)和環(huán)境造成了巨大影響。甚至還有人說要建立新的核電站，但這需要幾十年的時間。這些基礎(chǔ)設(shè)施有必要嗎？DeepSeek v3 的 600 萬美元訓(xùn)練成本和 LLM 價格的持續(xù)暴跌可能暗示了這一點。但是，你是否希望自己成為一名大型科技公司的高管，在幾年后證明自己的觀點是錯誤的情況下，仍然堅持不建設(shè)這些基礎(chǔ)設(shè)施呢？一個有趣的比較點是，19 世紀(jì)鐵路在世界各地的鋪設(shè)方式。修建這些鐵路需要巨額投資，并對環(huán)境造成巨大影響，而且修建的許多線路被證明是不必要的，有時不同公司的多條線路服務(wù)于完全相同的路線。由此產(chǎn)生的泡沫導(dǎo)致了數(shù)次金融崩潰，參見維基百科中的 1873 年恐慌、1893 年恐慌、1901 年恐慌和英國的鐵路狂熱。它們給我們留下了大量有用的基礎(chǔ)設(shè)施，也造成了大量破產(chǎn)和環(huán)境破壞。「泔水」之年2024 年是「泔水」一詞成為藝術(shù)術(shù)語的一年。我在 5 月份寫過一篇文章，對 @deepfates 的這條推文進(jìn)行了擴(kuò)展：實時觀察「泔水」如何成為一個藝術(shù)術(shù)語。就像「垃圾郵件」成為不受歡迎電子郵件的專有名詞一樣，「泔水」也將作為人工智能生成的不受歡迎內(nèi)容的專有名詞被載入字典。

我把這個定義稍微擴(kuò)展了一下：「泔水」指的是人工智能生成的未經(jīng)請求和審查的內(nèi)容。

最后，《衛(wèi)報》和《紐約時報》都引用了我關(guān)于泔水的論述。以下是我在《紐約時報》上說的話：社會需要簡明扼要的方式來談?wù)摤F(xiàn)代人工智能，無論是正面的還是負(fù)面的�！负雎阅欠忄]件，它是垃圾郵件」和「忽略那篇文章，它是泔水」都是有用的教訓(xùn)。

我喜歡「泔水」這個詞，因為它簡明扼要地概括了我們不應(yīng)該使用生成式 AI 的一種方式�！搞锼股踔吝€入選了 2024 年牛津年度詞匯，但最終輸給了「腦腐」。合成訓(xùn)練數(shù)據(jù)很有效「模型崩潰」的概念，似乎出人意料地在公眾意識中根深蒂固。2023 年 5 月，《The Curse of Recursion: Training on Generated Data Makes Models Forget》一文首次描述了這一現(xiàn)象。2024 年 7 月，《自然》雜志以更醒目的標(biāo)題重復(fù)了這一現(xiàn)象：在遞歸生成的數(shù)據(jù)上進(jìn)行訓(xùn)練時，人工智能模型會崩潰。這個想法很有誘惑力：隨著人工智能生成的「泔水」充斥互聯(lián)網(wǎng)，模型本身也會退化，將以一種導(dǎo)致其不可避免滅亡的方式吸收自己的輸出。這顯然沒有發(fā)生。相反，我們看到人工智能實驗室越來越多地在合成內(nèi)容上進(jìn)行訓(xùn)練有意識地創(chuàng)建人工數(shù)據(jù)，以幫助引導(dǎo)他們的模型走向正確的道路。我所見過的對此最好的描述之一來自 Phi-4 技術(shù)報告，其中包括以下內(nèi)容：合成數(shù)據(jù)作為預(yù)訓(xùn)練的重要組成部分正變得越來越普遍，Phi 系列模型也一直強調(diào)合成數(shù)據(jù)的重要性。與其說合成數(shù)據(jù)是有機數(shù)據(jù)的廉價替代品，不如說合成數(shù)據(jù)與有機數(shù)據(jù)相比有幾個直接優(yōu)勢。結(jié)構(gòu)化學(xué)習(xí)和逐步學(xué)習(xí)。在有機數(shù)據(jù)集中，token 之間的關(guān)系往往復(fù)雜而間接�？赡苄枰S多推理步驟才能將當(dāng)前標(biāo)記與下一個 token 聯(lián)系起來，這使得模型很難有效地學(xué)習(xí)下一個 token 的預(yù)測。相比之下，語言模型生成的每個 token 顧名思義都是由前面的標(biāo)記預(yù)測的，這使得模型更容易遵循由此產(chǎn)生的推理模式。另一種常見的技術(shù)是使用較大的模型為較小、較便宜的模型創(chuàng)建訓(xùn)練數(shù)據(jù)，越來越多的實驗室都在使用這種技巧。DeepSeek v3 使用了 DeepSeek-R1 創(chuàng)建的「推理」數(shù)據(jù)。Meta 的 Llama 3.3 70B 微調(diào)使用了超過 2500 萬個合成生成的示例。精心設(shè)計進(jìn)入 LLM 的訓(xùn)練數(shù)據(jù)似乎是創(chuàng)建這些模型的關(guān)鍵所在。從網(wǎng)絡(luò)上抓取全部數(shù)據(jù)并不加區(qū)分地將其投入訓(xùn)練運行的時代已經(jīng)一去不復(fù)返了。LLM 不知何故變得更難用了我一直在強調(diào)，LLM 是強大的用戶工具，它們是偽裝成菜刀的電鋸。它們看起來簡單易用，給聊天機器人輸入信息能有多難？但實際上，要充分利用它們并避免它們的許多陷阱，你需要有深厚的理解力和豐富的經(jīng)驗。如果說在 2024 年，這個問題變得更加嚴(yán)重的話，好消息是我們已經(jīng)建立了可以用人類語言與之對話的計算機系統(tǒng)，它們會回答你的問題，而且通常都能答對。這取決于問題的內(nèi)容、提問的方式，以及問題是否準(zhǔn)確地反映在未記錄的秘密訓(xùn)練集中�？捎孟到y(tǒng)的數(shù)量激增。不同的系統(tǒng)有不同的工具，它們可以用來解決你的問題，比如 Python、JavaScript、網(wǎng)絡(luò)搜索、圖像生成，甚至數(shù)據(jù)庫查詢。所以你最好了解這些工具是什么，它們能做什么，以及如何判斷 LLM 是否使用了它們。你知道 ChatGPT 現(xiàn)在有兩種完全不同的 Python 運行方式嗎？想要構(gòu)建一個與外部 API 對話的 Claude 工件？你最好先了解一下 CSP 和 CORS HTTP 標(biāo)頭。模型可能變得更強大了，但大多數(shù)限制卻沒有改變。OpenAI 的 o1 也許終于能大部分計算「Strawberry」中的 R，但它的能力仍然受限于其作為 LLM 的性質(zhì)，以及它所運行的線束對它的限制。O1 不能進(jìn)行網(wǎng)絡(luò)搜索，也不能使用 Code Interpreter，但 GPT-4o 卻可以兩者都在同一個 ChatGPT UI 中。(如果你要求，o1 會假裝做這些事，這是 2023 年初 URL 幻覺 bug 的回歸）。我們對此有何對策？幾乎沒有。大多數(shù)用戶都被扔進(jìn)了深水區(qū)。默認(rèn)的 LLM 聊天 UI 就像是把全新的電腦用戶扔進(jìn) Linux 終端，然后指望他們自己能搞定一切。與此同時，終端用戶對這些設(shè)備的工作原理和功能所形成的不準(zhǔn)確的心理模型也越來越常見。我見過很多這樣的例子：有人試圖用 ChatGPT 的截圖來贏得爭論這本來就是一個可笑的命題，因為這些模型本來就不可靠，再加上只要你正確提示，就能讓它們說任何話。這也有一個反面：很多見多識廣的人已經(jīng)完全放棄了 LLM，因為他們不明白怎么會有人能從一個有如此多缺陷的工具中獲益。要想最大限度地利用 LLM，關(guān)鍵在于學(xué)會如何使用這種既不可靠又強大無比的技術(shù)。這是一項絕對不顯而易見的技能！在這里，有用的教育內(nèi)容大有可為，但我們需要做得更好，而不是將其全部外包給那些在推特上狂轟濫炸的人工智能騙子。知識分布不均勻現(xiàn)在，大多數(shù)人都聽說過 ChatGPT。有多少人聽說過 Claude？積極關(guān)注這些內(nèi)容的人與 99% 不關(guān)注這些內(nèi)容的人之間存在著巨大的知識鴻溝。變革的速度也無濟(jì)于事。就在上個月，我們看到實時界面的普及，你可以將手機攝像頭對準(zhǔn)某樣?xùn)|西，然后用聲音談?wù)撍?..... 還可以選擇讓它假裝成圣誕老人。大多數(shù)自我認(rèn)證的 nerd 甚至還沒試過這個。鑒于這項技術(shù)對社會的持續(xù)及潛在影響，我不認(rèn)為這種差距的存在是健康的。我希望看到更多的努力來改善這種狀況。LLM 需要更好的批評很多人都非常討厭這種東西。在我混跡的一些地方（Mastodon、Bluesky、Lobste.rs，甚至偶爾在 Hacker News），即使提出「LLM 很有用」，也足以引發(fā)一場大戰(zhàn)。我明白不喜歡這項技術(shù)的理由有很多：環(huán)境影響、訓(xùn)練數(shù)據(jù)（缺乏）道德、缺乏可靠性、負(fù)面應(yīng)用、對人們工作的潛在影響。LLM 絕對值得批評。我們需要對這些問題進(jìn)行討論，找到緩解這些問題的方法，幫助人們學(xué)會如何負(fù)責(zé)任地使用這些工具，使其正面應(yīng)用大于負(fù)面影響。我喜歡對這些東西持懷疑態(tài)度的人。兩年多來，炒作的聲音震耳欲聾，大量的「假冒偽劣商品」和錯誤信息充斥其中。很多錯誤的決定都是在這種炒作的基礎(chǔ)上做出的。敢于批評是一種美德。如果我們想讓有決策權(quán)的人在如何應(yīng)用這些工具方面做出正確的決定，我們首先需要承認(rèn)確實有好的應(yīng)用，然后幫助解釋如何將這些應(yīng)用付諸實踐，同時避免許多非實用性的陷阱。(如果你仍然認(rèn)為根本沒有什么好的應(yīng)用，那我就不知道你為什么能讀完這篇文章了�。�。我認(rèn)為，告訴人們整個領(lǐng)域都是環(huán)境災(zāi)難性的剽竊機器，不斷地胡編亂造，無論這代表了多少真理，都是對這些人的傷害。這里有真正的價值，但實現(xiàn)這種價值并不直觀，需要指導(dǎo)。我們這些了解這些東西的人有責(zé)任幫助其他人弄明白。參考內(nèi)容：https://simonwillison.net/2024/Dec/31/llms-in-2024/#-agents-still-haven-t-really-happened-yet

相關(guān)熱詞： AI大模型 GPT-4 deepseek openai gpt simon willison 機器之心模型

上一篇：個人小項目復(fù)盤：如何使用AI來幫你完成一個簡單工具

下一篇：2024 大模型年度五問：等不來GPT 5怎么過？

全面打破GPT-4壟斷、DeepSeek打下訓(xùn)練成本...2024年大模型領(lǐng)域進(jìn)展全復(fù)盤
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-02 19:02:07 瀏覽：268次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

全面打破GPT-4壟斷、DeepSeek打下訓(xùn)練成本...2024年大模型領(lǐng)域進(jìn)展全復(fù)盤 來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-02 19:02:07 瀏覽：268次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

全面打破GPT-4壟斷、DeepSeek打下訓(xùn)練成本...2024年大模型領(lǐng)域進(jìn)展全復(fù)盤
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-02 19:02:07 瀏覽：268次