從某種意義上說,2024年不僅是技術(shù)突破的一年,更是行業(yè)走向成熟的重要轉(zhuǎn)折點(diǎn)。
這一年,GPT-4級(jí)別的模型不再罕見,許多機(jī)構(gòu)都開發(fā)出了性能超越GPT-4的模型;這一年,運(yùn)行效率顯著提高,成本急劇下降;這一年,多模態(tài)LLM,特別是支持圖像、音頻和視頻處理的模型,變得越來越普遍。
技術(shù)的進(jìn)步也帶來了應(yīng)用場(chǎng)景的繁榮。基于提示詞的應(yīng)用程序生成成為行業(yè)標(biāo)配,語音對(duì)話和實(shí)時(shí)攝像頭交互讓科幻場(chǎng)景成為現(xiàn)實(shí)。當(dāng)年末OpenAI推出o1系列推理型模型,開創(chuàng)通過優(yōu)化推理階段提升性能的新范式時(shí),整個(gè)行業(yè)又向前邁進(jìn)了一大步。
當(dāng)?shù)貢r(shí)間12月31日,獨(dú)立AI研究員、Django締造者、Simon Willison撰文回顧總結(jié)2024年大語言模型領(lǐng)域的重要事件,并列出了近20個(gè)關(guān)鍵主題、重要時(shí)刻和行業(yè)洞察。
以下為重點(diǎn)內(nèi)容:
GPT-4壁壘被全面打破:截至2024年底,已有18家機(jī)構(gòu)的70個(gè)模型在ChatbotArena排行榜上的得分超過了2023年3月發(fā)布的原始GPT-4。
頂級(jí)大模型的訓(xùn)練成本大幅降低:DeepSeek v3僅需557萬美元訓(xùn)練成本,便可達(dá)到與Claude 3.5 Sonnet等模型比肩的性能。
LLM價(jià)格大幅下降:由于競(jìng)爭(zhēng)加劇和效率提高,LLM的運(yùn)行成本大幅下降。例如,谷歌的Gemini1.5Flash8B比2023年的GPT-3.5Turbo便宜27倍。更低的成本將進(jìn)一步推動(dòng)LLM的普及和應(yīng)用。
多模態(tài)視覺模型普及,音頻和視頻模型開始出現(xiàn):2024年,幾乎所有主要的模型供應(yīng)商都發(fā)布了多模態(tài)模型,能夠處理圖像、音頻和視頻輸入。這使得LLM能夠處理更豐富的信息類型,拓展了其應(yīng)用領(lǐng)域。
語音和實(shí)時(shí)攝像頭模式將科幻小說變?yōu)楝F(xiàn)實(shí):ChatGPT和GoogleGemini現(xiàn)在都支持語音和實(shí)時(shí)攝像頭模式,用戶可以通過語音和視頻與模型進(jìn)行交互。這將為用戶提供更自然、更便捷的交互方式。
部分GPT-4級(jí)模型可在筆記本電腦上運(yùn)行:得益于模型效率的提升,一些GPT-4級(jí)模型,例如Qwen2.5-Coder-32B和Meta的Llama3.370B,現(xiàn)在可以在64GB內(nèi)存的筆記本電腦上運(yùn)行。這標(biāo)志著LLM的硬件要求正在降低,為更廣泛的應(yīng)用場(chǎng)景打開了大門。
基于Prompt的應(yīng)用程序生成已成為常態(tài):LLM現(xiàn)在可以根據(jù)Prompt生成完整的交互式應(yīng)用程序,包括HTML、CSS和JavaScript代碼。Anthropic的ClaudeArtifacts、GitHubSpark和MistralChat的Canvas等工具都提供了這項(xiàng)功能。這一功能極大地簡(jiǎn)化了應(yīng)用程序開發(fā)流程,為非專業(yè)程序員提供了構(gòu)建應(yīng)用程序的途徑。
對(duì)最佳模型的普遍訪問只持續(xù)了幾個(gè)月:OpenAI推出ChatGPTPro付費(fèi)訂閱服務(wù),限制了對(duì)最佳模型的免費(fèi)訪問。這反映了LLM商業(yè)模式的演變,未來可能會(huì)出現(xiàn)更多付費(fèi)模式。
“Agent”仍未真正實(shí)現(xiàn):“Agent”一詞缺乏明確的定義,其效用也受到質(zhì)疑,因?yàn)長(zhǎng)LM容易輕信虛假信息。如何解決LLM的可信度問題是實(shí)現(xiàn)“Agent”的關(guān)鍵。
評(píng)估至關(guān)重要:為L(zhǎng)LM系統(tǒng)編寫良好的自動(dòng)評(píng)估對(duì)于構(gòu)建有用的應(yīng)用程序至關(guān)重要。有效的評(píng)估體系能夠幫助開發(fā)者更好地理解和改進(jìn)LLM。
合成訓(xùn)練數(shù)據(jù)效果良好:越來越多的AI實(shí)驗(yàn)室使用合成數(shù)據(jù)來訓(xùn)練LLM,這有助于提高模型的性能和效率。合成數(shù)據(jù)可以克服真實(shí)數(shù)據(jù)的局限性,為L(zhǎng)LM訓(xùn)練提供更靈活的選擇。
LLM的環(huán)境影響喜憂參半:一方面,模型效率的提升降低了單次推理的能源消耗。另一方面,大型科技公司為L(zhǎng)LM構(gòu)建基礎(chǔ)設(shè)施的競(jìng)賽導(dǎo)致了大量的數(shù)據(jù)中心建設(shè),加劇了對(duì)電力網(wǎng)絡(luò)和環(huán)境的壓力。
LLM使用難度增加:隨著LLM功能的不斷擴(kuò)展,其使用難度也在增加。用戶需要更深入地了解LLM的工作原理和局限性,才能更好地利用其優(yōu)勢(shì)。
原文編譯如下,祝大家元旦快樂,enjoy:
GPT-4:從"無法企及"到"普遍超越"
在過去的一年里,大語言模型(LLM)領(lǐng)域經(jīng)歷了翻天覆地的變化;赝2023年底,OpenAI的GPT-4還是一座難以逾越的高峰,其他AI實(shí)驗(yàn)室都在思考同一個(gè)問題:OpenAI究竟掌握了什么獨(dú)特的技術(shù)秘密?
一年后的今天,形勢(shì)已發(fā)生根本性轉(zhuǎn)變:據(jù)Chatbot Arena排行榜顯示,原始版本的GPT-4(GPT-4-0314)已跌至第70位左右。目前,已有18家機(jī)構(gòu)的70個(gè)模型在性能上超越了這個(gè)曾經(jīng)的標(biāo)桿。
谷歌的Gemini 1.5 Pro在2024年2月率先突破,不僅達(dá)到GPT-4水平,還帶來兩項(xiàng)重大創(chuàng)新:它將輸入上下文長(zhǎng)度提升至100萬token(后來更新至200萬),并首次實(shí)現(xiàn)了視頻輸入處理能力,為整個(gè)行業(yè)開創(chuàng)了新的可能性。
緊隨其后,Anthropic于3月推出Claude 3系列,其中Claude 3 Opus迅速成為業(yè)界新標(biāo)桿。6月發(fā)布的Claude 3.5 Sonnet更是將性能推向新高度,即使在10月獲得重大升級(jí)后仍保持相同版本號(hào)(業(yè)內(nèi)非正式稱為Claude 3.6)。
2024年最顯著的技術(shù)進(jìn)步是模型處理長(zhǎng)文本能力的全面提升。僅僅一年前,大多數(shù)模型還局限于4096或8192個(gè)token的處理能力,只有Claude 2.1例外地支持20萬token。而現(xiàn)在,幾乎所有主流提供商都支持10萬以上token的處理能力。這一進(jìn)步極大拓展了LLM的應(yīng)用范圍用戶不僅可以輸入整本書籍進(jìn)行內(nèi)容分析,更重要的是,在編程等專業(yè)領(lǐng)域,通過輸入大量示例代碼,模型能夠提供更準(zhǔn)確的解決方案。
目前,超越GPT-4的陣營(yíng)已經(jīng)相當(dāng)龐大。如果你今天瀏覽Chatbot Arena排行榜,GPT-4-0314已經(jīng)跌至第70位左右。擁有得分較高的模型的18個(gè)組織是:Google、OpenAI、阿里巴巴、Anthropic、Meta、Reka AI、01 AI、亞馬遜、Cohere、DeepSeek、Nvidia、Mistral、NexusFlow、Zhipu AI、xAI、AI21 Labs、Princeton和騰訊。
這種變化深刻地反映了AI領(lǐng)域的快速發(fā)展。在2023年,超越GPT-4還是一個(gè)值得載入史冊(cè)的重大突破,而到了2024年,這似乎已經(jīng)成為衡量頂級(jí)AI模型的基本門檻。
部分GPT-4級(jí)模型實(shí)現(xiàn)個(gè)人電腦本地運(yùn)行
2024年,大語言模型領(lǐng)域迎來另一重要突破:GPT-4級(jí)別的模型已可在普通個(gè)人電腦上運(yùn)行。這打破了"高性能AI模型必須依賴昂貴數(shù)據(jù)中心"的傳統(tǒng)認(rèn)知。
以64GB內(nèi)存的M2 MacBook Pro為例,同一臺(tái)2023年僅能勉強(qiáng)運(yùn)行GPT-3級(jí)模型的設(shè)備,現(xiàn)在已能運(yùn)行多個(gè)GPT-4級(jí)模型,包括開源的Qwen2.5-Coder-32B和Meta's Llama 3.3 70B。
這一突破令人驚訝,因?yàn)榇饲斑\(yùn)行GPT-4級(jí)模型被認(rèn)為需要一臺(tái)數(shù)據(jù)中心級(jí)服務(wù)器,配備一個(gè)或多個(gè)價(jià)值40000美元以上的GPU。
更引人注目的是Meta的Llama 3.2系列。其1B和3B版本雖不及GPT-4,但性能遠(yuǎn)超模型規(guī)模預(yù)期。用戶甚至可通過MLC Chat iOS應(yīng)用在iPhone上運(yùn)行Llama 3.2 3B,這個(gè)僅需2GB存儲(chǔ)空間的模型就能以每秒20個(gè)token的速度生成內(nèi)容。
它們能運(yùn)行的事實(shí)證明了,很多模型在過去一年中取得了令人難以置信的訓(xùn)練和推理性能提升。
由于競(jìng)爭(zhēng)和效率提高,模型價(jià)格暴跌
過去12個(gè)月里,大模型的價(jià)格出現(xiàn)了急劇下降。
2023年12月,OpenAI對(duì)GPT-4收取30美元/百萬輸入tokens的費(fèi)用。如今,30美元/mTok的價(jià)格可以讓你獲得OpenAI最昂貴的模型o1。GPT-4o的價(jià)格為2.50美元(比 GPT-4 便宜12倍),GPT-4o mini的價(jià)格為0.15美元/mTok比GPT-3.5便宜近7倍,而且功能強(qiáng)大得多。
其他模型供應(yīng)商收費(fèi)更低。Anthropic的Claude 3 Haiku(3 月份推出,但仍是其最便宜的型號(hào))價(jià)格為0.25 美元/mTok。谷歌的Gemini 1.5 Flash價(jià)格為0.075美元/mTok,而他們的Gemini 1.5 Flash 8B價(jià)格為0.0375美元/mTok 比去年的GPT-3.5 Turbo便宜27倍。
這些價(jià)格下降是由兩個(gè)因素推動(dòng)的:競(jìng)爭(zhēng)加劇和效率提高。
多模態(tài) LLM 興起
一年前,最引人注目的例子是GPT-4 Vision,它于2023年11月在OpenAI的DevDay上發(fā)布。谷歌的多模態(tài)模型Gemini 1.0于2023 年 12 月 7 日發(fā)布。
2024年,幾乎每個(gè)重要的模型供應(yīng)商都發(fā)布了多模態(tài)模型。我們?cè)?月看到了 Anthropic的Claude 3系列, 4月看到了Gemini 1.5 Pro (圖像、音頻和視頻),然后9月帶來了Qwen2-VL和Mistral的Pixtral 12B以及 Meta 的Llama 3.2 11B和90B視覺模型。我們?cè)?0月獲得了來自O(shè)penAI 的音頻輸入和輸出,然后11月看到了Hugging Face 的 SmolVLM ,12月看到了來自 Amazon Nova 的圖像和視頻模型。
多模態(tài)是LLM的巨大進(jìn)步,能夠針對(duì)圖像(以及音頻和視頻)運(yùn)行提示是應(yīng)用這些模型的一種令人著迷的新方法。
語音和實(shí)時(shí)視頻釋放想象力
開始出現(xiàn)的音頻和實(shí)時(shí)視頻模式值得特別提及。
與 ChatGPT 對(duì)話的能力于 2023 年 9 月首次實(shí)現(xiàn),不過當(dāng)時(shí)只是語音轉(zhuǎn)文本模型和新的文本轉(zhuǎn)語音模型的對(duì)接。
5月13日發(fā)布的 GPT-4o 進(jìn)行了一個(gè)全新語音模式的演示,該模型可以接受音頻輸入并輸出聽起來非常逼真的語音,而無需單獨(dú)的 TTS 或 STT 模型。
當(dāng) ChatGPT 高級(jí)語音模式終于推出時(shí)(從 8 月到 9 月緩慢推出),效果非常驚人。OpenAI 并不是唯一一家擁有多模態(tài)音頻模型的團(tuán)隊(duì)。谷歌的 Gemini 也接受音頻輸入,而且 Google Gemini 應(yīng)用程序現(xiàn)在可以以與 ChatGPT 類似的方式說話。亞馬遜還預(yù)告了Amazon Nova 的語音模式,但該模式將于 2025 年第一季度推出。
Google于 9 月發(fā)布的 NotebookLM將音頻輸出提升到了一個(gè)新水平,它可以讓兩個(gè)“播客主持人”就您輸入到其工具中的任何內(nèi)容進(jìn)行令人毛骨悚然的逼真對(duì)話。
12 月份,實(shí)時(shí)視頻成為新的焦點(diǎn)。ChatGPT現(xiàn)在實(shí)現(xiàn)了與模型分享攝像頭,并實(shí)時(shí)討論所看到的內(nèi)容。Google Gemini 也展示了具有相同功能的預(yù)覽版本。
即時(shí)驅(qū)動(dòng)的應(yīng)用程序生成已經(jīng)是一種商品
2023 年的 GPT-4 就已實(shí)現(xiàn)這一點(diǎn),但其提供的價(jià)值在 2024 年才顯現(xiàn)出來。
大模型在編寫代碼方面非常出色,如果你正確地給出一個(gè)提示,它們就可以使用 HTML、CSS 和 JavaScript構(gòu)建一個(gè)完整的交互式應(yīng)用程序。
當(dāng) Anthropic 發(fā)布Claude Artifacts時(shí),他們大力推動(dòng)了這一想法,這是一項(xiàng)突破性的新功能。通過 Artifacts,Claude 可以為您編寫一個(gè)按需交互式應(yīng)用程序,然后讓您直接在 Claude 界面內(nèi)使用它。
從那時(shí)起,許多其他團(tuán)隊(duì)也建立了類似的系統(tǒng)。GitHub 于 10 月發(fā)布了他們的版本GitHub Spark。Mistral Chat于 11 月將其添加為名為 Canvas 的功能。
這個(gè)提示驅(qū)動(dòng)的自定義界面功能非常強(qiáng)大且易于構(gòu)建,預(yù)計(jì)它將在 2025 年作為一項(xiàng)功能出現(xiàn)在廣泛的產(chǎn)品中。
最佳模型的免費(fèi)使用僅持續(xù)了短短幾個(gè)月
今年短短幾個(gè)月內(nèi),三款最佳型號(hào)GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro均在全球大部分地區(qū)免費(fèi)提供。
OpenAI于 5 月向所有用戶免費(fèi)提供 GPT-4o ,而 Claude 3.5 Sonnet 自6 月發(fā)布以來也免費(fèi)提供。這是一個(gè)重大變化,因?yàn)樵谶^去的一年里,免費(fèi)用戶大多只能使用 GPT-3.5 級(jí)別的模型。
隨著 OpenAI 推出ChatGPT Pro,那個(gè)時(shí)代似乎已經(jīng)結(jié)束,而且可能永遠(yuǎn)結(jié)束了。這項(xiàng)每月 200 美元的訂閱服務(wù)是訪問其功能最強(qiáng)大的模型 o1 Pro 的唯一途徑。
由于 o1 系列(以及其他的未來模型)背后的技巧是花費(fèi)更多的計(jì)算時(shí)間來獲得更好的結(jié)果,我認(rèn)為免費(fèi)使用最佳可用模型的日子不太可能再回來。
“Agent” 還沒有真正出現(xiàn)
“Agent”一詞非常令人沮喪,因?yàn)樗狈我、明確且廣泛理解的含義。如果你告訴我你正在構(gòu)建“Agent”,那么你幾乎沒有向我傳達(dá)任何信息。
我看到的“Agent”的兩個(gè)主要類別是:一種認(rèn)為AI 智能體是那些代表你行動(dòng)的東西類似旅行 Agent的模型;另一種則認(rèn)為AI 智能體是能夠訪問工具并通過這些工具在解決問題過程中循環(huán)運(yùn)行的大語言模型(LLM)。此外,“自治”這個(gè)術(shù)語也常常被加入進(jìn)來,但同樣沒有給出明確的定義。
不管該術(shù)語的含義如何,Agent仍然有那種永遠(yuǎn)“即將到來”的感覺。拋開術(shù)語不談,我仍然對(duì) Agent的實(shí)用性持懷疑態(tài)度。
評(píng)估真的很重要
2024 年,有一點(diǎn)變得非常明顯:為 LLM 驅(qū)動(dòng)的系統(tǒng)編寫良好的自動(dòng)化評(píng)估是在這些模型之上構(gòu)建有用應(yīng)用程序最需要的技能。
如果您擁有強(qiáng)大的評(píng)估套件,您就可以更快地采用新模型,更好地進(jìn)行迭代,并構(gòu)建比競(jìng)爭(zhēng)對(duì)手更可靠、更有用的產(chǎn)品功能。
每個(gè)人都知道評(píng)估很重要,但仍然缺乏關(guān)于如何最好地實(shí)施它們的良好指導(dǎo)。
Apple Intelligence 很糟糕,Apple 的 MLX 庫很棒
作為 Mac 用戶,去年我覺得缺少一臺(tái)配備 NVIDIA GPU 的 Linux/Windows 機(jī)器,這對(duì)嘗試新模型來說是一個(gè)巨大的劣勢(shì)。2024 年就好多了。
在實(shí)際操作中,許多模型是以模型權(quán)重和庫的形式發(fā)布的,這些庫更偏向于支持NVIDIA的CUDA,而不是其他平臺(tái)。
在這方面,llama.cpp生態(tài)系統(tǒng)提供了很大幫助,但真正的突破是蘋果的MLX庫,“一個(gè)為Apple Silicon設(shè)計(jì)的數(shù)組框架”。它非常棒。
蘋果的mlx-lm Python支持在我的Mac上運(yùn)行多種MLX兼容模型,性能出色。Hugging Face上的mlx-community提供了超過1,000個(gè)已經(jīng)轉(zhuǎn)換為所需格式的模型。
雖然MLX是一個(gè)游戲規(guī)則改變者,但蘋果自家的“Apple Intelligence”功能大多令人失望。Apple 的 LLM 功能只是對(duì)前沿 LLM 功能的拙劣模仿。
“推理”模型的興起
2024 年最后一個(gè)季度最有趣的發(fā)展是新的推理模型的出現(xiàn)。以 OpenAI 的 o1 模型為例最初于 9 月 12 日作為 o1-preview 和 o1-mini 發(fā)布。
推理模型最大的創(chuàng)新是它開辟了一種擴(kuò)展模型的新方法:模型不再僅僅通過在訓(xùn)練時(shí)增加計(jì)算來提高模型性能,而是可以通過在推理上投入更多的計(jì)算來解決更難的問題。
o1 的續(xù)集o3于12月20日發(fā)布,并在ARC-AGI 基準(zhǔn)測(cè)試中取得了令人印象深刻的結(jié)果,但是成本也不低,預(yù)計(jì)總的計(jì)算時(shí)間費(fèi)用成本超過100 萬美元。o3預(yù)計(jì)將于2025年1月正式開放使用。
OpenAI并不是唯一一家參與該類別的公司。谷歌于12月19日發(fā)布了該類別的首款參賽者gemini-2.0-flash-thinking-exp。阿里巴巴Qwen團(tuán)隊(duì)于11月28日發(fā)布了他們的QwQ模型;DeepSeek于11月20日通過其聊天界面開放了DeepSeek-R1-Lite-Preview模型供試用。Anthropic和 Meta 尚未有任何進(jìn)展,但是它們一定會(huì)跟進(jìn)。
中國(guó)最好的LLM訓(xùn)練成本低于600萬美元?
2024年年底的重大新聞是DeepSeek v3 的發(fā)布。DeepSeek v3 是一個(gè)巨大的 685B 參數(shù)模型,部分基準(zhǔn)測(cè)試將其表現(xiàn)與 Claude 3.5 Sonnet 并列。
Vibe 基準(zhǔn)測(cè)試目前將其排在第7位,僅次于 Gemini 2.0 和 OpenAI 4o/o1 模型。這是迄今為止排名最高的開源許可模型。
DeepSeek v3 真正令人印象深刻的是訓(xùn)練成本。該模型在 2788000 個(gè) H800 GPU 小時(shí)上進(jìn)行訓(xùn)練,估計(jì)成本為 5576000 美元。Llama 3.1 405B 訓(xùn)練了 30,840,000 個(gè) GPU 小時(shí)是 DeepSeek v3 所用時(shí)間的 11 倍,但基準(zhǔn)測(cè)試結(jié)果略差。
環(huán)境影響有所改善
模型(托管模型和在本地運(yùn)行的模型)效率的提高帶來了一個(gè)可喜的結(jié)果是,在過去幾年中,運(yùn)行提示詞的能源使用量和環(huán)境影響已大幅下降。
但是在訓(xùn)練和運(yùn)行模型的基礎(chǔ)設(shè)施建設(shè)仍然面臨著巨大的競(jìng)爭(zhēng)壓力。谷歌、Meta、微軟和亞馬遜等公司都投入了數(shù)十億美元建設(shè)新數(shù)據(jù)中心,這對(duì)電網(wǎng)和環(huán)境產(chǎn)生了非常重大的影響,甚至有人談?wù)摻ㄔO(shè)新核電站。
這種基礎(chǔ)設(shè)施是必要的嗎?DeepSeek v3 的 600 萬美元訓(xùn)練費(fèi)用和大模型價(jià)格的持續(xù)下跌可能暗示它不是必要的。
合成訓(xùn)練數(shù)據(jù)效果很好
現(xiàn)在流行一種說法,隨著互聯(lián)網(wǎng)充斥著人工智能生成的垃圾,模型本身將會(huì)退化,以自己的輸出為食,最終導(dǎo)致其不可避免的消亡。
但這顯然不會(huì)發(fā)生。相反,我們看到人工智能實(shí)驗(yàn)室越來越多地使用合成內(nèi)容進(jìn)行訓(xùn)練故意創(chuàng)建人工數(shù)據(jù)來幫助引導(dǎo)他們的模型朝著正確的方向發(fā)展。合成數(shù)據(jù)作為預(yù)訓(xùn)練的重要組成部分正變得越來越普遍。
另一種常用技巧是使用較大的模型來幫助為較小、更便宜的替代方案創(chuàng)建訓(xùn)練數(shù)據(jù)越來越多的實(shí)驗(yàn)室使用這種方法。DeepSeek v3 使用了 DeepSeek-R1 創(chuàng)建的“推理”數(shù)據(jù)。
精心設(shè)計(jì)用于 LLM 的訓(xùn)練數(shù)據(jù)似乎是創(chuàng)建這些模型的全部。從網(wǎng)絡(luò)上抓取完整數(shù)據(jù)并隨意將其投入訓(xùn)練運(yùn)行的日子已經(jīng)一去不復(fù)返了。
大模型越來越難使用
我一直在強(qiáng)調(diào)的一個(gè)觀點(diǎn)是,LLM是面向高級(jí)用戶的工具。它們看起來很簡(jiǎn)單向聊天機(jī)器人輸入消息能有多難呢?但實(shí)際上,要充分利用它們并避免它們的種種陷阱,你需要擁有深厚的理解力和經(jīng)驗(yàn)。
如果說有什么問題變得更糟,那就是在2024年,這個(gè)問題變得更加嚴(yán)重了。
我們已經(jīng)構(gòu)建了可以用人類語言進(jìn)行對(duì)話的計(jì)算機(jī)系統(tǒng),它們可以回答你的問題,并且通常能夠回答正確!... 但這要看問題的類型,提問的方式,以及問題是否準(zhǔn)確地體現(xiàn)在那些未公開的、秘密的訓(xùn)練數(shù)據(jù)集中。
默認(rèn)的LLM聊天界面就像是把完全沒有電腦經(jīng)驗(yàn)的新用戶丟進(jìn)Linux終端,讓他們自己摸索著去弄明白。與此同時(shí),終端用戶對(duì)這些工具的理解模型也越來越不準(zhǔn)確,且充滿誤解。
很多信息更全面的人已經(jīng)完全放棄了LLM,因?yàn)樗麄兛床怀鋈魏稳四軓娜绱硕嗳毕莸墓ぞ咧蝎@益。想要從LLM中獲得最大價(jià)值的關(guān)鍵技能,就是學(xué)會(huì)如何使用那些既不可靠又極為強(qiáng)大的技術(shù)。掌握這一技能顯然并不容易。
知識(shí)分布極其不均
現(xiàn)在大多數(shù)人都聽說過ChatGPT,然而有多少人聽說過Claude呢?那些積極關(guān)注這些技術(shù)的人與99%不關(guān)心的人之間的知識(shí)差距巨大。
變化的速度也并沒有幫助緩解這個(gè)問題。僅在過去一個(gè)月里,我們就見證了直播接口的普及,你可以用手機(jī)攝像頭對(duì)準(zhǔn)某個(gè)物體,用語音與它對(duì)話……。大多數(shù)自認(rèn)為是極客的人甚至還沒嘗試過這個(gè)功能。
考慮到這項(xiàng)技術(shù)對(duì)社會(huì)的持續(xù)(以及潛在)影響,我認(rèn)為這種差距的大小是不健康的。我希望能有更多的努力投入到改善這一點(diǎn)上。
LLM需要更好的批評(píng)
很多人對(duì)大模型技術(shù)感到極度反感。在一些公開論壇上,僅僅提出“LLM是有用的”這個(gè)觀點(diǎn),就足以引發(fā)一場(chǎng)大爭(zhēng)論。
有很多理由讓人不喜歡這項(xiàng)技術(shù)環(huán)境影響、訓(xùn)練數(shù)據(jù)的(缺乏)倫理性、可靠性不足、負(fù)面應(yīng)用,以及對(duì)人們工作可能產(chǎn)生的負(fù)面影響。
LLM絕對(duì)值得批評(píng)。我們需要討論這些問題,尋找緩解方法,并幫助人們學(xué)習(xí)如何負(fù)責(zé)任地使用這些工具,使其正面應(yīng)用超過負(fù)面影響。
原文鏈接:https://simonwillison.net/2024/Dec/31/llms-in-2024/