當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能應(yīng)用 > Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-10 08:33:03 瀏覽：447次

導(dǎo)讀：新智元報(bào)道編輯：LRS【新智元導(dǎo)讀】10個(gè)AI領(lǐng)域，50篇精品論文，每周看一篇，到2026就能成「AI工程」專家！別再反復(fù)看Transformer之類的古董級(jí)論文了，該更新論文清單了！現(xiàn)行的AI從工程技術(shù)角度可以分為十個(gè)領(lǐng)域：前沿大模型、基準(zhǔn)評(píng)估、提示思維鏈、檢索增強(qiáng)生成、智能體、代碼生成、視覺(jué)、聲音、圖像/視頻擴(kuò)散、微調(diào)，每個(gè)領(lǐng)域選出5篇代表作和相關(guān)工作，看完+實(shí)踐=AI全棧大神 ......

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

新智元報(bào)道

編輯：LRS【新智元導(dǎo)讀】10個(gè)AI領(lǐng)域，50篇精品論文，每周看一篇，到2026就能成「AI工程」專家！別再反復(fù)看Transformer之類的古董級(jí)論文了，該更新論文清單了！現(xiàn)行的AI從工程技術(shù)角度可以分為十個(gè)領(lǐng)域：前沿大模型、基準(zhǔn)評(píng)估、提示思維鏈、檢索增強(qiáng)生成、智能體、代碼生成、視覺(jué)、聲音、圖像/視頻擴(kuò)散、微調(diào)，每個(gè)領(lǐng)域選出5篇代表作和相關(guān)工作，看完+實(shí)踐=AI全棧大神！

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

前沿大模型

OpenAI發(fā)布的ChatGPT把大模型帶入普通消費(fèi)者的日常生活中，旗下的GPT系列模型也一直是行業(yè)標(biāo)桿，其中GPT1/2/3, Codex, InstructGPT, GPT4都有論文，GPT3.5, 4o, o1和o3只有相關(guān)的宣發(fā)活動(dòng)。 Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

GPT-4論文鏈接：https://arxiv.org/pdf/2303.08774

Claude 3和Gemini算是OpenAI最大的競(jìng)爭(zhēng)對(duì)手，其論文也值得一讀；模型的最新迭代版本為Claude 3.5 Sonnet和Gemini 2.0 Flash/Flash Thinking/Gemma 2.0。

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接：https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf

另一個(gè)分支是開(kāi)源模型Llama家族，可以分為1/2/3代；家族樹(shù)下的其他子模型還包括Mistral 7B, Mixtral和Pixtral。

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接：https://arxiv.org/pdf/2407.21783

爆火的DeepSeek V1, Coder, V2, V3在開(kāi)源大模型也有一席之地，以低成本高效率著稱。

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接：https://arxiv.org/pdf/2401.02954

最后是Apple Intellgence論文，在Mac和iPhone上都有部署。

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接：https://arxiv.org/pdf/2407.21075

其他非最前沿的模型也值得了解，包括AI2（旗下的Olmo、Molmo、OlmOE、Tülu 3、Olmo 2）、Grok、Amazon Nova、Yi、Reka、Jamba、Cohere、Nemotron、Microsoft Phi、HuggingFace SmolLM等；Mamba1/2和RWKV有可能在未來(lái)發(fā)力。

基準(zhǔn)和評(píng)估

MMLU Pro, GPQA Diamond和BIG-Bench Hard是頂尖AI實(shí)驗(yàn)室常用的知識(shí)基準(zhǔn)評(píng)估。 Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

MMLU-Pro論文鏈接：https://arxiv.org/pdf/2406.01574

MuSR主要評(píng)估自然語(yǔ)言敘事中的多步軟推理任務(wù)，特點(diǎn)是長(zhǎng)上下文，其他基準(zhǔn)包括LongBench, BABILong和RULER

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接：https://arxiv.org/pdf/2310.16049

MATH基準(zhǔn)主要關(guān)注數(shù)學(xué)競(jìng)賽，包括12500個(gè)高難度數(shù)學(xué)題目，每個(gè)問(wèn)題都有完整的逐步解決方案，前沿研究主要關(guān)注其子集MATH level 5, AIME, FrontierMath, AMC10/AMC12

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接：https://arxiv.org/pdf/2103.03874

IFEval評(píng)估語(yǔ)言模型的指令遵循能力，主要關(guān)注「可自動(dòng)驗(yàn)證的指令」，比如「寫(xiě)超過(guò)400字」和「至少提到人工智能3次」等�？偣灿�25個(gè)指令類型，構(gòu)建了越500個(gè)提示；其他可用基MT-Bench

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接：https://arxiv.org/pdf/2311.07911

ARC AGI用一組抽象和推理語(yǔ)料庫(kù)（Abstraction and Reasoning Corpus），模擬人類來(lái)測(cè)試模型的智能程度。

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接：https://arxiv.org/pdf/1911.01547

提示、上下文學(xué)習(xí)（ICL）和思維鏈

馬里蘭大學(xué)、OpenAI、斯坦福等13個(gè)機(jī)構(gòu)的研究人員發(fā)布的「提示詞報(bào)告」，對(duì)提示技術(shù)進(jìn)行分類，提供了提示工程的最佳實(shí)踐和指南，算是目前最全面的提示工程綜述報(bào)告。 Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接：https://arxiv.org/pdf/2406.06608

思維鏈（Chain-of-Thought）：在足夠大的語(yǔ)言模型中，只需要在提示詞中加入特定模版，就能引導(dǎo)大模型逐步思考，就能在各種算術(shù)、常識(shí)和符號(hào)推理任務(wù)上實(shí)現(xiàn)更高的性能，甚至比微調(diào)還管用。

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接：https://arxiv.org/abs/2201.11903

思維樹(shù)（Tree of Thoughts）克服了思維鏈只能基于token的、從左到右決策的缺陷，使得語(yǔ)言模型可以通過(guò)考慮多種不同的推理路徑和自我評(píng)估選擇來(lái)決定下一步行動(dòng)，從而進(jìn)行有意識(shí)的決策，并在必要時(shí)進(jìn)行前瞻或回溯以做出全局選擇；

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接：https://arxiv.org/pdf/2305.10601

Prompt Tuning不對(duì)模型參數(shù)進(jìn)行調(diào)整，而是通過(guò)反向傳播學(xué)習(xí)「軟提示」，可以將凍結(jié)的模型用于多個(gè)下游任務(wù)。

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接：https://aclanthology.org/2021.emnlp-main.243.pdf

自動(dòng)提示工程師（APE）能夠避免人工編寫(xiě)低質(zhì)量提示詞帶來(lái)的性能影響，在指令候選池中進(jìn)行搜索優(yōu)化，可用于自動(dòng)生成和選擇指令，最終在19/24個(gè)任務(wù)上實(shí)現(xiàn)了比人類標(biāo)注指令的性能更好。

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接：https://arxiv.org/pdf/2211.01910

檢索增強(qiáng)生成（RAG）

RAG是2024年AI工程的核心，主要難點(diǎn)在于信息檢索，可用的技術(shù)包括TF-IDF, BM25, FAISS, HNSW等。2020年，Meta首次提出RAG概念，結(jié)合預(yù)訓(xùn)練參數(shù)和非參數(shù)記憶用于語(yǔ)言生成，其中非參數(shù)記憶通過(guò)「預(yù)訓(xùn)練神經(jīng)檢索器」訪問(wèn)「維基百科的稠密向量」索引獲得，結(jié)果在三個(gè)開(kāi)放問(wèn)答任務(wù)上都實(shí)現(xiàn)了最佳性能，并且生成的內(nèi)容更具體、多樣化和符合事實(shí)。

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接：https://arxiv.org/pdf/2005.11401

使用文本嵌入（word embedding）進(jìn)行「語(yǔ)義文本相似度」計(jì)算是一個(gè)常見(jiàn)的檢索技術(shù)。

METB是一個(gè)大規(guī)模文本嵌入基準(zhǔn)，包括58個(gè)數(shù)據(jù)集和112種語(yǔ)言，結(jié)果是沒(méi)有某一種文本嵌入方法在所有任務(wù)中都占據(jù)絕對(duì)主導(dǎo)地位。

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接：https://arxiv.org/pdf/2210.07316

傳統(tǒng)RAG無(wú)法處理處理「以查詢?yōu)橹行牡恼谷蝿?wù)，比如「數(shù)據(jù)集中的主題是什么？」這種全局問(wèn)題，檢索需求不明確。

GraphRAG可以根據(jù)用戶問(wèn)題的普遍性和需要索引的源文本數(shù)量進(jìn)行擴(kuò)展，首先從源文檔中導(dǎo)出實(shí)體知識(shí)圖譜，然后為所有密切相關(guān)的實(shí)體組預(yù)生成社區(qū)摘要；對(duì)于一個(gè)問(wèn)題，每個(gè)社區(qū)摘要用于生成部分回復(fù)，最后總結(jié)給用戶。

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接：https://arxiv.org/pdf/2404.16130

OpenAI推薦的RAGAS（檢索增強(qiáng)生成評(píng)估）是一個(gè)用于無(wú)參考評(píng)估RAG流程的框架，無(wú)需人類標(biāo)注，可以對(duì)「檢索系統(tǒng)識(shí)別相關(guān)和專注上下文段落」和「LLM對(duì)檢索文檔忠實(shí)度」的能力進(jìn)行評(píng)估。

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接：https://arxiv.org/pdf/2309.15217

智能體（Agent）

在被Anthropic、Devin和OpenAI采用后，SWE-Bench一躍成為最具知名度的智能體基準(zhǔn)測(cè)試（其他基準(zhǔn)包括WebArena、SWE-Gym），由來(lái)自12個(gè)流行Python倉(cāng)庫(kù)的真實(shí)GitHub問(wèn)題和相應(yīng)拉取請(qǐng)求中的2294個(gè)軟件工程問(wèn)題組成。給定一個(gè)代碼庫(kù)以及一個(gè)需要解決的問(wèn)題描述，語(yǔ)言模型的任務(wù)是編輯代碼庫(kù)以解決該問(wèn)題，通常需要理解并同時(shí)協(xié)調(diào)多個(gè)函數(shù)、類甚至文件之間的變化，要求模型能夠與執(zhí)行環(huán)境互動(dòng)，處理極長(zhǎng)的上下文，并進(jìn)行復(fù)雜的推理，而不只是傳統(tǒng)的代碼生成任務(wù)，更多的是智能體測(cè)試。

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接：https://arxiv.org/abs/2310.06770

ReAct開(kāi)啟了一系列關(guān)于「工具使用」和「函數(shù)調(diào)用」的研究，通過(guò)與簡(jiǎn)單的維基百科API交互，克服了思維鏈推理中普遍存在的幻覺(jué)和錯(cuò)誤傳播問(wèn)題，生成結(jié)果比沒(méi)有推理軌跡的模型更具可解釋性。

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接：https://arxiv.org/pdf/2210.03629

MemGPT提出了虛擬上下文管理技術(shù)，智能地管理不同的存儲(chǔ)層次，以便在LLM的有限上下文窗口內(nèi)有效地提供擴(kuò)展的上下文，并使用中斷來(lái)管理其與用戶之間的控制流。在文檔分析和多會(huì)話聊天中展現(xiàn)了記憶、反思和動(dòng)態(tài)演變能力。

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接：https://arxiv.org/pdf/2310.08560

Voyager是第一個(gè)由大型語(yǔ)言模型（LLM）驅(qū)動(dòng)的、在Minecraft中進(jìn)行終身學(xué)習(xí)智能體，能夠持續(xù)探索世界，獲取多樣化的技能，并在無(wú)人干預(yù)的情況下進(jìn)行新的發(fā)現(xiàn)。

主要包括三個(gè)關(guān)鍵組件：自動(dòng)課程用于最大化探索；一個(gè)不斷增長(zhǎng)的可執(zhí)行代碼技能庫(kù)，用于存儲(chǔ)和檢索復(fù)雜行為；一種新的迭代提示機(jī)制，結(jié)合環(huán)境反饋、執(zhí)行錯(cuò)誤和自我驗(yàn)證來(lái)改進(jìn)程序。

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接：https://arxiv.org/pdf/2305.16291

Voyager通過(guò)黑箱查詢與GPT-4進(jìn)行交互，無(wú)需對(duì)模型參數(shù)進(jìn)行微調(diào)；開(kāi)發(fā)的技能具有時(shí)間擴(kuò)展性、可解釋性和組合性，使得智能體的能力迅速增強(qiáng)，并減輕了災(zāi)難性遺忘。

代碼生成

The Stack項(xiàng)目包含30種編程語(yǔ)言的許可源代碼，大小為3.1TB，論文描述了數(shù)據(jù)集的收集過(guò)程；通過(guò)在不同的Python子集上訓(xùn)練具有3.5億參數(shù)的解碼器，展現(xiàn)了根據(jù)文本生成代碼的潛力，僅使用許可數(shù)據(jù)就可以達(dá)到之前模型在HumanEval和MBPP的性能，后續(xù)模型發(fā)展為Stack v2和StarCoder Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接：https://arxiv.org/pdf/2211.15533

開(kāi)源的代碼模型論文包括 DeepSeek-Coder, Qwen2.5-Coder, CodeLlama；很多人認(rèn)為Claude 3.5 Sonnet是最好的代碼模型，但沒(méi)有相關(guān)論文。

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接：https://arxiv.org/pdf/2401.14196

HumanEval/Codex論文是GitHub Copilot底層技術(shù)解釋，是代碼領(lǐng)域必備知識(shí)的基準(zhǔn)測(cè)試；編碼領(lǐng)域更有名的是SWE-Bench，可以評(píng)估大型語(yǔ)言模型在解決真實(shí)世界中GitHub軟件問(wèn)題能力：給定一個(gè)代碼庫(kù)和一個(gè)具體的問(wèn)題描述，要求語(yǔ)言模型生成一個(gè)補(bǔ)丁來(lái)解決該問(wèn)題；其他替代品包括Aider, Codeforces, BigCodeBench, LiveCodeBench和SciCode

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Codex論文鏈接：https://arxiv.org/pdf/2107.03374

代碼生成問(wèn)題有別于自然語(yǔ)言生成問(wèn)題，需要精確匹配目標(biāo)語(yǔ)言的語(yǔ)法，識(shí)別出常見(jiàn)路徑和邊緣情況，更關(guān)注細(xì)節(jié)。

AlphaCodium論文提供了一種通用的解決方案，基于測(cè)試的、多階段的、面向代碼的迭代流程，可以提高LLMs在代碼問(wèn)題上的性能，在驗(yàn)證集上將GPT-4的性能從19%提升到了44%

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接：https://arxiv.org/abs/2401.08500

CriticGPT主要關(guān)注代碼生成中的安全問(wèn)題，可以幫助人類更準(zhǔn)確地評(píng)估模型編寫(xiě)的代碼；模型使用RLHF訓(xùn)練以編寫(xiě)自然語(yǔ)言反饋；實(shí)驗(yàn)發(fā)現(xiàn)模型在63%的情況下比人類的批評(píng)結(jié)果更好，成功識(shí)別出在ChatGPT訓(xùn)練數(shù)據(jù)中標(biāo)記為「完美無(wú)瑕」的數(shù)百個(gè)錯(cuò)誤，并且很多都是分布外的「非代碼任務(wù)」。

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接：https://criticgpt.org/criticgpt-openai/

視覺(jué)模型

YOLO不算是基于大模型的工作，但仍然很重要，已經(jīng)更新到了v11，很多基于Transformer的模型如DETRs目前已經(jīng)超越了YOLO的性能。YOLO v1將目標(biāo)檢測(cè)視為一個(gè)回歸問(wèn)題，即預(yù)測(cè)空間上分離的邊界框及其相關(guān)的類別概率，通過(guò)一個(gè)神經(jīng)網(wǎng)絡(luò)即可直接從整張圖像中預(yù)測(cè)邊界框和類別概率，訓(xùn)練過(guò)程可以進(jìn)行端到端優(yōu)化。

基礎(chǔ)的YOLO模型預(yù)測(cè)速度可以實(shí)現(xiàn)每秒45幀，小網(wǎng)絡(luò)Fast YOLO可以實(shí)現(xiàn)每秒155幀，平均精度比其他實(shí)時(shí)檢測(cè)器高出兩倍。

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接：https://arxiv.org/pdf/1506.02640

CLIP模型是第一個(gè)成功的ViT模型，目前已經(jīng)被BLIP/BLIP/SigLIP/PaliGemma取代。

CLIP直接從關(guān)于圖像的原始文本中學(xué)習(xí)表征，監(jiān)督信號(hào)的來(lái)源比「固定、預(yù)設(shè)的對(duì)象類別」更廣泛；訓(xùn)練任務(wù)也很簡(jiǎn)單，預(yù)測(cè)圖像描述與哪個(gè)圖像匹配，在4億個(gè)（圖像，文本）數(shù)據(jù)對(duì)上對(duì)模型從頭開(kāi)始訓(xùn)練，實(shí)現(xiàn)了與原始ResNet-50在ImageNet相當(dāng)?shù)牧銟颖緶?zhǔn)確率；在30多個(gè)計(jì)算機(jī)視覺(jué)基準(zhǔn)任務(wù)上，性能與完全監(jiān)督的基線模型相當(dāng)，而不需要特定數(shù)據(jù)的訓(xùn)練。

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接：https://arxiv.org/pdf/2103.00020

MMVP（多模態(tài)視覺(jué)模式）基準(zhǔn)量化了CLIP的核心問(wèn)題：視覺(jué)信息是否足以應(yīng)對(duì)語(yǔ)言描述？

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接：https://arxiv.org/pdf/2401.06209

論文探索了CLIP的視覺(jué)嵌入空間與僅視覺(jué)的自監(jiān)督學(xué)習(xí)之間的差距，揭示了多模態(tài)模型和CLIP的視覺(jué)模式存在高度關(guān)聯(lián)，經(jīng)常會(huì)給出錯(cuò)誤的答案和幻覺(jué)解釋。

Segment Anything Model (SAM)及SAM 2是非常成功的圖像和視頻分割基礎(chǔ)模型，通常與GroundingDINO搭配使用。

研究人員在SAM中構(gòu)建了迄今為止最大的分割數(shù)據(jù)集，包含超過(guò)10億個(gè)遮罩，1100萬(wàn)張授權(quán)圖像；模型具備零樣本學(xué)習(xí)能力，可以直接遷移到新的圖像分布和任務(wù)，并且性能與之前的完全監(jiān)督模型性能相當(dāng)，甚至更優(yōu)。

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接：https://arxiv.org/pdf/2304.02643

聲音模型

OpenAI的Whisper一個(gè)相當(dāng)成功的ASR模型，后續(xù)發(fā)布的Whisper v2, v3, distil-whisper以及v3 Turbo都是開(kāi)放權(quán)重但是沒(méi)有論文。 Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Whisper論文鏈接：https://arxiv.org/pdf/2212.04356

在PaLM變?yōu)镚emini之前，AudioPaLM算是谷歌在語(yǔ)音領(lǐng)域的絕唱。

AudioPaLM將基于文本（PaLM-2）和基于語(yǔ)音（AudioLM）的語(yǔ)言模型融合成一個(gè)統(tǒng)一的多模態(tài)架構(gòu)，能夠處理和生成文本和語(yǔ)音，下游應(yīng)用包括「語(yǔ)音識(shí)別」和「語(yǔ)音到語(yǔ)音的翻譯」；繼承了AudioLM保持副語(yǔ)言信息（如說(shuō)話者身份和語(yǔ)調(diào)）的能力，以及像PaLM-2這樣的基于文本的大型語(yǔ)言模型中獨(dú)有的語(yǔ)言知識(shí)。

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接：https://arxiv.org/pdf/2306.12925

Meta發(fā)布的Llama 3語(yǔ)音模型也可以作為競(jìng)品參考。

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接：https://arxiv.org/pdf/2407.21783

NaturalSpeech是領(lǐng)先的「語(yǔ)音合成」（TTS）方法之一，最新版本為v3

研究人員在論文中首先基于主觀測(cè)量的統(tǒng)計(jì)顯著性來(lái)定義「人類水平」的語(yǔ)音合成質(zhì)量，然后利用變分自編碼器（VAE）進(jìn)行端到端的文本到波形生成，并通過(guò)幾個(gè)模塊來(lái)增強(qiáng)先驗(yàn)從文本中的能力，以及降低后驗(yàn)從語(yǔ)音中的復(fù)雜性，包括音素預(yù)訓(xùn)練、可微分時(shí)長(zhǎng)建模、雙向先驗(yàn)/后驗(yàn)建模，以及VAE中的記憶機(jī)制。

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接：https://arxiv.org/abs/2205.04421

圖像/視頻擴(kuò)散模型

Stable Diffusion絕對(duì)是最有名的開(kāi)源文生圖模型，旗下還有SD2, SDXL, SD3模型及論文。Latent Diffusion模型首次將擴(kuò)散模型應(yīng)用于預(yù)訓(xùn)練自編碼器的潛空間中，極大降低了擴(kuò)散模型的訓(xùn)練、微調(diào)、推理的成本，可以在降低復(fù)雜度和保留細(xì)節(jié)之間達(dá)到最優(yōu)的平衡，并提升視覺(jué)保真度。

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接：https://arxiv.org/pdf/2112.10752

通過(guò)在模型架構(gòu)中引入交叉注意力層，擴(kuò)散模型就變成了通用條件輸入生成器，可以處理文本或邊界框，實(shí)現(xiàn)高分辨率合成。

OpenAI的DALL-E系列文生圖模型有三代，其論文也值得閱讀。

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

DALL-E 3論文鏈接：https://cdn.openai.com/papers/dall-e-3.pdf

谷歌的文生圖模型Imagen有三代，后續(xù)工作為Ideogram 2.0

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Imagen 3論文：https://arxiv.org/abs/2408.07009

一致性模型論文是后續(xù)工作LCMs（潛一致性模型）的基礎(chǔ)，解決了由于迭代采樣導(dǎo)致生成速度過(guò)慢的問(wèn)題：直接將噪聲映射到數(shù)據(jù)來(lái)生成高質(zhì)量樣本，采用多步采樣來(lái)提升效率，但樣本質(zhì)量略有下降；同時(shí)支持零樣本數(shù)據(jù)編輯，如圖像修復(fù)、上色和超分辨率，而無(wú)需進(jìn)行顯式訓(xùn)練，最新版本為sCMs

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接：https://arxiv.org/pdf/2303.01469

文本到視頻模型Sora雖然沒(méi)有論文，但是其底層原理DiT和開(kāi)源模仿者OpenSora可以作為參考。

DiT用一個(gè)潛在塊Transformer替換了常用的U-Net主干網(wǎng)絡(luò)，具有更高的Gflops，通過(guò)增加Transformer的深度/寬度或增加輸入token的數(shù)量，可以進(jìn)一步降低FID距離分?jǐn)?shù)，在類條件ImageNet 512x512和256x256基準(zhǔn)測(cè)試中超越所有先前的擴(kuò)散模型。

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

DiT論文鏈接：https://arxiv.org/abs/2212.09748

擴(kuò)散模型同樣可以應(yīng)用在其他模態(tài)上，如Text Diffusion, Music Diffusion

微調(diào)

使用LoRA/QLoRA在本地模型和4o模型上進(jìn)行微調(diào)，都已被證明是一種低成本的微調(diào)方法。 Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

QLoRA論文鏈接：https://arxiv.org/pdf/2305.14314

QLoRA通過(guò)凍結(jié)4位量化預(yù)訓(xùn)練語(yǔ)言模型和低秩適配器（LoRA）實(shí)現(xiàn)反向傳播，可以在單個(gè)48GB GPU上微調(diào)一個(gè)650億參數(shù)的模型，同時(shí)保持16位微調(diào)任務(wù)的性能；最佳模型Guanaco在僅24小時(shí)的微調(diào)后達(dá)到了ChatGPT性能的99.3%

文中還詳細(xì)分析了聊天機(jī)器人基準(zhǔn)測(cè)試的局限性，展示了GPT-4評(píng)估是一種廉價(jià)且合理的替代人類評(píng)估的方法。

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

DPO（直接偏好優(yōu)化）是PPO（近端策略優(yōu)化）的替代方案，開(kāi)發(fā)者更喜歡用DPO，但其性能上略遜一籌，OpenAI也選擇DPO作為偏好微調(diào)方法。

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

DPO論文鏈接：https://arxiv.org/pdf/2305.18290

基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）是一個(gè)復(fù)雜且不穩(wěn)定的過(guò)程，需要先訓(xùn)練一個(gè)反映人類偏好的獎(jiǎng)勵(lì)模型，再通過(guò)強(qiáng)化學(xué)習(xí)對(duì)大型無(wú)監(jiān)督語(yǔ)言模型進(jìn)行微調(diào)。

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

DPO是一種新的獎(jiǎng)勵(lì)模型參數(shù)化方法，可以用簡(jiǎn)單的分類損失來(lái)解決標(biāo)準(zhǔn)的RLHF問(wèn)題，穩(wěn)定、高效且計(jì)算成本低，無(wú)需在微調(diào)過(guò)程中從語(yǔ)言模型中抽樣或進(jìn)行大量的超參數(shù)調(diào)整；在控制生成內(nèi)容符合人類偏好方面，DPO的表現(xiàn)超過(guò)了基于PPO的RLHF

ReFT（表示微調(diào)）不關(guān)注某些層，而是關(guān)注特征：在凍結(jié)的基礎(chǔ)模型上操作，學(xué)習(xí)對(duì)隱藏表示進(jìn)行特定任務(wù)的干預(yù)，可以替代現(xiàn)有的參數(shù)高效微調(diào)（PEFT）方法，學(xué)習(xí)到的干預(yù)措施比LoRA的效率提升15到65倍。

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接：https://arxiv.org/pdf/2404.03592

Orca和Orca2項(xiàng)目展現(xiàn)了使用「合成數(shù)據(jù)」對(duì)小型語(yǔ)言模型進(jìn)行訓(xùn)練后，可以極大提升模型性能；

Orca 3-AgentInstruct的研究成果再把這個(gè)結(jié)論向前推進(jìn)了一步：開(kāi)發(fā)了一個(gè)框架，可以從原始數(shù)據(jù)源大規(guī)模生成多樣化和高質(zhì)量的定制數(shù)據(jù)集（包括用戶提示和模型回復(fù)），最終吸能在AGIEval上提高了40%，在MMLU上提高了19%，在GSM8K上提高了54%；論文公開(kāi)了其中100萬(wàn)個(gè)數(shù)據(jù)對(duì)。

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

報(bào)告鏈接：https://www.microsoft.com/en-us/research/blog/orca-agentinstruct-agentic-flows-can-be-effective-synthetic-data-generators/

雖然OpenAI的o1模型使用的強(qiáng)化學(xué)習(xí)微調(diào)仍然存在爭(zhēng)議，但Let's Verify Step by Step論文提供了部分底層原理解釋。

在復(fù)雜的多步推理時(shí)，研究人員發(fā)現(xiàn)「過(guò)程監(jiān)督」顯著優(yōu)于「結(jié)果監(jiān)督」，可以解決MATH測(cè)試集中78%的問(wèn)題；主動(dòng)學(xué)習(xí)（active learning）還能提高過(guò)程監(jiān)督的有效性；文中發(fā)布PRM800K數(shù)據(jù)集，包含80萬(wàn)個(gè)「步驟級(jí)」人類反饋標(biāo)簽。

Jim Fan力薦2025必讀清單：50篇論文，掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」