展會(huì)信息港展會(huì)大全

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2025-01-10 08:33:03   瀏覽:447次  

導(dǎo)讀:新智元報(bào)道編輯:LRS【新智元導(dǎo)讀】10個(gè)AI領(lǐng)域,50篇精品論文,每周看一篇,到2026就能成「AI工程」專家!別再反復(fù)看Transformer之類的古董級(jí)論文了,該更新論文清單了!現(xiàn)行的AI從工程技術(shù)角度可以分為十個(gè)領(lǐng)域:前沿大模型、基準(zhǔn)評(píng)估、提示思維鏈、檢索增強(qiáng)生成、智能體、代碼生成、視覺(jué)、聲音、圖像/視頻擴(kuò)散、微調(diào),每個(gè)領(lǐng)域選出5篇代表作和相關(guān)工作,看完+實(shí)踐=AI全棧大神 ......

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

新智元報(bào)道

編輯:LRS【新智元導(dǎo)讀】10個(gè)AI領(lǐng)域,50篇精品論文,每周看一篇,到2026就能成「AI工程」專家!別再反復(fù)看Transformer之類的古董級(jí)論文了,該更新論文清單了!現(xiàn)行的AI從工程技術(shù)角度可以分為十個(gè)領(lǐng)域:前沿大模型、基準(zhǔn)評(píng)估、提示思維鏈、檢索增強(qiáng)生成、智能體、代碼生成、視覺(jué)、聲音、圖像/視頻擴(kuò)散、微調(diào),每個(gè)領(lǐng)域選出5篇代表作和相關(guān)工作,看完+實(shí)踐=AI全棧大神!

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

前沿大模型

OpenAI發(fā)布的ChatGPT把大模型帶入普通消費(fèi)者的日常生活中,旗下的GPT系列模型也一直是行業(yè)標(biāo)桿,其中GPT1/2/3, Codex, InstructGPT, GPT4都有論文,GPT3.5, 4o, o1和o3只有相關(guān)的宣發(fā)活動(dòng)。Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

GPT-4論文鏈接:https://arxiv.org/pdf/2303.08774

Claude 3和Gemini算是OpenAI最大的競(jìng)爭(zhēng)對(duì)手,其論文也值得一讀;模型的最新迭代版本為Claude 3.5 Sonnet和Gemini 2.0 Flash/Flash Thinking/Gemma 2.0。

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf

另一個(gè)分支是開(kāi)源模型Llama家族,可以分為1/2/3代;家族樹(shù)下的其他子模型還包括Mistral 7B, Mixtral和Pixtral。

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://arxiv.org/pdf/2407.21783

爆火的DeepSeek V1, Coder, V2, V3在開(kāi)源大模型也有一席之地,以低成本高效率著稱。

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://arxiv.org/pdf/2401.02954

最后是Apple Intellgence論文,在Mac和iPhone上都有部署。

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://arxiv.org/pdf/2407.21075

其他非最前沿的模型也值得了解,包括AI2(旗下的Olmo、Molmo、OlmOE、Tülu 3、Olmo 2)、Grok、Amazon Nova、Yi、Reka、Jamba、Cohere、Nemotron、Microsoft Phi、HuggingFace SmolLM等;Mamba1/2和RWKV有可能在未來(lái)發(fā)力。

基準(zhǔn)和評(píng)估

MMLU Pro, GPQA Diamond和BIG-Bench Hard是頂尖AI實(shí)驗(yàn)室常用的知識(shí)基準(zhǔn)評(píng)估。Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

MMLU-Pro論文鏈接:https://arxiv.org/pdf/2406.01574

MuSR主要評(píng)估自然語(yǔ)言敘事中的多步軟推理任務(wù),特點(diǎn)是長(zhǎng)上下文,其他基準(zhǔn)包括LongBench, BABILong和RULER

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://arxiv.org/pdf/2310.16049

MATH基準(zhǔn)主要關(guān)注數(shù)學(xué)競(jìng)賽,包括12500個(gè)高難度數(shù)學(xué)題目,每個(gè)問(wèn)題都有完整的逐步解決方案,前沿研究主要關(guān)注其子集MATH level 5, AIME, FrontierMath, AMC10/AMC12

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://arxiv.org/pdf/2103.03874

IFEval評(píng)估語(yǔ)言模型的指令遵循能力,主要關(guān)注「可自動(dòng)驗(yàn)證的指令」,比如「寫(xiě)超過(guò)400字」和「至少提到人工智能3次」等?偣灿25個(gè)指令類型,構(gòu)建了越500個(gè)提示;其他可用基MT-Bench

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://arxiv.org/pdf/2311.07911

ARC AGI用一組抽象和推理語(yǔ)料庫(kù)(Abstraction and Reasoning Corpus),模擬人類來(lái)測(cè)試模型的智能程度。

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://arxiv.org/pdf/1911.01547

提示、上下文學(xué)習(xí)(ICL)和思維鏈

馬里蘭大學(xué)、OpenAI、斯坦福等13個(gè)機(jī)構(gòu)的研究人員發(fā)布的「提示詞報(bào)告」,對(duì)提示技術(shù)進(jìn)行分類,提供了提示工程的最佳實(shí)踐和指南,算是目前最全面的提示工程綜述報(bào)告。Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://arxiv.org/pdf/2406.06608

思維鏈(Chain-of-Thought):在足夠大的語(yǔ)言模型中,只需要在提示詞中加入特定模版,就能引導(dǎo)大模型逐步思考,就能在各種算術(shù)、常識(shí)和符號(hào)推理任務(wù)上實(shí)現(xiàn)更高的性能,甚至比微調(diào)還管用。

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://arxiv.org/abs/2201.11903

思維樹(shù)(Tree of Thoughts)克服了思維鏈只能基于token的、從左到右決策的缺陷,使得語(yǔ)言模型可以通過(guò)考慮多種不同的推理路徑和自我評(píng)估選擇來(lái)決定下一步行動(dòng),從而進(jìn)行有意識(shí)的決策,并在必要時(shí)進(jìn)行前瞻或回溯以做出全局選擇;

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://arxiv.org/pdf/2305.10601

Prompt Tuning不對(duì)模型參數(shù)進(jìn)行調(diào)整,而是通過(guò)反向傳播學(xué)習(xí)「軟提示」,可以將凍結(jié)的模型用于多個(gè)下游任務(wù)。

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://aclanthology.org/2021.emnlp-main.243.pdf

自動(dòng)提示工程師(APE)能夠避免人工編寫(xiě)低質(zhì)量提示詞帶來(lái)的性能影響,在指令候選池中進(jìn)行搜索優(yōu)化,可用于自動(dòng)生成和選擇指令,最終在19/24個(gè)任務(wù)上實(shí)現(xiàn)了比人類標(biāo)注指令的性能更好。

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://arxiv.org/pdf/2211.01910

檢索增強(qiáng)生成(RAG)

RAG是2024年AI工程的核心,主要難點(diǎn)在于信息檢索,可用的技術(shù)包括TF-IDF, BM25, FAISS, HNSW等。2020年,Meta首次提出RAG概念,結(jié)合預(yù)訓(xùn)練參數(shù)和非參數(shù)記憶用于語(yǔ)言生成,其中非參數(shù)記憶通過(guò)「預(yù)訓(xùn)練神經(jīng)檢索器」訪問(wèn)「維基百科的稠密向量」索引獲得,結(jié)果在三個(gè)開(kāi)放問(wèn)答任務(wù)上都實(shí)現(xiàn)了最佳性能,并且生成的內(nèi)容更具體、多樣化和符合事實(shí)。

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://arxiv.org/pdf/2005.11401

使用文本嵌入(word embedding)進(jìn)行「語(yǔ)義文本相似度」計(jì)算是一個(gè)常見(jiàn)的檢索技術(shù)。

METB是一個(gè)大規(guī)模文本嵌入基準(zhǔn),包括58個(gè)數(shù)據(jù)集和112種語(yǔ)言,結(jié)果是沒(méi)有某一種文本嵌入方法在所有任務(wù)中都占據(jù)絕對(duì)主導(dǎo)地位。

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://arxiv.org/pdf/2210.07316

傳統(tǒng)RAG無(wú)法處理處理「以查詢?yōu)橹行牡恼谷蝿?wù),比如「數(shù)據(jù)集中的主題是什么?」這種全局問(wèn)題,檢索需求不明確。

GraphRAG可以根據(jù)用戶問(wèn)題的普遍性和需要索引的源文本數(shù)量進(jìn)行擴(kuò)展,首先從源文檔中導(dǎo)出實(shí)體知識(shí)圖譜,然后為所有密切相關(guān)的實(shí)體組預(yù)生成社區(qū)摘要;對(duì)于一個(gè)問(wèn)題,每個(gè)社區(qū)摘要用于生成部分回復(fù),最后總結(jié)給用戶。

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://arxiv.org/pdf/2404.16130

OpenAI推薦的RAGAS(檢索增強(qiáng)生成評(píng)估)是一個(gè)用于無(wú)參考評(píng)估RAG流程的框架,無(wú)需人類標(biāo)注,可以對(duì)「檢索系統(tǒng)識(shí)別相關(guān)和專注上下文段落」和「LLM對(duì)檢索文檔忠實(shí)度」的能力進(jìn)行評(píng)估。

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://arxiv.org/pdf/2309.15217

智能體(Agent)

在被Anthropic、Devin和OpenAI采用后,SWE-Bench一躍成為最具知名度的智能體基準(zhǔn)測(cè)試(其他基準(zhǔn)包括WebArena、SWE-Gym),由來(lái)自12個(gè)流行Python倉(cāng)庫(kù)的真實(shí)GitHub問(wèn)題和相應(yīng)拉取請(qǐng)求中的2294個(gè)軟件工程問(wèn)題組成。給定一個(gè)代碼庫(kù)以及一個(gè)需要解決的問(wèn)題描述,語(yǔ)言模型的任務(wù)是編輯代碼庫(kù)以解決該問(wèn)題,通常需要理解并同時(shí)協(xié)調(diào)多個(gè)函數(shù)、類甚至文件之間的變化,要求模型能夠與執(zhí)行環(huán)境互動(dòng),處理極長(zhǎng)的上下文,并進(jìn)行復(fù)雜的推理,而不只是傳統(tǒng)的代碼生成任務(wù),更多的是智能體測(cè)試。

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://arxiv.org/abs/2310.06770

ReAct開(kāi)啟了一系列關(guān)于「工具使用」和「函數(shù)調(diào)用」的研究,通過(guò)與簡(jiǎn)單的維基百科API交互,克服了思維鏈推理中普遍存在的幻覺(jué)和錯(cuò)誤傳播問(wèn)題,生成結(jié)果比沒(méi)有推理軌跡的模型更具可解釋性。

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://arxiv.org/pdf/2210.03629

MemGPT提出了虛擬上下文管理技術(shù),智能地管理不同的存儲(chǔ)層次,以便在LLM的有限上下文窗口內(nèi)有效地提供擴(kuò)展的上下文,并使用中斷來(lái)管理其與用戶之間的控制流。在文檔分析和多會(huì)話聊天中展現(xiàn)了記憶、反思和動(dòng)態(tài)演變能力。

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://arxiv.org/pdf/2310.08560

Voyager是第一個(gè)由大型語(yǔ)言模型(LLM)驅(qū)動(dòng)的、在Minecraft中進(jìn)行終身學(xué)習(xí)智能體,能夠持續(xù)探索世界,獲取多樣化的技能,并在無(wú)人干預(yù)的情況下進(jìn)行新的發(fā)現(xiàn)。

主要包括三個(gè)關(guān)鍵組件:自動(dòng)課程用于最大化探索;一個(gè)不斷增長(zhǎng)的可執(zhí)行代碼技能庫(kù),用于存儲(chǔ)和檢索復(fù)雜行為;一種新的迭代提示機(jī)制,結(jié)合環(huán)境反饋、執(zhí)行錯(cuò)誤和自我驗(yàn)證來(lái)改進(jìn)程序。

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://arxiv.org/pdf/2305.16291

Voyager通過(guò)黑箱查詢與GPT-4進(jìn)行交互,無(wú)需對(duì)模型參數(shù)進(jìn)行微調(diào);開(kāi)發(fā)的技能具有時(shí)間擴(kuò)展性、可解釋性和組合性,使得智能體的能力迅速增強(qiáng),并減輕了災(zāi)難性遺忘。

代碼生成

The Stack項(xiàng)目包含30種編程語(yǔ)言的許可源代碼,大小為3.1TB,論文描述了數(shù)據(jù)集的收集過(guò)程;通過(guò)在不同的Python子集上訓(xùn)練具有3.5億參數(shù)的解碼器,展現(xiàn)了根據(jù)文本生成代碼的潛力,僅使用許可數(shù)據(jù)就可以達(dá)到之前模型在HumanEval和MBPP的性能,后續(xù)模型發(fā)展為Stack v2和StarCoderJim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://arxiv.org/pdf/2211.15533

開(kāi)源的代碼模型論文包括 DeepSeek-Coder, Qwen2.5-Coder, CodeLlama;很多人認(rèn)為Claude 3.5 Sonnet是最好的代碼模型,但沒(méi)有相關(guān)論文。

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://arxiv.org/pdf/2401.14196

HumanEval/Codex論文是GitHub Copilot底層技術(shù)解釋,是代碼領(lǐng)域必備知識(shí)的基準(zhǔn)測(cè)試;編碼領(lǐng)域更有名的是SWE-Bench,可以評(píng)估大型語(yǔ)言模型在解決真實(shí)世界中GitHub軟件問(wèn)題能力:給定一個(gè)代碼庫(kù)和一個(gè)具體的問(wèn)題描述,要求語(yǔ)言模型生成一個(gè)補(bǔ)丁來(lái)解決該問(wèn)題;其他替代品包括Aider, Codeforces, BigCodeBench, LiveCodeBench和SciCode

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Codex論文鏈接:https://arxiv.org/pdf/2107.03374

代碼生成問(wèn)題有別于自然語(yǔ)言生成問(wèn)題,需要精確匹配目標(biāo)語(yǔ)言的語(yǔ)法,識(shí)別出常見(jiàn)路徑和邊緣情況,更關(guān)注細(xì)節(jié)。

AlphaCodium論文提供了一種通用的解決方案,基于測(cè)試的、多階段的、面向代碼的迭代流程,可以提高LLMs在代碼問(wèn)題上的性能,在驗(yàn)證集上將GPT-4的性能從19%提升到了44%

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://arxiv.org/abs/2401.08500

CriticGPT主要關(guān)注代碼生成中的安全問(wèn)題,可以幫助人類更準(zhǔn)確地評(píng)估模型編寫(xiě)的代碼;模型使用RLHF訓(xùn)練以編寫(xiě)自然語(yǔ)言反饋;實(shí)驗(yàn)發(fā)現(xiàn)模型在63%的情況下比人類的批評(píng)結(jié)果更好,成功識(shí)別出在ChatGPT訓(xùn)練數(shù)據(jù)中標(biāo)記為「完美無(wú)瑕」的數(shù)百個(gè)錯(cuò)誤,并且很多都是分布外的「非代碼任務(wù)」。

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://criticgpt.org/criticgpt-openai/

視覺(jué)模型

YOLO不算是基于大模型的工作,但仍然很重要,已經(jīng)更新到了v11,很多基于Transformer的模型如DETRs目前已經(jīng)超越了YOLO的性能。YOLO v1將目標(biāo)檢測(cè)視為一個(gè)回歸問(wèn)題,即預(yù)測(cè)空間上分離的邊界框及其相關(guān)的類別概率,通過(guò)一個(gè)神經(jīng)網(wǎng)絡(luò)即可直接從整張圖像中預(yù)測(cè)邊界框和類別概率,訓(xùn)練過(guò)程可以進(jìn)行端到端優(yōu)化。

基礎(chǔ)的YOLO模型預(yù)測(cè)速度可以實(shí)現(xiàn)每秒45幀,小網(wǎng)絡(luò)Fast YOLO可以實(shí)現(xiàn)每秒155幀,平均精度比其他實(shí)時(shí)檢測(cè)器高出兩倍。

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://arxiv.org/pdf/1506.02640

CLIP模型是第一個(gè)成功的ViT模型,目前已經(jīng)被BLIP/BLIP/SigLIP/PaliGemma取代。

CLIP直接從關(guān)于圖像的原始文本中學(xué)習(xí)表征,監(jiān)督信號(hào)的來(lái)源比「固定、預(yù)設(shè)的對(duì)象類別」更廣泛;訓(xùn)練任務(wù)也很簡(jiǎn)單,預(yù)測(cè)圖像描述與哪個(gè)圖像匹配,在4億個(gè)(圖像,文本)數(shù)據(jù)對(duì)上對(duì)模型從頭開(kāi)始訓(xùn)練,實(shí)現(xiàn)了與原始ResNet-50在ImageNet相當(dāng)?shù)牧銟颖緶?zhǔn)確率;在30多個(gè)計(jì)算機(jī)視覺(jué)基準(zhǔn)任務(wù)上,性能與完全監(jiān)督的基線模型相當(dāng),而不需要特定數(shù)據(jù)的訓(xùn)練。

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://arxiv.org/pdf/2103.00020

MMVP(多模態(tài)視覺(jué)模式)基準(zhǔn)量化了CLIP的核心問(wèn)題:視覺(jué)信息是否足以應(yīng)對(duì)語(yǔ)言描述?

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://arxiv.org/pdf/2401.06209

論文探索了CLIP的視覺(jué)嵌入空間與僅視覺(jué)的自監(jiān)督學(xué)習(xí)之間的差距,揭示了多模態(tài)模型和CLIP的視覺(jué)模式存在高度關(guān)聯(lián),經(jīng)常會(huì)給出錯(cuò)誤的答案和幻覺(jué)解釋。

Segment Anything Model (SAM)及SAM 2是非常成功的圖像和視頻分割基礎(chǔ)模型,通常與GroundingDINO搭配使用。

研究人員在SAM中構(gòu)建了迄今為止最大的分割數(shù)據(jù)集,包含超過(guò)10億個(gè)遮罩,1100萬(wàn)張授權(quán)圖像;模型具備零樣本學(xué)習(xí)能力,可以直接遷移到新的圖像分布和任務(wù),并且性能與之前的完全監(jiān)督模型性能相當(dāng),甚至更優(yōu)。

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://arxiv.org/pdf/2304.02643

聲音模型

OpenAI的Whisper一個(gè)相當(dāng)成功的ASR模型,后續(xù)發(fā)布的Whisper v2, v3, distil-whisper以及v3 Turbo都是開(kāi)放權(quán)重但是沒(méi)有論文。Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Whisper論文鏈接:https://arxiv.org/pdf/2212.04356

在PaLM變?yōu)镚emini之前,AudioPaLM算是谷歌在語(yǔ)音領(lǐng)域的絕唱。

AudioPaLM將基于文本(PaLM-2)和基于語(yǔ)音(AudioLM)的語(yǔ)言模型融合成一個(gè)統(tǒng)一的多模態(tài)架構(gòu),能夠處理和生成文本和語(yǔ)音,下游應(yīng)用包括「語(yǔ)音識(shí)別」和「語(yǔ)音到語(yǔ)音的翻譯」;繼承了AudioLM保持副語(yǔ)言信息(如說(shuō)話者身份和語(yǔ)調(diào))的能力,以及像PaLM-2這樣的基于文本的大型語(yǔ)言模型中獨(dú)有的語(yǔ)言知識(shí)。

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://arxiv.org/pdf/2306.12925

Meta發(fā)布的Llama 3語(yǔ)音模型也可以作為競(jìng)品參考。

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://arxiv.org/pdf/2407.21783

NaturalSpeech是領(lǐng)先的「語(yǔ)音合成」(TTS)方法之一,最新版本為v3

研究人員在論文中首先基于主觀測(cè)量的統(tǒng)計(jì)顯著性來(lái)定義「人類水平」的語(yǔ)音合成質(zhì)量,然后利用變分自編碼器(VAE)進(jìn)行端到端的文本到波形生成,并通過(guò)幾個(gè)模塊來(lái)增強(qiáng)先驗(yàn)從文本中的能力,以及降低后驗(yàn)從語(yǔ)音中的復(fù)雜性,包括音素預(yù)訓(xùn)練、可微分時(shí)長(zhǎng)建模、雙向先驗(yàn)/后驗(yàn)建模,以及VAE中的記憶機(jī)制。

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://arxiv.org/abs/2205.04421

圖像/視頻擴(kuò)散模型

Stable Diffusion絕對(duì)是最有名的開(kāi)源文生圖模型,旗下還有SD2, SDXL, SD3模型及論文。Latent Diffusion模型首次將擴(kuò)散模型應(yīng)用于預(yù)訓(xùn)練自編碼器的潛空間中,極大降低了擴(kuò)散模型的訓(xùn)練、微調(diào)、推理的成本,可以在降低復(fù)雜度和保留細(xì)節(jié)之間達(dá)到最優(yōu)的平衡,并提升視覺(jué)保真度。

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://arxiv.org/pdf/2112.10752

通過(guò)在模型架構(gòu)中引入交叉注意力層,擴(kuò)散模型就變成了通用條件輸入生成器,可以處理文本或邊界框,實(shí)現(xiàn)高分辨率合成。

OpenAI的DALL-E系列文生圖模型有三代,其論文也值得閱讀。

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

DALL-E 3論文鏈接:https://cdn.openai.com/papers/dall-e-3.pdf

谷歌的文生圖模型Imagen有三代,后續(xù)工作為Ideogram 2.0

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Imagen 3論文:https://arxiv.org/abs/2408.07009

一致性模型論文是后續(xù)工作LCMs(潛一致性模型)的基礎(chǔ),解決了由于迭代采樣導(dǎo)致生成速度過(guò)慢的問(wèn)題:直接將噪聲映射到數(shù)據(jù)來(lái)生成高質(zhì)量樣本,采用多步采樣來(lái)提升效率,但樣本質(zhì)量略有下降;同時(shí)支持零樣本數(shù)據(jù)編輯,如圖像修復(fù)、上色和超分辨率,而無(wú)需進(jìn)行顯式訓(xùn)練,最新版本為sCMs

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://arxiv.org/pdf/2303.01469

文本到視頻模型Sora雖然沒(méi)有論文,但是其底層原理DiT和開(kāi)源模仿者OpenSora可以作為參考。

DiT用一個(gè)潛在塊Transformer替換了常用的U-Net主干網(wǎng)絡(luò),具有更高的Gflops,通過(guò)增加Transformer的深度/寬度或增加輸入token的數(shù)量,可以進(jìn)一步降低FID距離分?jǐn)?shù),在類條件ImageNet 512x512和256x256基準(zhǔn)測(cè)試中超越所有先前的擴(kuò)散模型。

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

DiT論文鏈接:https://arxiv.org/abs/2212.09748

擴(kuò)散模型同樣可以應(yīng)用在其他模態(tài)上,如Text Diffusion, Music Diffusion

微調(diào)

使用LoRA/QLoRA在本地模型和4o模型上進(jìn)行微調(diào),都已被證明是一種低成本的微調(diào)方法。Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

QLoRA論文鏈接:https://arxiv.org/pdf/2305.14314

QLoRA通過(guò)凍結(jié)4位量化預(yù)訓(xùn)練語(yǔ)言模型和低秩適配器(LoRA)實(shí)現(xiàn)反向傳播,可以在單個(gè)48GB GPU上微調(diào)一個(gè)650億參數(shù)的模型,同時(shí)保持16位微調(diào)任務(wù)的性能;最佳模型Guanaco在僅24小時(shí)的微調(diào)后達(dá)到了ChatGPT性能的99.3%

文中還詳細(xì)分析了聊天機(jī)器人基準(zhǔn)測(cè)試的局限性,展示了GPT-4評(píng)估是一種廉價(jià)且合理的替代人類評(píng)估的方法。

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

DPO(直接偏好優(yōu)化)是PPO(近端策略優(yōu)化)的替代方案,開(kāi)發(fā)者更喜歡用DPO,但其性能上略遜一籌,OpenAI也選擇DPO作為偏好微調(diào)方法。

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

DPO論文鏈接:https://arxiv.org/pdf/2305.18290

基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)是一個(gè)復(fù)雜且不穩(wěn)定的過(guò)程,需要先訓(xùn)練一個(gè)反映人類偏好的獎(jiǎng)勵(lì)模型,再通過(guò)強(qiáng)化學(xué)習(xí)對(duì)大型無(wú)監(jiān)督語(yǔ)言模型進(jìn)行微調(diào)。

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

DPO是一種新的獎(jiǎng)勵(lì)模型參數(shù)化方法,可以用簡(jiǎn)單的分類損失來(lái)解決標(biāo)準(zhǔn)的RLHF問(wèn)題,穩(wěn)定、高效且計(jì)算成本低,無(wú)需在微調(diào)過(guò)程中從語(yǔ)言模型中抽樣或進(jìn)行大量的超參數(shù)調(diào)整;在控制生成內(nèi)容符合人類偏好方面,DPO的表現(xiàn)超過(guò)了基于PPO的RLHF

ReFT(表示微調(diào))不關(guān)注某些層,而是關(guān)注特征:在凍結(jié)的基礎(chǔ)模型上操作,學(xué)習(xí)對(duì)隱藏表示進(jìn)行特定任務(wù)的干預(yù),可以替代現(xiàn)有的參數(shù)高效微調(diào)(PEFT)方法,學(xué)習(xí)到的干預(yù)措施比LoRA的效率提升15到65倍。

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://arxiv.org/pdf/2404.03592

Orca和Orca2項(xiàng)目展現(xiàn)了使用「合成數(shù)據(jù)」對(duì)小型語(yǔ)言模型進(jìn)行訓(xùn)練后,可以極大提升模型性能;

Orca 3-AgentInstruct的研究成果再把這個(gè)結(jié)論向前推進(jìn)了一步:開(kāi)發(fā)了一個(gè)框架,可以從原始數(shù)據(jù)源大規(guī)模生成多樣化和高質(zhì)量的定制數(shù)據(jù)集(包括用戶提示和模型回復(fù)),最終吸能在AGIEval上提高了40%,在MMLU上提高了19%,在GSM8K上提高了54%;論文公開(kāi)了其中100萬(wàn)個(gè)數(shù)據(jù)對(duì)。

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

報(bào)告鏈接:https://www.microsoft.com/en-us/research/blog/orca-agentinstruct-agentic-flows-can-be-effective-synthetic-data-generators/

雖然OpenAI的o1模型使用的強(qiáng)化學(xué)習(xí)微調(diào)仍然存在爭(zhēng)議,但Let's Verify Step by Step論文提供了部分底層原理解釋。

在復(fù)雜的多步推理時(shí),研究人員發(fā)現(xiàn)「過(guò)程監(jiān)督」顯著優(yōu)于「結(jié)果監(jiān)督」,可以解決MATH測(cè)試集中78%的問(wèn)題;主動(dòng)學(xué)習(xí)(active learning)還能提高過(guò)程監(jiān)督的有效性;文中發(fā)布PRM800K數(shù)據(jù)集,包含80萬(wàn)個(gè)「步驟級(jí)」人類反饋標(biāo)簽。

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

論文鏈接:https://arxiv.org/pdf/2305.20050

Jim Fan力薦2025必讀清單:50篇論文,掃盲「全領(lǐng)域AI實(shí)戰(zhàn)」

HuggingFace微調(diào)實(shí)踐:https://www.philschmid.de/fine-tune-llms-in-2025

參考資料:https://x.com/DrJimFan/status/1874490807652356377

贊助本站

相關(guān)熱詞: jim fan openai 論文 fan jim 新智元

相關(guān)內(nèi)容
AiLab云推薦
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港