新智元報(bào)道
編輯:LRS【新智元導(dǎo)讀】10個(gè)AI領(lǐng)域,50篇精品論文,每周看一篇,到2026就能成「AI工程」專家!別再反復(fù)看Transformer之類的古董級(jí)論文了,該更新論文清單了!現(xiàn)行的AI從工程技術(shù)角度可以分為十個(gè)領(lǐng)域:前沿大模型、基準(zhǔn)評(píng)估、提示思維鏈、檢索增強(qiáng)生成、智能體、代碼生成、視覺(jué)、聲音、圖像/視頻擴(kuò)散、微調(diào),每個(gè)領(lǐng)域選出5篇代表作和相關(guān)工作,看完+實(shí)踐=AI全棧大神!
前沿大模型
OpenAI發(fā)布的ChatGPT把大模型帶入普通消費(fèi)者的日常生活中,旗下的GPT系列模型也一直是行業(yè)標(biāo)桿,其中GPT1/2/3, Codex, InstructGPT, GPT4都有論文,GPT3.5, 4o, o1和o3只有相關(guān)的宣發(fā)活動(dòng)。
GPT-4論文鏈接:https://arxiv.org/pdf/2303.08774
Claude 3和Gemini算是OpenAI最大的競(jìng)爭(zhēng)對(duì)手,其論文也值得一讀;模型的最新迭代版本為Claude 3.5 Sonnet和Gemini 2.0 Flash/Flash Thinking/Gemma 2.0。
論文鏈接:https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf
另一個(gè)分支是開(kāi)源模型Llama家族,可以分為1/2/3代;家族樹(shù)下的其他子模型還包括Mistral 7B, Mixtral和Pixtral。
論文鏈接:https://arxiv.org/pdf/2407.21783
爆火的DeepSeek V1, Coder, V2, V3在開(kāi)源大模型也有一席之地,以低成本高效率著稱。
論文鏈接:https://arxiv.org/pdf/2401.02954
最后是Apple Intellgence論文,在Mac和iPhone上都有部署。
論文鏈接:https://arxiv.org/pdf/2407.21075
其他非最前沿的模型也值得了解,包括AI2(旗下的Olmo、Molmo、OlmOE、Tülu 3、Olmo 2)、Grok、Amazon Nova、Yi、Reka、Jamba、Cohere、Nemotron、Microsoft Phi、HuggingFace SmolLM等;Mamba1/2和RWKV有可能在未來(lái)發(fā)力。
基準(zhǔn)和評(píng)估
MMLU Pro, GPQA Diamond和BIG-Bench Hard是頂尖AI實(shí)驗(yàn)室常用的知識(shí)基準(zhǔn)評(píng)估。
MMLU-Pro論文鏈接:https://arxiv.org/pdf/2406.01574
MuSR主要評(píng)估自然語(yǔ)言敘事中的多步軟推理任務(wù),特點(diǎn)是長(zhǎng)上下文,其他基準(zhǔn)包括LongBench, BABILong和RULER
論文鏈接:https://arxiv.org/pdf/2310.16049
MATH基準(zhǔn)主要關(guān)注數(shù)學(xué)競(jìng)賽,包括12500個(gè)高難度數(shù)學(xué)題目,每個(gè)問(wèn)題都有完整的逐步解決方案,前沿研究主要關(guān)注其子集MATH level 5, AIME, FrontierMath, AMC10/AMC12
論文鏈接:https://arxiv.org/pdf/2103.03874
IFEval評(píng)估語(yǔ)言模型的指令遵循能力,主要關(guān)注「可自動(dòng)驗(yàn)證的指令」,比如「寫(xiě)超過(guò)400字」和「至少提到人工智能3次」等?偣灿25個(gè)指令類型,構(gòu)建了越500個(gè)提示;其他可用基MT-Bench
論文鏈接:https://arxiv.org/pdf/2311.07911
ARC AGI用一組抽象和推理語(yǔ)料庫(kù)(Abstraction and Reasoning Corpus),模擬人類來(lái)測(cè)試模型的智能程度。
論文鏈接:https://arxiv.org/pdf/1911.01547
提示、上下文學(xué)習(xí)(ICL)和思維鏈
馬里蘭大學(xué)、OpenAI、斯坦福等13個(gè)機(jī)構(gòu)的研究人員發(fā)布的「提示詞報(bào)告」,對(duì)提示技術(shù)進(jìn)行分類,提供了提示工程的最佳實(shí)踐和指南,算是目前最全面的提示工程綜述報(bào)告。
論文鏈接:https://arxiv.org/pdf/2406.06608
思維鏈(Chain-of-Thought):在足夠大的語(yǔ)言模型中,只需要在提示詞中加入特定模版,就能引導(dǎo)大模型逐步思考,就能在各種算術(shù)、常識(shí)和符號(hào)推理任務(wù)上實(shí)現(xiàn)更高的性能,甚至比微調(diào)還管用。
論文鏈接:https://arxiv.org/abs/2201.11903
思維樹(shù)(Tree of Thoughts)克服了思維鏈只能基于token的、從左到右決策的缺陷,使得語(yǔ)言模型可以通過(guò)考慮多種不同的推理路徑和自我評(píng)估選擇來(lái)決定下一步行動(dòng),從而進(jìn)行有意識(shí)的決策,并在必要時(shí)進(jìn)行前瞻或回溯以做出全局選擇;
論文鏈接:https://arxiv.org/pdf/2305.10601
Prompt Tuning不對(duì)模型參數(shù)進(jìn)行調(diào)整,而是通過(guò)反向傳播學(xué)習(xí)「軟提示」,可以將凍結(jié)的模型用于多個(gè)下游任務(wù)。
論文鏈接:https://aclanthology.org/2021.emnlp-main.243.pdf
自動(dòng)提示工程師(APE)能夠避免人工編寫(xiě)低質(zhì)量提示詞帶來(lái)的性能影響,在指令候選池中進(jìn)行搜索優(yōu)化,可用于自動(dòng)生成和選擇指令,最終在19/24個(gè)任務(wù)上實(shí)現(xiàn)了比人類標(biāo)注指令的性能更好。
論文鏈接:https://arxiv.org/pdf/2211.01910
檢索增強(qiáng)生成(RAG)
RAG是2024年AI工程的核心,主要難點(diǎn)在于信息檢索,可用的技術(shù)包括TF-IDF, BM25, FAISS, HNSW等。2020年,Meta首次提出RAG概念,結(jié)合預(yù)訓(xùn)練參數(shù)和非參數(shù)記憶用于語(yǔ)言生成,其中非參數(shù)記憶通過(guò)「預(yù)訓(xùn)練神經(jīng)檢索器」訪問(wèn)「維基百科的稠密向量」索引獲得,結(jié)果在三個(gè)開(kāi)放問(wèn)答任務(wù)上都實(shí)現(xiàn)了最佳性能,并且生成的內(nèi)容更具體、多樣化和符合事實(shí)。
論文鏈接:https://arxiv.org/pdf/2005.11401
使用文本嵌入(word embedding)進(jìn)行「語(yǔ)義文本相似度」計(jì)算是一個(gè)常見(jiàn)的檢索技術(shù)。
METB是一個(gè)大規(guī)模文本嵌入基準(zhǔn),包括58個(gè)數(shù)據(jù)集和112種語(yǔ)言,結(jié)果是沒(méi)有某一種文本嵌入方法在所有任務(wù)中都占據(jù)絕對(duì)主導(dǎo)地位。
論文鏈接:https://arxiv.org/pdf/2210.07316
傳統(tǒng)RAG無(wú)法處理處理「以查詢?yōu)橹行牡恼谷蝿?wù),比如「數(shù)據(jù)集中的主題是什么?」這種全局問(wèn)題,檢索需求不明確。
GraphRAG可以根據(jù)用戶問(wèn)題的普遍性和需要索引的源文本數(shù)量進(jìn)行擴(kuò)展,首先從源文檔中導(dǎo)出實(shí)體知識(shí)圖譜,然后為所有密切相關(guān)的實(shí)體組預(yù)生成社區(qū)摘要;對(duì)于一個(gè)問(wèn)題,每個(gè)社區(qū)摘要用于生成部分回復(fù),最后總結(jié)給用戶。
論文鏈接:https://arxiv.org/pdf/2404.16130
OpenAI推薦的RAGAS(檢索增強(qiáng)生成評(píng)估)是一個(gè)用于無(wú)參考評(píng)估RAG流程的框架,無(wú)需人類標(biāo)注,可以對(duì)「檢索系統(tǒng)識(shí)別相關(guān)和專注上下文段落」和「LLM對(duì)檢索文檔忠實(shí)度」的能力進(jìn)行評(píng)估。
論文鏈接:https://arxiv.org/pdf/2309.15217
智能體(Agent)
在被Anthropic、Devin和OpenAI采用后,SWE-Bench一躍成為最具知名度的智能體基準(zhǔn)測(cè)試(其他基準(zhǔn)包括WebArena、SWE-Gym),由來(lái)自12個(gè)流行Python倉(cāng)庫(kù)的真實(shí)GitHub問(wèn)題和相應(yīng)拉取請(qǐng)求中的2294個(gè)軟件工程問(wèn)題組成。給定一個(gè)代碼庫(kù)以及一個(gè)需要解決的問(wèn)題描述,語(yǔ)言模型的任務(wù)是編輯代碼庫(kù)以解決該問(wèn)題,通常需要理解并同時(shí)協(xié)調(diào)多個(gè)函數(shù)、類甚至文件之間的變化,要求模型能夠與執(zhí)行環(huán)境互動(dòng),處理極長(zhǎng)的上下文,并進(jìn)行復(fù)雜的推理,而不只是傳統(tǒng)的代碼生成任務(wù),更多的是智能體測(cè)試。
論文鏈接:https://arxiv.org/abs/2310.06770
ReAct開(kāi)啟了一系列關(guān)于「工具使用」和「函數(shù)調(diào)用」的研究,通過(guò)與簡(jiǎn)單的維基百科API交互,克服了思維鏈推理中普遍存在的幻覺(jué)和錯(cuò)誤傳播問(wèn)題,生成結(jié)果比沒(méi)有推理軌跡的模型更具可解釋性。
論文鏈接:https://arxiv.org/pdf/2210.03629
MemGPT提出了虛擬上下文管理技術(shù),智能地管理不同的存儲(chǔ)層次,以便在LLM的有限上下文窗口內(nèi)有效地提供擴(kuò)展的上下文,并使用中斷來(lái)管理其與用戶之間的控制流。在文檔分析和多會(huì)話聊天中展現(xiàn)了記憶、反思和動(dòng)態(tài)演變能力。
論文鏈接:https://arxiv.org/pdf/2310.08560
Voyager是第一個(gè)由大型語(yǔ)言模型(LLM)驅(qū)動(dòng)的、在Minecraft中進(jìn)行終身學(xué)習(xí)智能體,能夠持續(xù)探索世界,獲取多樣化的技能,并在無(wú)人干預(yù)的情況下進(jìn)行新的發(fā)現(xiàn)。
主要包括三個(gè)關(guān)鍵組件:自動(dòng)課程用于最大化探索;一個(gè)不斷增長(zhǎng)的可執(zhí)行代碼技能庫(kù),用于存儲(chǔ)和檢索復(fù)雜行為;一種新的迭代提示機(jī)制,結(jié)合環(huán)境反饋、執(zhí)行錯(cuò)誤和自我驗(yàn)證來(lái)改進(jìn)程序。
論文鏈接:https://arxiv.org/pdf/2305.16291
Voyager通過(guò)黑箱查詢與GPT-4進(jìn)行交互,無(wú)需對(duì)模型參數(shù)進(jìn)行微調(diào);開(kāi)發(fā)的技能具有時(shí)間擴(kuò)展性、可解釋性和組合性,使得智能體的能力迅速增強(qiáng),并減輕了災(zāi)難性遺忘。
代碼生成
The Stack項(xiàng)目包含30種編程語(yǔ)言的許可源代碼,大小為3.1TB,論文描述了數(shù)據(jù)集的收集過(guò)程;通過(guò)在不同的Python子集上訓(xùn)練具有3.5億參數(shù)的解碼器,展現(xiàn)了根據(jù)文本生成代碼的潛力,僅使用許可數(shù)據(jù)就可以達(dá)到之前模型在HumanEval和MBPP的性能,后續(xù)模型發(fā)展為Stack v2和StarCoder
論文鏈接:https://arxiv.org/pdf/2211.15533
開(kāi)源的代碼模型論文包括 DeepSeek-Coder, Qwen2.5-Coder, CodeLlama;很多人認(rèn)為Claude 3.5 Sonnet是最好的代碼模型,但沒(méi)有相關(guān)論文。
論文鏈接:https://arxiv.org/pdf/2401.14196
HumanEval/Codex論文是GitHub Copilot底層技術(shù)解釋,是代碼領(lǐng)域必備知識(shí)的基準(zhǔn)測(cè)試;編碼領(lǐng)域更有名的是SWE-Bench,可以評(píng)估大型語(yǔ)言模型在解決真實(shí)世界中GitHub軟件問(wèn)題能力:給定一個(gè)代碼庫(kù)和一個(gè)具體的問(wèn)題描述,要求語(yǔ)言模型生成一個(gè)補(bǔ)丁來(lái)解決該問(wèn)題;其他替代品包括Aider, Codeforces, BigCodeBench, LiveCodeBench和SciCode
Codex論文鏈接:https://arxiv.org/pdf/2107.03374
代碼生成問(wèn)題有別于自然語(yǔ)言生成問(wèn)題,需要精確匹配目標(biāo)語(yǔ)言的語(yǔ)法,識(shí)別出常見(jiàn)路徑和邊緣情況,更關(guān)注細(xì)節(jié)。
AlphaCodium論文提供了一種通用的解決方案,基于測(cè)試的、多階段的、面向代碼的迭代流程,可以提高LLMs在代碼問(wèn)題上的性能,在驗(yàn)證集上將GPT-4的性能從19%提升到了44%
論文鏈接:https://arxiv.org/abs/2401.08500
CriticGPT主要關(guān)注代碼生成中的安全問(wèn)題,可以幫助人類更準(zhǔn)確地評(píng)估模型編寫(xiě)的代碼;模型使用RLHF訓(xùn)練以編寫(xiě)自然語(yǔ)言反饋;實(shí)驗(yàn)發(fā)現(xiàn)模型在63%的情況下比人類的批評(píng)結(jié)果更好,成功識(shí)別出在ChatGPT訓(xùn)練數(shù)據(jù)中標(biāo)記為「完美無(wú)瑕」的數(shù)百個(gè)錯(cuò)誤,并且很多都是分布外的「非代碼任務(wù)」。
論文鏈接:https://criticgpt.org/criticgpt-openai/
視覺(jué)模型
YOLO不算是基于大模型的工作,但仍然很重要,已經(jīng)更新到了v11,很多基于Transformer的模型如DETRs目前已經(jīng)超越了YOLO的性能。YOLO v1將目標(biāo)檢測(cè)視為一個(gè)回歸問(wèn)題,即預(yù)測(cè)空間上分離的邊界框及其相關(guān)的類別概率,通過(guò)一個(gè)神經(jīng)網(wǎng)絡(luò)即可直接從整張圖像中預(yù)測(cè)邊界框和類別概率,訓(xùn)練過(guò)程可以進(jìn)行端到端優(yōu)化。
基礎(chǔ)的YOLO模型預(yù)測(cè)速度可以實(shí)現(xiàn)每秒45幀,小網(wǎng)絡(luò)Fast YOLO可以實(shí)現(xiàn)每秒155幀,平均精度比其他實(shí)時(shí)檢測(cè)器高出兩倍。
論文鏈接:https://arxiv.org/pdf/1506.02640
CLIP模型是第一個(gè)成功的ViT模型,目前已經(jīng)被BLIP/BLIP/SigLIP/PaliGemma取代。
CLIP直接從關(guān)于圖像的原始文本中學(xué)習(xí)表征,監(jiān)督信號(hào)的來(lái)源比「固定、預(yù)設(shè)的對(duì)象類別」更廣泛;訓(xùn)練任務(wù)也很簡(jiǎn)單,預(yù)測(cè)圖像描述與哪個(gè)圖像匹配,在4億個(gè)(圖像,文本)數(shù)據(jù)對(duì)上對(duì)模型從頭開(kāi)始訓(xùn)練,實(shí)現(xiàn)了與原始ResNet-50在ImageNet相當(dāng)?shù)牧銟颖緶?zhǔn)確率;在30多個(gè)計(jì)算機(jī)視覺(jué)基準(zhǔn)任務(wù)上,性能與完全監(jiān)督的基線模型相當(dāng),而不需要特定數(shù)據(jù)的訓(xùn)練。
論文鏈接:https://arxiv.org/pdf/2103.00020
MMVP(多模態(tài)視覺(jué)模式)基準(zhǔn)量化了CLIP的核心問(wèn)題:視覺(jué)信息是否足以應(yīng)對(duì)語(yǔ)言描述?
論文鏈接:https://arxiv.org/pdf/2401.06209
論文探索了CLIP的視覺(jué)嵌入空間與僅視覺(jué)的自監(jiān)督學(xué)習(xí)之間的差距,揭示了多模態(tài)模型和CLIP的視覺(jué)模式存在高度關(guān)聯(lián),經(jīng)常會(huì)給出錯(cuò)誤的答案和幻覺(jué)解釋。
Segment Anything Model (SAM)及SAM 2是非常成功的圖像和視頻分割基礎(chǔ)模型,通常與GroundingDINO搭配使用。
研究人員在SAM中構(gòu)建了迄今為止最大的分割數(shù)據(jù)集,包含超過(guò)10億個(gè)遮罩,1100萬(wàn)張授權(quán)圖像;模型具備零樣本學(xué)習(xí)能力,可以直接遷移到新的圖像分布和任務(wù),并且性能與之前的完全監(jiān)督模型性能相當(dāng),甚至更優(yōu)。
論文鏈接:https://arxiv.org/pdf/2304.02643
聲音模型
OpenAI的Whisper一個(gè)相當(dāng)成功的ASR模型,后續(xù)發(fā)布的Whisper v2, v3, distil-whisper以及v3 Turbo都是開(kāi)放權(quán)重但是沒(méi)有論文。
Whisper論文鏈接:https://arxiv.org/pdf/2212.04356
在PaLM變?yōu)镚emini之前,AudioPaLM算是谷歌在語(yǔ)音領(lǐng)域的絕唱。
AudioPaLM將基于文本(PaLM-2)和基于語(yǔ)音(AudioLM)的語(yǔ)言模型融合成一個(gè)統(tǒng)一的多模態(tài)架構(gòu),能夠處理和生成文本和語(yǔ)音,下游應(yīng)用包括「語(yǔ)音識(shí)別」和「語(yǔ)音到語(yǔ)音的翻譯」;繼承了AudioLM保持副語(yǔ)言信息(如說(shuō)話者身份和語(yǔ)調(diào))的能力,以及像PaLM-2這樣的基于文本的大型語(yǔ)言模型中獨(dú)有的語(yǔ)言知識(shí)。
論文鏈接:https://arxiv.org/pdf/2306.12925
Meta發(fā)布的Llama 3語(yǔ)音模型也可以作為競(jìng)品參考。
論文鏈接:https://arxiv.org/pdf/2407.21783
NaturalSpeech是領(lǐng)先的「語(yǔ)音合成」(TTS)方法之一,最新版本為v3
研究人員在論文中首先基于主觀測(cè)量的統(tǒng)計(jì)顯著性來(lái)定義「人類水平」的語(yǔ)音合成質(zhì)量,然后利用變分自編碼器(VAE)進(jìn)行端到端的文本到波形生成,并通過(guò)幾個(gè)模塊來(lái)增強(qiáng)先驗(yàn)從文本中的能力,以及降低后驗(yàn)從語(yǔ)音中的復(fù)雜性,包括音素預(yù)訓(xùn)練、可微分時(shí)長(zhǎng)建模、雙向先驗(yàn)/后驗(yàn)建模,以及VAE中的記憶機(jī)制。
論文鏈接:https://arxiv.org/abs/2205.04421
圖像/視頻擴(kuò)散模型
Stable Diffusion絕對(duì)是最有名的開(kāi)源文生圖模型,旗下還有SD2, SDXL, SD3模型及論文。Latent Diffusion模型首次將擴(kuò)散模型應(yīng)用于預(yù)訓(xùn)練自編碼器的潛空間中,極大降低了擴(kuò)散模型的訓(xùn)練、微調(diào)、推理的成本,可以在降低復(fù)雜度和保留細(xì)節(jié)之間達(dá)到最優(yōu)的平衡,并提升視覺(jué)保真度。
論文鏈接:https://arxiv.org/pdf/2112.10752
通過(guò)在模型架構(gòu)中引入交叉注意力層,擴(kuò)散模型就變成了通用條件輸入生成器,可以處理文本或邊界框,實(shí)現(xiàn)高分辨率合成。
OpenAI的DALL-E系列文生圖模型有三代,其論文也值得閱讀。
DALL-E 3論文鏈接:https://cdn.openai.com/papers/dall-e-3.pdf
谷歌的文生圖模型Imagen有三代,后續(xù)工作為Ideogram 2.0
Imagen 3論文:https://arxiv.org/abs/2408.07009
一致性模型論文是后續(xù)工作LCMs(潛一致性模型)的基礎(chǔ),解決了由于迭代采樣導(dǎo)致生成速度過(guò)慢的問(wèn)題:直接將噪聲映射到數(shù)據(jù)來(lái)生成高質(zhì)量樣本,采用多步采樣來(lái)提升效率,但樣本質(zhì)量略有下降;同時(shí)支持零樣本數(shù)據(jù)編輯,如圖像修復(fù)、上色和超分辨率,而無(wú)需進(jìn)行顯式訓(xùn)練,最新版本為sCMs
論文鏈接:https://arxiv.org/pdf/2303.01469
文本到視頻模型Sora雖然沒(méi)有論文,但是其底層原理DiT和開(kāi)源模仿者OpenSora可以作為參考。
DiT用一個(gè)潛在塊Transformer替換了常用的U-Net主干網(wǎng)絡(luò),具有更高的Gflops,通過(guò)增加Transformer的深度/寬度或增加輸入token的數(shù)量,可以進(jìn)一步降低FID距離分?jǐn)?shù),在類條件ImageNet 512x512和256x256基準(zhǔn)測(cè)試中超越所有先前的擴(kuò)散模型。
DiT論文鏈接:https://arxiv.org/abs/2212.09748
擴(kuò)散模型同樣可以應(yīng)用在其他模態(tài)上,如Text Diffusion, Music Diffusion
微調(diào)
使用LoRA/QLoRA在本地模型和4o模型上進(jìn)行微調(diào),都已被證明是一種低成本的微調(diào)方法。
QLoRA論文鏈接:https://arxiv.org/pdf/2305.14314
QLoRA通過(guò)凍結(jié)4位量化預(yù)訓(xùn)練語(yǔ)言模型和低秩適配器(LoRA)實(shí)現(xiàn)反向傳播,可以在單個(gè)48GB GPU上微調(diào)一個(gè)650億參數(shù)的模型,同時(shí)保持16位微調(diào)任務(wù)的性能;最佳模型Guanaco在僅24小時(shí)的微調(diào)后達(dá)到了ChatGPT性能的99.3%
文中還詳細(xì)分析了聊天機(jī)器人基準(zhǔn)測(cè)試的局限性,展示了GPT-4評(píng)估是一種廉價(jià)且合理的替代人類評(píng)估的方法。
DPO(直接偏好優(yōu)化)是PPO(近端策略優(yōu)化)的替代方案,開(kāi)發(fā)者更喜歡用DPO,但其性能上略遜一籌,OpenAI也選擇DPO作為偏好微調(diào)方法。
DPO論文鏈接:https://arxiv.org/pdf/2305.18290
基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)是一個(gè)復(fù)雜且不穩(wěn)定的過(guò)程,需要先訓(xùn)練一個(gè)反映人類偏好的獎(jiǎng)勵(lì)模型,再通過(guò)強(qiáng)化學(xué)習(xí)對(duì)大型無(wú)監(jiān)督語(yǔ)言模型進(jìn)行微調(diào)。
DPO是一種新的獎(jiǎng)勵(lì)模型參數(shù)化方法,可以用簡(jiǎn)單的分類損失來(lái)解決標(biāo)準(zhǔn)的RLHF問(wèn)題,穩(wěn)定、高效且計(jì)算成本低,無(wú)需在微調(diào)過(guò)程中從語(yǔ)言模型中抽樣或進(jìn)行大量的超參數(shù)調(diào)整;在控制生成內(nèi)容符合人類偏好方面,DPO的表現(xiàn)超過(guò)了基于PPO的RLHF
ReFT(表示微調(diào))不關(guān)注某些層,而是關(guān)注特征:在凍結(jié)的基礎(chǔ)模型上操作,學(xué)習(xí)對(duì)隱藏表示進(jìn)行特定任務(wù)的干預(yù),可以替代現(xiàn)有的參數(shù)高效微調(diào)(PEFT)方法,學(xué)習(xí)到的干預(yù)措施比LoRA的效率提升15到65倍。
論文鏈接:https://arxiv.org/pdf/2404.03592
Orca和Orca2項(xiàng)目展現(xiàn)了使用「合成數(shù)據(jù)」對(duì)小型語(yǔ)言模型進(jìn)行訓(xùn)練后,可以極大提升模型性能;
Orca 3-AgentInstruct的研究成果再把這個(gè)結(jié)論向前推進(jìn)了一步:開(kāi)發(fā)了一個(gè)框架,可以從原始數(shù)據(jù)源大規(guī)模生成多樣化和高質(zhì)量的定制數(shù)據(jù)集(包括用戶提示和模型回復(fù)),最終吸能在AGIEval上提高了40%,在MMLU上提高了19%,在GSM8K上提高了54%;論文公開(kāi)了其中100萬(wàn)個(gè)數(shù)據(jù)對(duì)。
報(bào)告鏈接:https://www.microsoft.com/en-us/research/blog/orca-agentinstruct-agentic-flows-can-be-effective-synthetic-data-generators/
雖然OpenAI的o1模型使用的強(qiáng)化學(xué)習(xí)微調(diào)仍然存在爭(zhēng)議,但Let's Verify Step by Step論文提供了部分底層原理解釋。
在復(fù)雜的多步推理時(shí),研究人員發(fā)現(xiàn)「過(guò)程監(jiān)督」顯著優(yōu)于「結(jié)果監(jiān)督」,可以解決MATH測(cè)試集中78%的問(wèn)題;主動(dòng)學(xué)習(xí)(active learning)還能提高過(guò)程監(jiān)督的有效性;文中發(fā)布PRM800K數(shù)據(jù)集,包含80萬(wàn)個(gè)「步驟級(jí)」人類反饋標(biāo)簽。
論文鏈接:https://arxiv.org/pdf/2305.20050
HuggingFace微調(diào)實(shí)踐:https://www.philschmid.de/fine-tune-llms-in-2025
參考資料:https://x.com/DrJimFan/status/1874490807652356377