国产人妻人伦精品无码.麻豆,最近中文字幕mv免费高清在线,男女日b视频

OpenAI的強(qiáng)化微調(diào)：RL+Science 創(chuàng)造新神還是滅霸？

來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-08 19:50:07 瀏覽：643次

導(dǎo)讀：機(jī)器之心轉(zhuǎn)載來(lái)源：知乎王夢(mèng)迪2024 年 12 月 6 號(hào)加州時(shí)間上午 11 點(diǎn)，OpenAI 發(fā)布了新的 Reinforcement Finetuning 方法，用于構(gòu)造專(zhuān)家模型。對(duì)于特定領(lǐng)域的決策問(wèn)題，比如醫(yī)療診斷、罕見(jiàn)病診斷等等，只需要上傳幾十到幾千條訓(xùn)練案例，就可以通過(guò)微調(diào)來(lái)找到最有的決策。數(shù)據(jù)的形式類(lèi)似于 instructiong tuning 的常見(jiàn)形式，有多個(gè)選項(xiàng)以及正確選項(xiàng)。同一時(shí)間，OpenAI 還發(fā)布了 ......

機(jī)器之心轉(zhuǎn)載來(lái)源：知乎王夢(mèng)迪2024 年 12 月 6 號(hào)加州時(shí)間上午 11 點(diǎn)，OpenAI 發(fā)布了新的 Reinforcement Finetuning 方法，用于構(gòu)造專(zhuān)家模型。對(duì)于特定領(lǐng)域的決策問(wèn)題，比如醫(yī)療診斷、罕見(jiàn)病診斷等等，只需要上傳幾十到幾千條訓(xùn)練案例，就可以通過(guò)微調(diào)來(lái)找到最有的決策。

數(shù)據(jù)的形式類(lèi)似于 instructiong tuning 的常見(jiàn)形式，有多個(gè)選項(xiàng)以及正確選項(xiàng)。同一時(shí)間，OpenAI 還發(fā)布了一個(gè)強(qiáng)化微調(diào)研究項(xiàng)目，鼓勵(lì)學(xué)者專(zhuān)家們上傳自己領(lǐng)域的獨(dú)特?cái)?shù)據(jù)，測(cè)試他們的強(qiáng)化微調(diào)能力。

這個(gè)結(jié)果很漂亮，用的技術(shù)正是已經(jīng)廣泛應(yīng)用于 alignment, math, coding 領(lǐng)域的方法，其前身就是 Reinforcement learning from human feedback (RLHF). RLHF 用來(lái)對(duì)齊大模型與人類(lèi)偏好性數(shù)據(jù)，訓(xùn)練數(shù)據(jù)的形式為（問(wèn)題，回答 1，回答 2，偏好），讓用戶(hù)選擇更喜歡的回答，學(xué)習(xí)人類(lèi)的偏好，訓(xùn)練獎(jiǎng)勵(lì)模型（reward model）。給定 reward model 之后，用強(qiáng)化學(xué)習(xí)算法 (PPO, DPO）來(lái)微調(diào)模型參數(shù)，微調(diào)后的模型更容易生成用戶(hù)喜歡的內(nèi)容。

當(dāng)求解 math 和 coding 問(wèn)題時(shí)，每個(gè)問(wèn)題都有正確答案。這時(shí)可以用 MCTS 等 RL 方法，生成大量的不同的求解軌跡，有的正確有的錯(cuò)誤，用回答正確的軌跡做 SFT，或者用（正確解法，錯(cuò)誤解法）的組合來(lái)做 RLHF。更進(jìn)一步，可以把軌跡生成和 RLHF 微調(diào)這兩步迭代起來(lái)，不斷調(diào)整 reference policy，迭代不斷提高正確率，如 GRPo 或 SPPO 等。

OpenAI 的 RFT 只需要很少數(shù)據(jù)，就能再一些專(zhuān)家場(chǎng)景中，學(xué)會(huì)醫(yī)療診斷和科學(xué)決策，這個(gè)方法本質(zhì)上還是 CoT+RL，其中 CoT 這步可以 brainstorm 增強(qiáng)生成多樣的不同推理路徑，然后根據(jù)答對(duì)沒(méi)有來(lái)進(jìn)行打分，再繼續(xù)做 RL 微調(diào)并且迭代。CoT 可以是把一系列的科學(xué) / 醫(yī)療常識(shí)串聯(lián)起來(lái)。這些常識(shí)來(lái)自預(yù)訓(xùn)練。

難點(diǎn)在于如何定義什么是 RL 里的 state-transition, 也即一步的思維推理。每一步 state transition 是大模型已經(jīng)學(xué)到的科學(xué)常識(shí)，再用 RL 找到通向高分的完整鏈路。關(guān)鍵問(wèn)題是如何做到 token-level 和 full-response level RL 直接找到平衡點(diǎn)，也即如何描述”state”。token-level 的微調(diào)效率太低、不容易泛化；full-response level 又會(huì)迷糊了推理的過(guò)程。

更 fundamental 的問(wèn)題是：何找到思維鏈里面的 “state” 呢，思維的 state representation 是不是已經(jīng)在預(yù)訓(xùn)練里涌現(xiàn)出來(lái)了？有了合適的 state representation，RFT 就可以 easy, stable and robust。

Demo 里也能看出這個(gè)技術(shù)現(xiàn)階段的局限性。罕見(jiàn)病排查，從醫(yī)學(xué)角度重要，但是確實(shí)已知的科學(xué)，而且是已知科學(xué)問(wèn)題中最簡(jiǎn)單的一類(lèi)。罕見(jiàn)病的診斷往往有清晰的基因指標(biāo)，和相對(duì)流程化的判別路徑。之所以能用很少的數(shù)據(jù)就學(xué)會(huì)這個(gè)診斷過(guò)程，是因?yàn)楹芏嗳祟?lèi)專(zhuān)家任務(wù)的 know-how 其實(shí)是簡(jiǎn)單的決策樹(shù)，幾十個(gè)案例就足以囊括底層邏輯。

這類(lèi)問(wèn)題本質(zhì)是多項(xiàng)選擇題，只要選擇有限，不同選項(xiàng)之間區(qū)分度大就很容易掌握。

這個(gè) demo 還規(guī)避了 RLHF 里最難搞的 reward modeling 步驟，隨便設(shè)定一個(gè)打分函數(shù)就能用，比如正確答案給 1 分，錯(cuò)誤答案 0 分。

然而真正的科學(xué)問(wèn)題，往往不是有固定選項(xiàng)的選擇題，沒(méi)有標(biāo)準(zhǔn)答案，如何定義 action，如何定義問(wèn)題該怎么問(wèn)，如何給新的科學(xué)概念一個(gè)定義一個(gè)名字，這才是最高級(jí)也最有挑戰(zhàn)的科學(xué)難題�？茖W(xué)的數(shù)據(jù)也往往是 noisy 的，不是簡(jiǎn)單的多選題，沒(méi)有清晰的決策樹(shù)。

講完了技術(shù)的潛力，我們來(lái)討論風(fēng)險(xiǎn)。今天 OpenAI 發(fā)布 RFT 的同一時(shí)間，推出了強(qiáng)化微調(diào)研究項(xiàng)目。這個(gè)項(xiàng)目邀請(qǐng)全世界的科研人員提供他們領(lǐng)域的決策數(shù)據(jù)集，讓 OpenAI 來(lái)測(cè)試其 RFT 推理決策能力，不斷進(jìn)化。

然而，看到這個(gè)項(xiàng)目的時(shí)候，讓人冷汗不已。

今年夏天，我參加美國(guó)科學(xué)院召開(kāi)的 AI for science 安全討論會(huì)，包括諾獎(jiǎng)獲得者 David Baker 在內(nèi)的很多研究者也在場(chǎng)。討論會(huì)上，每個(gè)人都要回答為什么自己正在開(kāi)發(fā)的 AI for science 技術(shù)是安全的，是可控的、可追蹤的。

如果科學(xué)這顆寶石，如果都集中在了同一個(gè)非開(kāi)源公司手里，那么我們?cè)斐龅氖切律�，還是帶上了無(wú)限手套的滅霸？

作者介紹

王夢(mèng)迪現(xiàn)任普林斯頓大學(xué)電子與計(jì)算機(jī)工程系終身教授，并創(chuàng)立并擔(dān)任普林斯頓大學(xué) “AI for Accelerated Invention” 中心的首任主任。她的研究領(lǐng)域涵蓋強(qiáng)化學(xué)習(xí)、可控大模型、優(yōu)化學(xué)習(xí)理論以及 AI for Science 等多個(gè)方向。王夢(mèng)迪曾先后在 Google DeepMind、高等研究院與 Simons 研究院擔(dān)任訪(fǎng)問(wèn)學(xué)者，并榮獲 MIT TR35、美國(guó)國(guó)家科學(xué)基金會(huì)（NSF）事業(yè)獎(jiǎng)、Google 學(xué)者獎(jiǎng)等多項(xiàng)榮譽(yù)。2024 年 7 月，她獲頒 AACC Donald Eckman 獎(jiǎng)，以表彰其在控制與動(dòng)態(tài)系統(tǒng)、機(jī)器學(xué)習(xí)及信息論交叉領(lǐng)域所作出的杰出貢獻(xiàn)。

https://zhuanlan.zhihu.com/p/11273216258?utm_medium=social&utm_psn=1848703455629303809&utm_source=wechat_timeline&utm_id=0

相關(guān)熱詞： openai science 滅霸醫(yī)療

OpenAI的強(qiáng)化微調(diào)：RL+Science 創(chuàng)造新神還是滅霸？
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-08 19:50:07 瀏覽：643次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線(xiàn)客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

OpenAI的強(qiáng)化微調(diào)：RL+Science 創(chuàng)造新神還是滅霸？ 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-08 19:50:07 瀏覽：643次