展會信息港展會大全

面壁智能創(chuàng)始人劉知遠:我們應(yīng)該把AI看作是一個工具
來源:互聯(lián)網(wǎng)   發(fā)布日期:2025-01-05 10:48:27   瀏覽:330次  

導讀:清華大學計算機系副教授劉知遠小學時寫應(yīng)用題,老會卡殼。他總會過度思考,從一個題目里讀出多重含義。到了高中,寫英語閱讀理解時,這種感受更強烈了。劉知遠從未懷疑過出題人,反而懷疑是不是自己太笨了,“理解不了題目”。多年后深入學習語言哲學之后,他才漸漸意識到這其實是種天賦,“我就比較善于抓住語言里面那個不確定的地方”。自然語言處理的本質(zhì)就是消除這種不確定 ......

清華大學計算機系副教授劉知遠小學時寫應(yīng)用題,老會卡殼。他總會過度思考,從一個題目里讀出多重含義。到了高中,寫英語閱讀理解時,這種感受更強烈了。

劉知遠從未懷疑過出題人,反而懷疑是不是自己太笨了,“理解不了題目”。多年后深入學習語言哲學之后,他才漸漸意識到這其實是種天賦,“我就比較善于抓住語言里面那個不確定的地方”。

自然語言處理的本質(zhì)就是消除這種不確定,讓機器能夠精確無誤地理解人類的語言。劉知遠前半生正是與這種不確定性纏斗的二十年。

特別是過去兩年,搭上ChatGPT的便車,自然語言處理坐上了時光機,“從2023年到2024年所經(jīng)歷的這些新事情,比過去20年經(jīng)歷的總和還要多得多”。

回望中國大模型史,年屆四十的劉知遠是個繞不過去的人物。他參與締造中國第一個大模型,又躬身參與了這一輪大模型創(chuàng)業(yè)。2022年8月,在ChatGPT發(fā)布的三個月前,劉知遠發(fā)起成立了一家大模型公司面壁智能。

這家公司最為出圈的一件事是,2023年6月3日,斯坦福大學一個學生團隊發(fā)布的一個模型被發(fā)現(xiàn)是抄襲了面壁智能的模型。

面壁智能的辦公室位于北京中關(guān)村東路1號院6號樓3 層,辦公室的白墻上隨處可見那句《三體》的經(jīng)典臺詞,“這是面壁計劃的一部分”。

面壁智能創(chuàng)始人劉知遠:我們應(yīng)該把AI看作是一個工具

圖片由農(nóng)健使用AI工具生成

GPT前傳1984年,劉知遠出生在山東泰安新泰市一個普通工薪家庭,小學偶爾逃課去游戲廳玩,家里也沒期待過他能上清華。他父親在郵電局上班,還建議放棄初中直接讀中專,方便以后接他的班。

沒想到十幾年后,劉知遠以山東省前三十名的成績,如愿進入清華大學。

當時正是互聯(lián)網(wǎng)泡沫破滅之時,最熱門的方向是建筑和生物醫(yī)學,計算機專業(yè)并不是高分專業(yè)。劉知遠報了建筑、生物工程和電子系,招生組反饋這些專業(yè)的名額已經(jīng)被分數(shù)更高的同學占了,無奈選了計算機專業(yè),“算是一個機緣巧合吧”。

讀博時也是如此,報考生物信息學方向也是招滿了,他陰差陽錯進入了自然語言實驗室,“我覺得非常幸運,因為五年之后生物信息學的導師自己都放棄了這個方向。”自然語言處理正好開始了高歌猛進的二十年。

劉知遠清楚記得,讀博期間,實驗室有個大師兄做文本分類,“給你一篇文章,看能不能把它分到相關(guān)的類別里面,比如這篇新聞是社會新聞,還是國際新聞、軍事新聞,或是別的新聞?”他的博士論文就是關(guān)鍵詞提取,“通過統(tǒng)計的方法識別出文檔到底哪個詞,能代表文章主題的關(guān)鍵詞!

2012年成為一個分水嶺,深度學習在大洋彼岸叩響了發(fā)令槍。當年10月,Geoffrey Hinton和他的兩名學生Alex Krizhevskyr,以及ChatGPT的靈魂人物Ilya Sutskeve,獲得ImageNet圖像識別比賽的冠軍,并且發(fā)表論文介紹了第一個深度卷積神經(jīng)網(wǎng)絡(luò)模型AlexNet。ImageNet是斯坦福大學教授李飛飛創(chuàng)辦的人工智能領(lǐng)域一個重要賽,通過對機器算法識別圖像,從而促進最先進算法的開發(fā)。

在處理圖像識別、語音識別方面,深度學習的能力得到了廣泛認可。在老師孫茂松的帶領(lǐng)下,劉知遠花了兩個月尋找答案。可自然語言處理方向的大多數(shù)人的意見是,深度學習不能幫助自然語言處理。

最終劉知遠得出一個結(jié)論:基于統(tǒng)計學習用符號去表示語言知識的這種傳統(tǒng)路線,已經(jīng)沒有太多突破的可能,深度學習是個非常值得探索的新技術(shù)路線。正是基于這樣的判斷,“我們實驗室應(yīng)該是國內(nèi)最早擁抱深度學習的團隊”。

2017年,出現(xiàn)了Transformer的結(jié)構(gòu),2018年,出現(xiàn)了BERT這樣的預訓練模型。預訓練大模型出現(xiàn)之前,自然語言處理都需要服務(wù)于某個特定目標。比如機器翻譯,就要收集大量中英文的句子,更像是頭疼醫(yī)頭、腳疼醫(yī)腳。人類并不是生來就可以被培養(yǎng)成一個翻譯家,而是要先成為具備通識能力的正常人。所謂的預訓練模型,就是把人培養(yǎng)成具有通識能力的正常人的過程。

從深度學習到預訓練模型,自然語言處理勢如破竹,直到2022年11月,OpenAI發(fā)布了大語言模型ChatGPT。

第一個大模型劉知遠感受到來自大模型的震撼是在2020年5月GPT-3.0發(fā)布,“遠超后來ChatGPT帶來的震撼”。此前,劉知遠還沾沾自喜于對BERT預訓練模型,提出了一些原創(chuàng)改進的工作,“好像能夠望其項背,甚至齊頭并進”。

GPT-3.0讓他瞬間慌了神,“我們算是國內(nèi)最一線的團隊,最多用兩三張卡在一臺機器上訓一個模型,甚至覺得這種單機多卡訓練是一個很大的挑戰(zhàn),讓我震撼的是OpenAI 用了一萬張卡訓出了GPT-3.0”。

羞于找領(lǐng)導的劉知遠,這次敲開了時任智源研究院理事長張宏江的門,“如果不盡快趕上的話,可能會被甩得很遠”。當時學校不可能短時間內(nèi)購買到大量的芯片,幸好他當時在智源研究院做青年科學家,了解到智源研究院正在鼓勵最前沿的探索。

得益于智源研究院靈活的機制,2022年7月匯報情況,9月10臺A100芯片已經(jīng)到位, “大概花了幾百萬元”。當時的情況,國內(nèi)完全沒有經(jīng)驗,高性能計算專家陳文光團隊幫助搭建起整個訓練框架,“他們興奮地裝了一晚上,凌晨給我發(fā)了個消息說,裝好了”。

經(jīng)過20天左右訓練,團隊在2020年11月得到了一個26億參數(shù)的大模型,“盡管是個非常小的預訓練模型,可已經(jīng)充分驗證了GPT的技術(shù)路線是可行的”。

之后智源研究院訓出了中國第一個大模型悟道 1.0,這也成為中國大模型的“黃埔軍!薄V亲V清言、月之暗面、面壁以及零一萬物的核心技術(shù)骨干,都與當時智源研究院的悟道項目淵源頗深。

“20年前,會有專家信誓旦旦告訴我,深度學習不可能在自然語言處理里面存活下來,10年前,很多人會覺得,你這個預訓練模型這么耗費算力肯定不行,不可往下走!蹦呐率堑搅2022 年,大模型在智源已經(jīng)形成共識,但從全國來講仍然是非共識。

創(chuàng)辦面壁智能,押寶端側(cè)大模型,劉知遠正是出于對AGI(通用人工智能)的信仰,他說,“我并不知道5年后、10年后會是什么樣子,但是我非常堅定相信,未來這一波AGI浪潮,一定是遠遠超越2000年那次互聯(lián)網(wǎng)的浪潮,遠遠超越2010年那次由個性化推薦所產(chǎn)生的一次浪潮。這個浪潮要大得多,它將會深遠影響我們每個人的生活,每個人的工作,每個人的學習方式,甚至我們存在于這個世界上的方式!

大模型浪潮來臨之前,劉知遠身上最知名的標簽是“知乎大V”,共有 752 個回答,不少是抖機靈的神回復,他打趣說,“那是我年輕時寫的那些回答,現(xiàn)在可能學生們都會比較怕我”。

2024年12月22日,在面壁智能的辦公室里,劉知遠向南方周末記者回顧了過去二十年的變革,對人工智能的未來展開了一次深入的對話。

面壁智能創(chuàng)始人劉知遠:我們應(yīng)該把AI看作是一個工具

面壁智能創(chuàng)始人劉知遠。 受訪者供圖

ChatGPT的突破南方周末:什么是自然語言處理?

劉知遠:簡單地說,就是用計算機來處理、理解以及運用人類語言,是人工智能的一個分支。沒有語言,人類的思維就無從談起,所以自然語言處理體現(xiàn)了人工智能的最高任務(wù)與境界。也就是說,只有當計算機具備了處理自然語言的能力,機器才算實現(xiàn)了真正的智能。

南方周末:自然語言處理有哪些研究方法?

劉知遠:人們主要通過兩種思路來進行自然語言處理,一種是基于規(guī)則的理性主義,另外一種是基于統(tǒng)計的經(jīng)驗主義。

理性主義方法認為,人類語言主要是由語言規(guī)則來產(chǎn)生和描述的,只要能夠用適當?shù)男问綄⑷祟愓Z言規(guī)則表示出來,就能夠理解人類語言,并實現(xiàn)語言之間的翻譯等各種自然語言處理任務(wù)。

而經(jīng)驗主義方法則認為,從語言數(shù)據(jù)中獲取語言統(tǒng)計知識,有效建立語言的統(tǒng)計模型。因此只要有足夠多的用于統(tǒng)計的語言數(shù)據(jù),就能夠理解人類語言。

南方周末:機器的語言和人的語言之間的鴻溝到底是什么?

劉知遠:上個世紀中葉,著名語言學家諾姆喬姆斯基提出了現(xiàn)代句法理論,設(shè)想通過形式化的句法理論來分析人類語言,比如句子(S)等于名詞短語(NP)加動詞短語(VP),即主謂結(jié)構(gòu)。

當時的學者認為,人類語言大部分情況下應(yīng)該符合這種句法理論。但真正嘗試用一套句法,涵蓋所有的人類語言,就會發(fā)現(xiàn)這個句法體系會變得極其復雜,需要無數(shù)個例外。語言里面有所謂的一詞多義的情況,又會變成是一個很復雜的問題。早期的時候,人工智能學者也好,語言學者也好,都低估了計算機理解人類語言的難度。

ChatGPT為什么偉大?因為它是人類歷史上真正實現(xiàn)了用一個模型去理解和生成人類語言,這在歷史上是從來沒實現(xiàn)過的。

南方周末:ChatGPT是人類語言的核心公式,或者一個萬能公式?

劉知遠:可以這么說,只是這個公式非常復雜,人類難以完全理解。ChatGPT既包含了語言的句法知識,也包含了語義知識,能夠理解和回應(yīng)我們提出的各種問題。不僅如此,它還超越了單純的語義理解,對世界有廣泛認知,已經(jīng)超出了語言本身的范疇。

南方周末:從脈絡(luò)上來看,這一輪大模型是經(jīng)驗主義的一次突破?

劉知遠:我認為還是屬于經(jīng)驗主義,大模型這些知識來源于后天,是通過數(shù)據(jù)學習來的。

南方周末:理性主義的式微,是否只是暫時的?

劉知遠:我認為理性主義一定有它自己的未來,可能不再是歷史上已有的形態(tài),而是一個全新的形態(tài)。人類的知識難道只是經(jīng)驗主義嗎?顯然不是。喬姆斯基提過刺激貧乏理論,就是人類一出生,到真正掌握語言,所接受到的外部信號是非常少量的。

這個刺激和人類大腦的參數(shù)相比是非常貧乏的,為什么在這么貧乏的刺激之下,可以掌握這樣一個復雜的知識體系?這個假說的猜想就是,大腦不是一個白板,而是預制了一套參數(shù),外部有限的刺激激活了這套參數(shù)。

這套參數(shù)不和某個特定語言相關(guān),外部刺激是英文,就會激活成英文,外部刺激是中文,就會激活成中文。這套知識應(yīng)該是經(jīng)過幾百萬年進化刻在人類的基因里面。

但是從實用主義的角度來講,人類的智能可能是這兩者兼具,既要從后天學習,也會通過遺傳先天儲備一些知識。

大模型可能是經(jīng)驗主義的典范,但難道只有經(jīng)驗主義在發(fā)揮作用嗎?也有人類作為上帝之手設(shè)計這個神經(jīng)網(wǎng)絡(luò)的架構(gòu)。這個學習訓練的方法也是人來設(shè)計的。我認為大模型無疑是經(jīng)驗主義的典范,但不是只有經(jīng)驗主義發(fā)揮了作用。

不是OpenAI做什么都是對的南方周末:現(xiàn)在很多人認為,人類已經(jīng)找到了通往了AGI(通用人工智能)的道路,似乎和上世紀五十年代有些類似。你認可這個觀點嗎?

劉知遠:現(xiàn)在似乎OpenAI做什么,大家就會認為AGI是什么,我認為這件事情很危險。OpenAI的觀點過去是非共識,現(xiàn)在變成了共識,但是面向未來,我認為仍然需要一些非共識的東西。

南方周末:OpenAI提出了Scaling Law(規(guī)模效應(yīng)),但這一理論的科學性還沒有得到證實。過去一年,Scaling Law是否已經(jīng)到了盡頭?

劉知遠:不斷提供更多的數(shù)據(jù),有足夠多的這種算力支持,就可以在一個模型里面不斷積累更多的知識,從而產(chǎn)生所謂的“智能涌現(xiàn)”。模型越大,裝的知識越多,能力越強,這就是所謂的Scaling Law。

現(xiàn)在顯然遇到瓶頸了,或者說撞墻了。原因是數(shù)據(jù)似乎已經(jīng)用完了,算力也不足以支持這個模型像過去那樣膨脹幾百倍甚至幾千倍。

算力問題可能更關(guān)鍵,如果變成幾萬億、幾十萬億、幾百萬億,不只是訓練的成本極高,推理一次成本也極高,這是幾十億人可以去承擔的成本嗎?我覺得顯然不是。

南方周末:那對大模型來如何提高能力上限,你有什么樣的方案?

劉知遠:我們提了一個全新的設(shè)想:Densing Law(稠密定律),我們認為絕對不是簡單追求把規(guī)模做得越來越大,而是能用更低的成本實現(xiàn)更強的能力。

一個非常直觀的類比就是摩爾定律。過去80年,信息革命非常重要的一個推動力就是算力的廉價化、普惠化。對于大模型來講,也應(yīng)該做類似的事情,把更多的知識放在一個更小參數(shù)的模型里面去,讓這個模型能以更低的成本去訓練,更低的成本去使用,讓每個人都能用得起、用得上。

南方周末:OpenAI的o1或者o3,似乎不是依照Scaling Law越訓越大,而是越訓越深,對數(shù)據(jù)的深度進行再開發(fā)?

劉知遠:我認為Densing Law和o1或者o3是在沿著不同的方向在發(fā)展。o1或者o3讓模型變得更強,思考能力變得更深,其實就是讓模型更大,容納的知識更多,解決更難的問題。o3的編程能力,已經(jīng)達到全人類的前200名的水平了,但是它的成本有多高?OpenAI還在考慮推出價格為2000美元的訂閱層級。

上個世紀,算力發(fā)展也有兩個方向,一個是當時大型機的巨頭IBM,就是把計算機做大。時任IBM董事長的觀點是,這個世界上未來需要不超過5臺計算機。可信息革命最重要的基石是個人電腦,是算力的普及化和普惠化。

我們當然需要超級智能的大模型,數(shù)學能力堪比陶哲軒,物理能力堪比楊振寧,但是我們每個人日常的生活、工作和學習需要去讓陶哲軒、楊振寧解決嗎?o1、o3當然很重要,但是我不認為它代表著智能革命的未來,這只是智能革命的一部分。

南方周末:現(xiàn)在要在手機上運行一個大模型,目前還有哪些障礙?

劉知遠:這個技術(shù)本身還沒有發(fā)展到那個階段,Densing Law的核心是發(fā)現(xiàn)大模型密度每100天倍增一下,也就是說100天之后只需要一半的參數(shù),就可以實現(xiàn)同等能力的模型,F(xiàn)在我們已經(jīng)能夠?qū)崿F(xiàn)在端側(cè)運行GPT-3.5級別的大模型。但顯然還不夠,GPT-4還有GPT-4o這樣能力的大模型,還沒辦法在端側(cè)上運行,所以大模型能真正服務(wù)大部分人生活仍需要一兩年時間。

南方周末:硬件上是不是也受到很大限制,手機上運行這樣參數(shù)的大模型會有發(fā)熱的問題?

劉知遠:既有算力的約束,還有能耗、內(nèi)存的約束,F(xiàn)在不能指望硬件,因為它的發(fā)展受摩爾定律的約束,每18個月才能夠倍增一次,更快的辦法是通過AI技術(shù)的演進來實現(xiàn),用更少參數(shù)的模型實現(xiàn)相同的能力,讓現(xiàn)有的硬件就能跑得起、跑得動這些大模型。

南方周末:算力方面目前還有多大差距?

劉知遠:80億參數(shù)的模型是可以實現(xiàn)GPT-4v的水平,但是它仍然只能用像蘋果的最領(lǐng)先的M4芯片才能夠跑得動,而且還比較吃力。

南方周末:Densing Law這個定律,是整個行業(yè)的趨勢嗎?

劉知遠:OpenAI大模型的API價格,過去20個月也是不斷下探,這說明他們也在努力推進這個模型的小型化。我不認為Scaling Law和Densing Law是矛盾的。這個世界上最領(lǐng)先的公司,他們也在努力讓自己的模型變得更加稠密,我覺得這就是未來發(fā)展的趨勢。大模型會變得越來越小,如同個人PC的普及過程,每個人都將擁有屬于自己的大模型。我們給這個時間做了測算,10年。

“我們處在一個狂飆的時代”南方周末:當越來越多的工作由AI完成,那我們?nèi)祟惡我宰蕴帲?br/>

劉知遠:答案或許較為簡單:我們應(yīng)該把AI看作一個工具盡管它是一個非常智能的工具。AI可以承擔起那些過去需要人類智力才能完成的工作,從而解放人類的時間和精力,使人們能夠?qū)W⒂谄渌矫妗?br/>

我認為,歷史上任何技術(shù)發(fā)展帶來的結(jié)果都可以進行類比。例如,人類能夠制造大型飛機、大型收割機、汽車以及各種先進產(chǎn)品。這些產(chǎn)品的制造或生產(chǎn)本身并不意味著大多數(shù)人因為無法親自制造這些物品而感到失落。相反,我們成功制造了這些產(chǎn)品,人們可以利用它們繼續(xù)前進和發(fā)展。

在計算機領(lǐng)域有一個非常形象的名詞叫“封裝”。所有的產(chǎn)品都是一個封裝的過程,正因為如此,成為產(chǎn)品之后,世界上只需要很少的人來制造這個產(chǎn)品,而絕大部分人可以享用這個產(chǎn)品。所以我認為,未來的人工智能也可能如此:只有少數(shù)人會去制造各個領(lǐng)域的AI產(chǎn)品,而更多人可以享用這些AI產(chǎn)品所帶來的便利。

南方周末:15年到20年后千萬不能從事的專業(yè),你認為是哪三個?

劉知遠:我不認為未來某些行業(yè)一定會因為AI的出現(xiàn)而不能從事。因為未來可能會是人機協(xié)同來生產(chǎn)相關(guān)行業(yè)的AI產(chǎn)品。任何現(xiàn)在主要由人完成的行業(yè),未來可能通過人機協(xié)同將其形成產(chǎn)品。我不太覺得任何一個行業(yè)會變成消失的行業(yè),只是它培養(yǎng)的人員可能不再需要歷史上那么多。例如程序員和計算機編程人員,未來可能只需培養(yǎng)有限數(shù)量的工程師來不斷改進AI編程產(chǎn)品。

南方周末:你認為哪些專業(yè)會較早受到影響?

劉知遠:有一個非常明確的標準:首先,專業(yè)必須是高附加值的,即本身收入極高,替代它的收益也極大;其次,該領(lǐng)域的數(shù)據(jù)治理水平要足夠高。滿足這兩個條件的專業(yè)會較快受到影響,例如金融、會計和法律等領(lǐng)域可能會較早受到一些影響。

南方周末:如何看待中美在人工智能上面的差距?

劉知遠:我讀博之前,能夠發(fā)一篇頂會論文可以上系里的新聞主頁。等我開始做教師的時候,如果不是發(fā)表一篇最佳論文,都不太能在系主頁上發(fā)新聞。到了現(xiàn)在,幾乎所有的頂級會議和期刊上,中國人都能占據(jù)半壁江山。我的感受是,我們處在一個狂飆的時代,而且這個速度并沒有減緩。

從發(fā)展趨勢來看,二十年前經(jīng)常說中國商業(yè)模式都是Copy to China,十年前開始說中國更多擅長做模式創(chuàng)新而不善于科技創(chuàng)新,而最近幾年我們國家已經(jīng)有很多領(lǐng)先世界的高科技產(chǎn)品。

可能還存在差距的有兩個方面,一個就是最前沿的原始創(chuàng)新能力,我們需要有更多的人能做最原始的引領(lǐng)全球從0到1的創(chuàng)新。第二,美國值得學習的地方是,有一個非常完備的創(chuàng)新機制。但是中國的特點是不太容易形成差異化的分工。

南方周末記者 羅歡歡

責編 顧策

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港