近年來(lái),以 ChatGPT 為代表的大模型飛速發(fā)展,在自然語(yǔ)言處理上展現(xiàn)出驚人的效果,儼然成為新一輪科技革命的重要驅(qū)動(dòng)力量,深刻改變著人類(lèi)的生產(chǎn)方式、生活方式和學(xué)習(xí)方式。
雖然大模型取得了突破性的進(jìn)展,但其在多語(yǔ)言能力上的探索仍然十分滯后,并存在著諸多的局限性。
為此,北京交通大學(xué)助理教授黃鍇宇和合作者,針對(duì)大模型在多語(yǔ)言場(chǎng)景下的語(yǔ)種維度和領(lǐng)域維度,進(jìn)行了一次總結(jié)和分析。
圖 | 相關(guān)論文(來(lái)源:arXiv)
日前,相關(guān)論文以《多語(yǔ)言大型語(yǔ)言模型研究綜述:最新進(jìn)展和新前沿》(A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers)為題發(fā)在 arXiv[1]。
圖 | 黃鍇宇(來(lái)源:黃鍇宇)
黃鍇宇和加拿大蒙特利爾大學(xué)博士生莫馮然是共同一作。
圖 | 莫馮然(來(lái)源:莫馮然)
在這篇論文中,他們找出了通用數(shù)據(jù)驅(qū)動(dòng)型大模型主要面臨的三個(gè)問(wèn)題:
第一,語(yǔ)言遷移問(wèn)題。
大模型的訓(xùn)練數(shù)據(jù)主要專(zhuān)注以英文為核心的通用文本數(shù)據(jù)。
現(xiàn)有的具備一定多語(yǔ)言能力的大模型,也主要以高資源語(yǔ)種為主,所能支持的語(yǔ)種數(shù)量十分有限。
在資源受限的語(yǔ)種性能表現(xiàn)上存在一定的桎梏,比如難以生成流利的句子等。
第二,知識(shí)累積問(wèn)題。
由于數(shù)據(jù)的限制,現(xiàn)有的數(shù)據(jù)難以實(shí)現(xiàn)互相共享和持續(xù)更新。
當(dāng)將所有語(yǔ)言數(shù)據(jù)匯聚到一個(gè)語(yǔ)言模型中,模型的通用知識(shí)也會(huì)隨著差異化訓(xùn)練而產(chǎn)生遺忘。這會(huì)讓模型難以保持原本擅長(zhǎng)的語(yǔ)言能力和其他能力。
不同語(yǔ)言之間的知識(shí)也存在沖突,造成大模型的知識(shí)持續(xù)累積能力不足,使得其在單一模型內(nèi)難以實(shí)現(xiàn)多語(yǔ)言環(huán)境的通用人工智能。
第三,領(lǐng)域適應(yīng)問(wèn)題。
在多語(yǔ)言場(chǎng)景下的特定領(lǐng)域,大模型存在適應(yīng)性不足的問(wèn)題。
現(xiàn)有的領(lǐng)域級(jí)衍生大模型一般是單語(yǔ)模型。而在不同語(yǔ)言場(chǎng)景中,領(lǐng)域任務(wù)同時(shí)存在文化差異和語(yǔ)種差異,這時(shí)難以利用翻譯、中軸語(yǔ)等弱對(duì)齊方式進(jìn)行語(yǔ)料庫(kù)擴(kuò)展。
因此,在非英文場(chǎng)景之下,特定領(lǐng)域的語(yǔ)料庫(kù)十分匱乏,這讓模型難以擴(kuò)展成為多語(yǔ)言的領(lǐng)域級(jí)大模型。
(來(lái)源:arXiv)
而在本次工作中,研究人員探究了當(dāng)前大模型在多個(gè)維度下的多語(yǔ)言能力和訓(xùn)練方法,并提出了發(fā)掘大模型多語(yǔ)言潛力的方法。
同時(shí),他們還引入“大模型的多語(yǔ)言性”這一概念,針對(duì)具有優(yōu)質(zhì)多語(yǔ)言能力的現(xiàn)有大模型進(jìn)行了系統(tǒng)性調(diào)查。
課題組表示:大模型的多語(yǔ)言性,有別于傳統(tǒng)的多語(yǔ)言大模型的概念。也就是說(shuō),現(xiàn)有的大模型不再過(guò)分強(qiáng)調(diào)自身是否是一個(gè)多語(yǔ)言大模型。
因此,該團(tuán)隊(duì)為這些模型提供了新的分類(lèi)結(jié)構(gòu)、比較分析和多視角探索,以評(píng)估其適用性和局限性,以便為大模型的有效利用提供建議。
對(duì)于大模型來(lái)說(shuō),它們基于數(shù)據(jù)驅(qū)動(dòng)的范式。因此,研究人員針對(duì)與多語(yǔ)言有關(guān)的可用數(shù)據(jù)集和可用評(píng)測(cè)基準(zhǔn),也進(jìn)行了總結(jié)和討論。
通過(guò)此,他們繪制出一張概括圖,并將這張圖起名為“1+2+3+4”:即一個(gè)發(fā)展樹(shù)(One Tree)、兩種范式(Two Paradigms)、三種架構(gòu)(Three Architectures)、四個(gè)未來(lái)探索點(diǎn)(Four Frontiers)。
通過(guò)此,他們針對(duì)近些年大模型的多語(yǔ)言能力,進(jìn)行了一次綜述性歸納,旨在探索多語(yǔ)言自然語(yǔ)言處理和多語(yǔ)言大模型的下一步發(fā)展方向。
(來(lái)源:arXiv)
正如研究人員在論文中所提到的:目前,多語(yǔ)言人工智能還面臨著諸多挑戰(zhàn)。而在大模型時(shí)代,這些挑戰(zhàn)也仍舊存在。
這些挑戰(zhàn)制約著大模型在推理能力、安全性和領(lǐng)域級(jí)解決方案等多方面的應(yīng)用。
因此,該團(tuán)隊(duì)希望本次工作能夠起到如下作用:即推動(dòng)大模型在新一代多語(yǔ)言對(duì)話(huà)助手和多語(yǔ)言信息檢索系統(tǒng)等方面的應(yīng)用。
同時(shí),研究人員指出在發(fā)展多語(yǔ)言大模型的同時(shí),還需要思考下一代多語(yǔ)言人工智能的范式。
目前,大模型仍需依靠海量數(shù)據(jù)的支撐和驅(qū)動(dòng),這在多語(yǔ)言場(chǎng)景下會(huì)讓其應(yīng)用面臨一定的掣肘。
一種語(yǔ)言的使用群體規(guī)模,決定了該類(lèi)語(yǔ)音數(shù)據(jù)的規(guī)模。而一些資源匱乏的語(yǔ)言,也許永遠(yuǎn)不具備形成海量資源的可能。
而人類(lèi)從頭學(xué)習(xí)新語(yǔ)言、或借助一門(mén)基礎(chǔ)語(yǔ)言再學(xué)習(xí)一門(mén)新語(yǔ)言,根本無(wú)需很多數(shù)據(jù)。即人類(lèi)通過(guò)學(xué)習(xí)詞匯和語(yǔ)法,就能很快進(jìn)行造句,從而達(dá)到交流的目的。
但是,目前的人工智能技術(shù)顯然并不具備這種能力,因此該團(tuán)隊(duì)認(rèn)為多語(yǔ)言人工智能的進(jìn)一步發(fā)展,將能夠促進(jìn)類(lèi)人智能研究的發(fā)展,從而為探索人腦理解和生成語(yǔ)言的方式帶來(lái)助力。
此外,由于當(dāng)前大模型的數(shù)量非常多,僅國(guó)內(nèi)就有兩百多個(gè)大模型,因此在一篇論文中很難做到全部覆蓋。
為此,研究人員發(fā)布了一個(gè) GitHub 倉(cāng)庫(kù)和對(duì)應(yīng)的 leaderboard,以用于陳列和在多個(gè)維度上比較現(xiàn)有大模型的多語(yǔ)言能力。
未來(lái),除了繼續(xù)維護(hù)上述倉(cāng)庫(kù)之外,他們也會(huì)延展多語(yǔ)言能力的評(píng)測(cè)方法,促進(jìn)多語(yǔ)言社區(qū)的發(fā)展。
黃鍇宇補(bǔ)充稱(chēng):“語(yǔ)言,既是智能的一種表現(xiàn)形式,也是人類(lèi)智慧的結(jié)晶,并會(huì)影響人類(lèi)理解世界的方式。”
語(yǔ)言的界限,也意味著人類(lèi)世界的界限。由于語(yǔ)言的獨(dú)特性和多樣性,打造多語(yǔ)言社區(qū)需要全世界人類(lèi)的共同努力。
目前,英文社區(qū)仍然處于領(lǐng)先發(fā)展的狀態(tài),其他語(yǔ)言社區(qū)在這種發(fā)展態(tài)勢(shì)下可能會(huì)被越拉越遠(yuǎn),甚至逐漸消亡。
但是,多語(yǔ)言社區(qū)的持續(xù)發(fā)展,對(duì)于維護(hù)語(yǔ)言穩(wěn)定和語(yǔ)種的多樣性、以及保護(hù)資源匱乏語(yǔ)種不“被消亡”至關(guān)重要。
因此,黃鍇宇希望多語(yǔ)言人工智能技術(shù),可以成為打破語(yǔ)言界限的一種福祉。
參考資料:
1.https://arxiv.org/pdf/2405.10936
運(yùn)營(yíng)/排版:何晨龍