新智元報(bào)道
編輯:alan【新智元導(dǎo)讀】AI的飛躍可能會(huì)開(kāi)辟我們理解古代世界的新方法。想象一下,如果ChatGPT可以在「上古卷軸」的文本洪流上接受訓(xùn)練,我們將有機(jī)會(huì)直接與歷史對(duì)話。2023年10月,一封電子郵件發(fā)到了Federica Nicolardi的手機(jī)上,其中有一張圖片將永遠(yuǎn)改變她的研究。
這是一張紙莎草卷軸的碎片,此卷軸在公元79年維蘇威(Vesuvius)火山噴發(fā)時(shí)被燒毀也就是導(dǎo)致龐貝古城被埋于地下的那次災(zāi)難。
18世紀(jì),人們?cè)谝獯罄嬝惓歉浇麳erculeaneum的一座豪華羅馬別墅遺跡中發(fā)現(xiàn)了數(shù)百件卷軸,這本燒焦的卷軸就是其中之一。
幾百年來(lái),研究者們?cè)噲D剝開(kāi)卷軸上脆弱的碳化層,探尋內(nèi)部記錄的秘密,卻都沒(méi)有成功,許多卷軸因此變成了碎片。
學(xué)者們只好接受這些「上古卷軸」永遠(yuǎn)無(wú)法打開(kāi)的事實(shí)。
意大利那不勒斯大學(xué)(University of Naples)的紙莎草紙學(xué)家Nicolardi曾嘗試使用AI來(lái)閱讀這些難以辨認(rèn)的內(nèi)容。
現(xiàn)在最新結(jié)果已經(jīng)發(fā)過(guò)來(lái)了,AI將文字還原為了整齊清晰的希臘字母,這是一段過(guò)去2000年來(lái)完全無(wú)法訪問(wèn)的文本。
從希臘語(yǔ)、拉丁語(yǔ)、到中國(guó)的甲骨文(Oracle Bone Script),AI正在準(zhǔn)備重塑我們看待古代世界的方式。
重建古代文本
幾十年來(lái),計(jì)算機(jī)一直被用于對(duì)數(shù)字化文本進(jìn)行分類和分析,AI的加入使研究者有望處理之前無(wú)法理解的龐大檔案。于是,大量新文本得以涌現(xiàn),比過(guò)去幾個(gè)世紀(jì)得到的數(shù)據(jù)還要多。
在2010年代,將深度學(xué)習(xí)應(yīng)用于古代文本的早期嘗試是基于文本的數(shù)碼照片(拍攝紙莎草紙或者棕櫚葉的原件)。
這個(gè)時(shí)期最常用的網(wǎng)絡(luò)是CNN,對(duì)圖像進(jìn)行光學(xué)字符識(shí)別(OCR)。
研究甲骨文的團(tuán)隊(duì)使用模型來(lái)還原殘缺的字母圖像、拼湊碎片、以及分析字符如何隨著時(shí)間的推移而演變。
與此同時(shí),RNN網(wǎng)絡(luò)也發(fā)揮了自己處理時(shí)間序列數(shù)據(jù)的優(yōu)勢(shì),被用于搜索、翻譯和填補(bǔ)已翻譯文本的空白。比如,用RNN來(lái)猜測(cè)古巴比倫文字中數(shù)百個(gè)公式化的行政和法律文本中缺失的字符。
除了加速繁瑣的任務(wù),神經(jīng)網(wǎng)絡(luò)還幫助建立了人類專家無(wú)法發(fā)現(xiàn)的關(guān)系。
2017年,英國(guó)牛津大學(xué)開(kāi)展了第一個(gè)展示AI潛力的大型項(xiàng)目:破譯來(lái)自西西里島的希臘銘文。
這些古文字讀起來(lái)非常復(fù)雜,保存得也很糟糕,有一部分缺失還混合了方言,研究者不確定銘文的具體歸屬地以及日期。
過(guò)去的研究人員一般利用自己對(duì)類似現(xiàn)有文本的了解來(lái)解釋新的資料,他們通常是特定時(shí)間和地點(diǎn)作品的專家。
但一個(gè)人不可能掌握與新文本相關(guān)的所有信息,于是AI登場(chǎng)了。
研究人員在公元前7世紀(jì)至公元5世紀(jì)之間寫成的數(shù)萬(wàn)個(gè)希臘銘文上訓(xùn)練了一個(gè)RNN模型:Pythia。然后要求模型文本在它以前從未見(jiàn)過(guò)的文本上,預(yù)測(cè)缺失的單詞或字符。
2022年,他們又使用流行的Transformer訓(xùn)練了一個(gè)名為Ithaca的模型,在之前的基礎(chǔ)上加入了預(yù)測(cè)未知文本的日期和起源地點(diǎn)的能力。
Transformer通過(guò)并行分析輸入的不同特征(字符或單詞)來(lái)捕獲比RNN更復(fù)雜的語(yǔ)言模式,并根據(jù)上下文對(duì)其進(jìn)行加權(quán)。
最終,Ithaca以62%的準(zhǔn)確率恢復(fù)了古代文本中人工產(chǎn)生的空白,相比之下人類專家的準(zhǔn)確率為25%。而Ithaca和專家合作時(shí),預(yù)測(cè)準(zhǔn)確率達(dá)到了72%。
此外,Ithaca還以71%的準(zhǔn)確率確定了銘文的地理來(lái)源,且日期預(yù)測(cè)也與公認(rèn)的時(shí)間接近。
創(chuàng)建者將Ithaca免費(fèi)開(kāi)源后,每周都會(huì)收到幾百次的訪問(wèn)。迄今為止,Ithaca做出貢獻(xiàn)的例子包括重新確定雅典政治法令的日期,以及對(duì)公元前4世紀(jì)泥板的調(diào)查等等。
海量檔案
關(guān)于古代文獻(xiàn),另一個(gè)截然不同的挑戰(zhàn)則是數(shù)據(jù)量。比如研究人員在處理的世界上最大的歷史檔案之一:包含數(shù)十萬(wàn)篇文章,涵蓋27位韓國(guó)國(guó)王的統(tǒng)治時(shí)間(14世紀(jì)至20世紀(jì)初)。
這些記錄是完整的,來(lái)源也是已知的,但幾乎沒(méi)有人能讀懂,因?yàn)樗鼈兪怯霉艥h字書寫的,不同于現(xiàn)代漢字或韓文。
一個(gè)由政府翻譯組成的小團(tuán)隊(duì),正在努力手動(dòng)將這些文本翻譯成現(xiàn)代韓語(yǔ),但這項(xiàng)任務(wù)可能需要幾十年才能完成。
來(lái)自紐約大學(xué)(New York University)的首席機(jī)器翻譯研究員 Kyunghyun Cho與同事合作,訓(xùn)練了一個(gè)基于Transformer的網(wǎng)絡(luò)來(lái)自動(dòng)翻譯這些記錄。
由于目前還沒(méi)有足夠的類似數(shù)據(jù)來(lái)訓(xùn)練這樣的模型,因此團(tuán)隊(duì)采取了多語(yǔ)言方法。專家認(rèn)為AI的翻譯(對(duì)國(guó)事訪問(wèn)、懲罰叛徒和音樂(lè)會(huì)等事件的描述)比古代的翻譯更準(zhǔn)確、更易讀,在某些情況下甚至比現(xiàn)代翻譯更好。
另一方面,研究人員正在使用神經(jīng)網(wǎng)絡(luò)來(lái)處理只有少量文本幸存下來(lái)的古代語(yǔ)言。
訓(xùn)練Transformer一般需要大量的數(shù)據(jù),不適用于這種情況,研究者于是回歸以前的模型。
例如,希臘Patras大學(xué)的Katerina Papavassileiou和同事使用RNN從克里特島克諾索斯(Knossos, Crete)的1,100塊邁錫尼泥板(Mycenaean tablets)中恢復(fù)了缺失的文本,包含公元前兩千年書寫的羊群記錄(Linear B)。
在人工測(cè)試中,模型的前十個(gè)預(yù)測(cè)準(zhǔn)確率達(dá)到了72%,而在實(shí)際應(yīng)用中,其性能通常能跟人類專家打平。
為了進(jìn)一步改進(jìn)結(jié)果,Papavassileiou希望添加視覺(jué)數(shù)據(jù)(如不完整字母的痕跡),而不僅僅是依賴音譯文本。她還在研究「遷移學(xué)習(xí)」,將模型從一個(gè)系列的泥板中學(xué)到的知識(shí)應(yīng)用于其他系列的泥板。
看似不可能的任務(wù)
讓我們回到最開(kāi)始的例子,閱讀赫庫(kù)蘭尼姆(Herculaneum)卷軸涉及克服兩個(gè)大問(wèn)題。首先,脆弱的卷軸無(wú)法展開(kāi)。為了看到它們的內(nèi)部,計(jì)算機(jī)科學(xué)家 Brent Seales花了數(shù)年時(shí)間開(kāi)發(fā)「虛擬展開(kāi)」技術(shù),包括對(duì)卷軸的內(nèi)部結(jié)構(gòu)進(jìn)行高分辨率計(jì)算機(jī)斷層掃描(CT),并手工繪制橫截面每一幀中可見(jiàn)的表面,然后使用算法將表面展開(kāi)成平面圖像。
2015年,研究人員使用這種技術(shù)從以色列恩戈地(EnGedi)的一個(gè)燒焦、無(wú)法打開(kāi)的卷軸(公元3世紀(jì)左右)中閱讀完整的文本,結(jié)果證明它來(lái)自圣經(jīng)的章節(jié)。
相比于EnGedi的卷軸,Herculaneum的卷軸每卷都有幾百圈,而且像絲綢一樣薄。為了捕獲極高分辨率的CT數(shù)據(jù),團(tuán)隊(duì)將幾個(gè)卷軸運(yùn)送到牛津附近的Diamond Light Source使用粒子加速器。
但是,EnGedi卷軸和其他后期作品的墨水往往含有鐵,在CT掃描中會(huì)發(fā)出明亮的光芒,而Herculaneum的抄寫員使用的是碳基墨水,在掃描中是看不見(jiàn)的,因?yàn)樗拿芏扰c使用的莎草紙相同。
Seales團(tuán)隊(duì)意識(shí)到,雖然他們無(wú)法直接看到墨水,但有可能檢測(cè)到它的形狀。如果裸露的紙莎草纖維與涂有墨水的纖維相比,表面紋理存在細(xì)微差異,也許他們可以訓(xùn)練神經(jīng)網(wǎng)絡(luò)來(lái)捕捉這種差異。
不過(guò)對(duì)于Seales的小團(tuán)隊(duì)來(lái)說(shuō),這個(gè)工作量太大了,因此他們?cè)?023年3月與硅谷企業(yè)家Nat Friedman合作發(fā)起了維蘇威火山挑戰(zhàn)賽(Vesuvius Challenge),并提供了豐厚的現(xiàn)金獎(jiǎng)勵(lì)。
Seales團(tuán)隊(duì)發(fā)布了卷軸表面的扁平圖像,并要求參賽者訓(xùn)練神經(jīng)網(wǎng)絡(luò)來(lái)找到墨水。超過(guò)1,000個(gè)團(tuán)隊(duì)參加了比賽,每天都有數(shù)百人在比賽的Discord頻道上討論進(jìn)度。
最終在2024年2月,計(jì)算機(jī)專業(yè)的學(xué)生Youssef Nader、Luke Farritor和Julian Schilliger 獲得了700,000美元的大獎(jiǎng)。
獲勝團(tuán)隊(duì)使用了TimeSformer,是Transformer的一種變體,通常用于在視頻數(shù)據(jù)中分別處理空間和時(shí)間維度。
對(duì)于散落在那不勒斯、巴黎、倫敦和牛津的這些「上古卷軸」,這個(gè)時(shí)代的AI將有望令其重見(jiàn)光明。
參考資料:https://www.nature.com/articles/d41586-024-04161-z