IT之家 12 月 27 日消息,據(jù) Munich Eye 當(dāng)?shù)貢r(shí)間 22 日報(bào)道,2025 年,人工智能(AI)和機(jī)器學(xué)習(xí)領(lǐng)域的突破有望推動(dòng)我們理解動(dòng)物交流的進(jìn)程,解開動(dòng)物發(fā)聲背后的長期謎題。近期,設(shè)立的 Coller-Dolittle 獎(jiǎng)項(xiàng)為解碼動(dòng)物聲音的研究提供了可觀獎(jiǎng)金,體現(xiàn)了科學(xué)界對此的樂觀情緒。
目前已有多個(gè)研究項(xiàng)目正致力于開發(fā)能夠解讀動(dòng)物聲音的算法。其中,Ceti 計(jì)劃一直在破解抹香鯨特有的點(diǎn)擊聲和座頭鯨的歌聲,F(xiàn)代的機(jī)器學(xué)習(xí)方法依賴大量的數(shù)據(jù)集,但高質(zhì)量的動(dòng)物聲音數(shù)據(jù)一直難以獲得,限制了研究進(jìn)展。
譬如,包括 ChatGPT 在內(nèi)的大型語言模型就使用了來自互聯(lián)網(wǎng)的大量文本數(shù)據(jù)進(jìn)行訓(xùn)練,而與之形成鮮明對比的是,動(dòng)物交流研究可用的數(shù)據(jù)集仍然有限。雖然 LLMs 的訓(xùn)練數(shù)據(jù)量超過 500GB 的文本信息,但 Ceti 計(jì)劃在研究抹香鯨的聲音時(shí),僅獲得了不到 8000 個(gè)錄音樣本。這一差距也凸顯了研究人員在理解動(dòng)物交流方面的難題。
此外,人類語言的解釋依賴于共同的語法和語義規(guī)則,而解讀動(dòng)物的叫聲卻充滿了不確定性 區(qū)分狼的不同嚎叫所代表的意義,仍然是一個(gè)巨大的挑戰(zhàn)。
一旦這些龐大的數(shù)據(jù)集完成收集,深度神經(jīng)網(wǎng)絡(luò)等先進(jìn)的分析技術(shù)將能夠揭示動(dòng)物聲音背后的規(guī)律和結(jié)構(gòu),或許能發(fā)現(xiàn)一些與人類語言類似的模式。
盡管研究取得了很大進(jìn)展,關(guān)于解碼動(dòng)物聲音的最終目標(biāo)仍然是一個(gè)亟待解答的問題。據(jù)IT之家了解,像 Interspecies.io 這樣的組織,明確表示希望將跨物種的交流轉(zhuǎn)化為人類能夠理解的信號,甚至提出要將動(dòng)物的叫聲翻譯成人類語言。不過,科學(xué)界普遍認(rèn)為,非人類動(dòng)物并不具備類似人類語言那樣的結(jié)構(gòu)化語言。