展會信息港展會大全

盲人的眼、老人的耳,AI能否幫助殘障者重連世界
來源:互聯(lián)網(wǎng)   發(fā)布日期:2025-01-07 08:36:02   瀏覽:328次  

導讀:譚暢使用AI工具生成看不見電極、導線,亦無操縱桿,坐在輪椅上的人通過移動頭部、眼球以及眨眼,便能自如地操控輪椅向四周移動。這樣的輪椅已經(jīng)在實驗室里誕生。2024年12月13日,位于廣州市海珠區(qū)的琶洲實驗室內(nèi),一位工作人員戴上特制頭環(huán),坐在一張電動輪椅上向南方周末記者演示。15年前,華南理工大學自動化科學與工程學院教授李遠清到新加坡做訪問研究,接觸到腦機接口領(lǐng)域 ......

盲人的眼、老人的耳,AI能否幫助殘障者重連世界

譚暢使用AI工具生成

看不見電極、導線,亦無操縱桿,坐在輪椅上的人通過移動頭部、眼球以及眨眼,便能自如地操控輪椅向四周移動。

這樣的輪椅已經(jīng)在實驗室里誕生。2024年12月13日,位于廣州市海珠區(qū)的琶洲實驗室內(nèi),一位工作人員戴上特制頭環(huán),坐在一張電動輪椅上向南方周末記者演示。

15年前,華南理工大學自動化科學與工程學院教授李遠清到新加坡做訪問研究,接觸到腦機接口領(lǐng)域。多年來,他的研究取得相當進展,成果之一便是以腦機接口技術(shù)為基礎(chǔ)的電動輪椅。

然而,這款通過頭動及眼動方式操控的輪椅,在使用與推廣中仍有一大阻礙:受限于技術(shù),每一臺輪椅都是定制化的,用戶要操控它,需單獨采集數(shù)據(jù)并建模。

直到AI全面爆發(fā)。2022年前后,這個問題有了解決之道使用AI建立公共模型。至此,任何人經(jīng)過短時間的設(shè)備調(diào)試后,都可以使用同一臺輪椅,殘障者出行將變得更便利。

歷經(jīng)無數(shù)次升級迭代,如今,搭載AI技術(shù)的設(shè)備正逐漸成為視障者的眼、聽損者的耳、肢體殘障者的腿和手……雖然技術(shù)與設(shè)備還處于初級階段,但未來,AI或許能幫助更多殘障人士和弱勢群體重新連接世界。

需要“明眼人”幫助

2024年12月18日,在自家按摩店里,45歲的盲人按摩師王安平來回穿梭,取號碼牌、招呼來客。如果將他在按摩行業(yè)中的沉浮繪制成一條曲線,大致能看出曲折上升的態(tài)勢:20歲那年,他學了盲人按摩手藝,此后幾十年在廣西老家、廣東數(shù)地奔波,以按摩為生,一雙手歷經(jīng)揉搓,拇指關(guān)節(jié)處都變了形,如同鼓了大包。2013年,他在深圳開了家按摩店,當上小老板,結(jié)束了漂泊。

但對于眼前的世界而言,王安平經(jīng)歷的,則是一條下滑曲線。他出身農(nóng)家,先天視障,但年輕時,在白天,他還能看見10米遠的物體殘影,放牛也不在話下。隨著年歲漸長,王安平的視力逐步惡化,最終完全失明。

如今,店內(nèi)與家中的方寸天地,他靠記憶已摸得十分熟悉,但許多普通人抬手可為的小事,他處理起來仍然費勁。接受采訪那天下午,王安平坐在沙發(fā)上,想拿腳底下的快遞包裹,卻找不準位置,幾次都撈空了。

類似的麻煩還有許多。做菜時,他取不準鹽和油的量;收了快遞,他不知道寄送者的信息;在醫(yī)院拿了診斷,他也看不見上面的字跡。作為老板,他很難讀經(jīng)營賬目,無法分辨按摩師號碼牌上的數(shù)字,連按摩床上被子掉落都不知道。他需要“明眼人”的幫助,才能擁有完整的事業(yè)與生活。

和王安平一樣,盲人程家家也想擁有自己的事業(yè)。短視頻平臺興起后,這位以擅長模仿、脫口秀著稱的盲藝人入局做了盲人主播。

對盲人主播來說,最麻煩的是在直播間與觀眾互動。觀眾在彈幕中說了什么,他們難以知曉,也無法回復。久而久之,觀眾索然無味,紛紛離開,直播事業(yè)難以為繼。

從2019年下半年開始,程家家找到一名視力正常的網(wǎng)友協(xié)助直播。開播后,網(wǎng)友需與他保持通話,實時閱讀觀眾的評論及刷禮物的情況。

最初,這個辦法效果不錯。然而,3年過去,新的問題出現(xiàn)了。程家家稱,雖然他會與網(wǎng)友分享直播收入算作酬勞,但網(wǎng)友后來還是有些懈怠,時而跳過一些他認為不重要的信息。

程家家試圖換個人選,可一時也不好找替代者。他擔心,好不容易有些人氣的直播事業(yè)將要下滑。

當AI成為眼睛盲人最懂盲人的需求。

2022年開始,蔡勇斌陸續(xù)聽說,有盲人主播因無法看見直播彈幕,流失了不少觀眾。這位6歲時雙眼被石灰燒傷以致失明的碼農(nóng),突然起了興趣。他靠自學成為程序員,開過信息科技公司,開發(fā)過助盲軟件,也為許多App做過信息無障礙化工作。這一次,他決定利用AI,拉盲人主播們一把。

一年后,互聯(lián)網(wǎng)大廠員工李岸也看好AI浪潮,下海創(chuàng)業(yè)。思索具體進軍領(lǐng)域之際,AI助盲也進入了李岸的視線。他了解到,多年前,國外已有公司開發(fā)了AI視覺輔助眼鏡,能夠幫助盲人識別文本、人臉、商品、顏色與時間。不過,它運用的還是早期的小模型,“只能做一些簡單的識別,不能做理解”。如能與當下的多模態(tài)大模型結(jié)合,產(chǎn)品功能上還可更進一步。

一前一后,兩人分別走上開發(fā)的征途。

在蔡勇斌的敘述中,這項工作幾乎是順便的事情。文本轉(zhuǎn)語音的技術(shù)已經(jīng)成熟,此前已有云平臺提供基于AI算法的文本轉(zhuǎn)語音服務(wù)。他付費使用該服務(wù),并開發(fā)了一款軟件,將服務(wù)嵌入。使用者開始直播后,啟動該軟件,就能實時聽到觀眾的彈幕文本轉(zhuǎn)換成的語音。一兩個月后,彈幕助手軟件開發(fā)完成,并開放免費使用。

2023年10月,李岸也帶著一個迷你初創(chuàng)團隊開工了。他有芯片工程師的經(jīng)歷,又曾在互聯(lián)網(wǎng)大廠任職產(chǎn)品經(jīng)理6年,一直負責刷臉支付的產(chǎn)品線。李岸解釋,早前的刷臉支付也會用到判別式AI,雖與現(xiàn)在的生成式AI不同,但技術(shù)與產(chǎn)品架構(gòu)上均有延續(xù)性。

設(shè)備的工作原理不復雜:在眼鏡上安裝小型攝像頭以拍攝圖像或視頻,傳送給AI,AI識別出拍攝的內(nèi)容后,先將其轉(zhuǎn)化為文本,再讀給盲人聽。現(xiàn)實中,也有一些開源模型可供使用。

李岸團隊要完成的關(guān)鍵任務(wù),是以圖像、文本一類數(shù)據(jù)大量訓練AI,使其能在識別時舉一反三。用于訓練的數(shù)據(jù)必須來自盲人生活場景,與普通數(shù)據(jù)不同,團隊要在浩瀚的網(wǎng)絡(luò)中爬取零散信息,再做清洗。

盡量縮短AI的反應時間也很關(guān)鍵。為此,他們不得不“掄起斧頭”,將過于智能的AI中一些無助于識別圖像、文字、視頻的功能悉數(shù)砍掉。模型縮小了,反應時間才能縮短。

聲音與噪音

74歲的王水東不清楚自己是否達到聽力殘疾的標準,但他很熟悉感官失靈后,與生活漸漸脫節(jié)的感受。古稀之年,王水東耳背了。家人說話,他聽不清;看電視時,他要把聲音調(diào)得很大;在醫(yī)院窗口辦手續(xù),他得趴在窗口前聽工作人員講話,有時還要多聽幾遍。

他嘗試過自我拯救。2022年,有親戚送了王水東一副電池式助聽器,他斷斷續(xù)續(xù)使用了一年,效果一言難盡。水龍頭的水流聲、汽車的喇叭聲、戶外的風聲,經(jīng)助聽器放大后,在王水東的耳朵里就像爆炸一樣;聲音低的人和他說話,話語聲卻被助聽器當成環(huán)境噪音降噪處理,他還是聽不清。

時間久了,王水東出門還會戴上助聽器,但在家里就漸漸“棄療”了。“反正就是跟老伴溝通費點勁!庇錾蠜]字幕的電視節(jié)目,他“看都不看”。

事實上,在AI還不為大眾所知時,已經(jīng)有研究者試圖用它改善助聽設(shè)備。騰訊天籟實驗室是一支聚焦聲學領(lǐng)域研究二十多年的團隊,利用AI為騰訊會議軟件的音頻降噪是其研究項目之一。

降噪恰恰也是傳統(tǒng)人工耳蝸的技術(shù)難題。按照天籟實驗室專家研究員甄廣啟的解釋,聽障者植入傳統(tǒng)人工耳蝸后,聽力雖有所恢復,但在嘈雜環(huán)境中,時常要忍受噪音過大的折磨。看到技術(shù)跨界克服難題的可能后,2020年,天籟實驗室與耳蝸廠商達成合作,以AI助力廠商提升產(chǎn)品使用效果。

在那之前,已有超過300種從外界搜集而來的噪聲與其它海量數(shù)據(jù)被“灌輸”給AI大模型,用于訓練其識別何為有效語音,何為噪音。“訓練一個模型之后,我們?nèi)ピ囁慕翟胄Ч,有時它會把有效語音消掉,我們再去微調(diào)參數(shù),不停迭代!闭鐝V啟說,產(chǎn)品最終要能達到這樣的效果:輸入的是含噪音的語音,輸出的是干凈的語音。

但新問題仍層出不窮:為了適應人工耳蝸的芯片,過往用在會議中的大模型,要改為降噪效果更弱的小模型。它去除的噪音種類要多,但還得學會留下一些必要的噪音,如過馬路時的汽車聲。此外,它的延遲要低,以確保使用者能正常與人交流。

優(yōu)化算法,將要處理的聲音片段切得更小……幾個月后,他們完成了第一代產(chǎn)品的開發(fā),通過人工耳蝸加手機伴侶的方式,把AI算法植入手機App中,以提升使用者的聽覺體驗。

從2022年開始,天籟實驗室的重點逐步轉(zhuǎn)向開發(fā)助聽器的AI算法。工作人員介紹,人工耳蝸開發(fā)周期過長。同時,全球范圍內(nèi),使用助聽器的聽損者數(shù)量更多,AI算法能使更多人受益。

生意還是公益

2024年年初,兒子為王水東買入一款植入AI的助聽器。

在王水東的耳道中,完成助聽器調(diào)試后,聲音在一瞬間清晰了不少。此后,坐在電腦前看小說、玩游戲時,妻子做飯、孩子們聊天以及電視節(jié)目的聲音,他都能聽見。王水東主動將助聽器戴回了耳邊。

甄廣啟介紹,為了使聽損用戶聽感更能適應日常生活,研發(fā)助聽器的過程中,他們在AI算法優(yōu)化上下了不少功夫。例如,要使AI算法有針對性地保留說話人的聲音,去除周圍的環(huán)境噪聲和干擾人噪聲,抑制一些不想要的聲音,否則用戶在餐廳、街道這些多人場景,聽感上會很難受。針對助聽器,他們推出了適應不同場景及需要的五大算法。

也是在2024年年初,李岸認為,AI眼鏡的第一代樣品已經(jīng)可以試水。他在公司周邊尋找盲人按摩店,請按摩師們試用,王安平是其中之一。

李岸對王安平第一次試用的場景印象深刻。王安平使用眼鏡上的攝像頭,對面前的物體拍照后,AI識別出了那是桌子,還說出了桌子上水果的大致數(shù)量;AI還描述了他女兒的穿著。

程家家的直播間里,AI戰(zhàn)勝了人力。比起雇用“明眼人”,彈幕助手不會漏掉信息。這款產(chǎn)品還開發(fā)了不少切中盲人痛點的功能。例如,它可以識別榜一、榜二、榜三的“大哥”,提示主播向其致謝;在有高級燈牌的粉絲進入主播間時發(fā)出提醒,并為其制作單獨的入場音效,便于主播與其互動,留住大粉絲

“當你知道公屏上有這么多人在跟你互動的時候,當然會調(diào)起你的積極性!背碳壹艺f,粉絲們在他的直播間里感受到的溝通障礙更少了。

直播間,蔡勇斌卻漸漸生出開發(fā)者的煩惱:伴隨著彈幕助手的不斷迭代,其開發(fā)成本也在不斷增加,他不得不將最初的免費軟件變?yōu)楦顿M使用。目前,一年的使用費是四百多元,有用戶抱怨收費過高,可按照蔡勇斌的計算,收益不足成本的四分之一。

盲人主播少,付費用戶更少,F(xiàn)階段,蔡勇斌只能減少人力投入,“大家沒有主營業(yè)務(wù)干的時候,就干一干(彈幕助手)!

事實上,這是助殘行業(yè)常見的困境:生意與公益性質(zhì)交織。AI助殘也是如此,開發(fā)者、生產(chǎn)者是否能從技術(shù)創(chuàng)新中獲得商業(yè)回報是個未知數(shù),也影響著創(chuàng)新可持續(xù)性。在邁出最初幾步后,AI對殘障人群的幫助會走向何方,仍無人知曉。

李岸還在AI助盲眼鏡的研發(fā)升級中摸索前行。王安平稱,第一代眼鏡確有幫助,但還有不少需改進之處。其中一些,李岸后來陸續(xù)實現(xiàn)了,如將AI反應時間縮短至數(shù)秒,并用手機App替換了第一代的外接設(shè)備。

也有問題未解決。王安平感覺眼鏡的設(shè)計戴著不舒服,他因此不常用眼鏡上的攝像頭,而是用配套App對物體拍照做識別,要對準物體并不容易,有時識別文字、數(shù)字也會出現(xiàn)差錯。此外,王安平期待它能進一步完善導航等功能,甚至幫助他上街行走。

李岸觀察到,國內(nèi)也有AI避障眼鏡產(chǎn)品問世,但確實賣得不好。他判斷,核心原因還是技術(shù)不夠強。

不過,他對于AI助盲產(chǎn)品的市場前景依然樂觀,因為他認為,獲取信息對視障群體來說是剛需!懊と艘惨罟ぷ鞯模芏鄷r候他們職業(yè)道路受限,是因為沒有辦法,沒有工具去幫他們做這個事情。”

(文中王水東、王安平為化名)

南方周末記者 姜博文 南方周末實習生 宋宇玲

責編 譚暢

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港