編者的話:數(shù)據(jù)標注,被稱為人工智能的“基石”,這一行業(yè)90%以上的從業(yè)人員是由數(shù)據(jù)標注員構(gòu)成。隨著大模型的興起,不少年輕人加入這一行業(yè)。數(shù)據(jù)標注是指對圖片、語音、文本、視頻等數(shù)據(jù)進行處理,旨在將非結(jié)構(gòu)化數(shù)據(jù)進行標注處理,以供機器學習,為算法提供優(yōu)質(zhì)養(yǎng)料,從而提升機器學習能力。近日,《環(huán)球時報》記者來到位于寧夏回族自治區(qū)吳忠市的寧夏人工智能產(chǎn)業(yè)園,通過訪談多位數(shù)據(jù)標注行業(yè)的從業(yè)者,探討了這一行業(yè)的工作內(nèi)容、挑戰(zhàn)及未來前景。
寧夏眾夢智能科技有限公司,數(shù)據(jù)標注員正在工作。陳濤攝
對圖片、視頻等進行標注,應用于自動駕駛等領(lǐng)域
走進位于寧夏吳忠人工智能產(chǎn)業(yè)園的眾夢智能科技有限公司,200多名年輕人正坐在電腦屏幕前,對著眼前所觀察的每一個細節(jié)不斷進行著拉框、標點等操作。這些圖片、視頻、文本等數(shù)據(jù),構(gòu)成了他們每一天的標注工作。
寧夏人工智能產(chǎn)業(yè)園于2024年1月30日正式揭牌運營,可以說是吳忠市乃至整個西北地區(qū)積極擁抱人工智能和數(shù)字經(jīng)濟發(fā)展的縮影。
“從OpenAI推出人工智能大模型產(chǎn)品ChatGPT以來,似乎所有的事情都與AI有關(guān)。數(shù)據(jù)標注行業(yè)起源于大數(shù)據(jù)采集,隨著人工智能技術(shù)的發(fā)展,逐漸演變?yōu)榻裉斓臄?shù)據(jù)標注。整個發(fā)展過程大概有10多年的時間。”眾夢智能科技的負責人劉仁明向《環(huán)球時報》記者介紹道,“我是國內(nèi)第一批加入這個行業(yè)的人。最初的數(shù)據(jù)標注工作主要集中在語音、方言和小語種的采集,后來擴展到文本類數(shù)據(jù),再到如今的自動駕駛和垂直文本領(lǐng)域。數(shù)據(jù)標注師的工作是將原始數(shù)據(jù)通過標注轉(zhuǎn)化為可供機器學習的訓練數(shù)據(jù),這一過程對于AI的訓練和優(yōu)化至關(guān)重要!
“我以前是幼師,現(xiàn)在是數(shù)據(jù)標注公司的預備項目經(jīng)理。每月有4000元的穩(wěn)定收入。”入職近半年的26歲數(shù)據(jù)標注員劉悅告訴《環(huán)球時報》記者,自己偶然接觸到了數(shù)據(jù)標注行業(yè),并對此產(chǎn)生了濃厚的興趣,“在吳忠這樣的小城市,父母覺得從事計算機相關(guān)的職業(yè)還是挺高端和比較體面的”。
“之前我不了解數(shù)據(jù)標注這個行業(yè),文本識別、拉框、貼合等這些詞匯對我而言很陌生。我主要對接的是自動駕駛和應用識別項目,在這個項目中我需要通過點云數(shù)據(jù)識別并標注車輛、行人、交通標志等。這些標注后的數(shù)據(jù)將被用于訓練AI模型,提高其識別和處理能力。這些都是我過去從未接觸過的領(lǐng)域,后來經(jīng)過理論培訓和實操練習,才完成了崗位的競聘考核!眲傉f,這個崗位對個人敏感度、專注度和持久性要求很高。
和一些“00后”一樣,34歲的范敏也認為數(shù)據(jù)標注是一個相對新興的行業(yè)。揣著對人工智能的好奇心,這位擁有會計專業(yè)背景的兩歲孩子的母親,決定選擇數(shù)據(jù)標注作為自己重返職場的第一份工作!皩τ诔鯇W者來說,數(shù)據(jù)標注工作相對簡單且容易上手。但每個項目都有不同的規(guī)則,需要快速理解和掌握數(shù)據(jù)提供方的需求。”她所承擔的主要工作,是對自動泊車技術(shù)提供高質(zhì)量的標注數(shù)據(jù),進而讓車載大模型更具學習能力。
數(shù)據(jù)標注師的日常工作包括但不限于圖像識別、語音轉(zhuǎn)寫、文本分類等。他們需要根據(jù)項目需求,對圖片、視頻或音頻內(nèi)容進行細致的標注,數(shù)據(jù)標注廣泛應用于自動駕駛、圖像識別等多個領(lǐng)域。以自動駕駛為例,數(shù)據(jù)標注人員需要對車輛行駛過程中的圖像和視頻數(shù)據(jù)進行標注,包括道路邊界、交通標志、障礙物等信息的識別與定位。這些標注數(shù)據(jù)為自動駕駛系統(tǒng)的感知和決策提供了重要依據(jù),保障了自動駕駛車輛的安全性和可靠性。
“吳忠基地的標注員大多是本地人,原來主要從事外賣、酒店、餐飲等服務行業(yè),有的人甚至在家待業(yè)!睂幭娜斯ぶ悄墚a(chǎn)業(yè)園負責人梁坤表示,人工智能產(chǎn)業(yè)的發(fā)展為吳忠這座西北城市提供了大量崗位。以劉悅所在的寧夏眾夢智能科技有限公司為例,截至目前,該產(chǎn)業(yè)園已解決本地600人就業(yè),其中1624歲占62%,2530歲占29%,大專及以上學歷占就業(yè)人數(shù)的90%以上。
談及薪資水平和行業(yè)前景,劉仁明表示,從自動駕駛到醫(yī)療、教育等多個領(lǐng)域,數(shù)據(jù)標注的應用范圍正日益擴大。“隨著經(jīng)驗的積累,標注員的薪資水平會不斷提升,入行前6個月的月收入一兩千元,6個月之后的工資可能在三四千元,一年之后的平均工資應該在4000元以上。如果是項目主管,工資基本上都是破萬元。此外,一些從業(yè)者通過校企合作項目,將理論知識與實踐相結(jié)合,為行業(yè)培養(yǎng)了大量專業(yè)人才。”
“目前全國數(shù)據(jù)標注員缺口在3000萬人次左右”
盡管數(shù)據(jù)標注行業(yè)前景廣闊,但也面臨諸多挑戰(zhàn)。劉仁明感嘆道,標注行業(yè)具有“人才短缺”“用工低齡化”“流動性大”等特點!拔乙恢迸c員工開玩笑說,鐵打的營盤流水的兵。在這個行業(yè),很多人沒有耐力。如果你告訴他需要6個月之后,才給他高工資,他可能兩三個月之后就無法支撐。相當于6個月是個試用期和里程碑。只有真正跨過這6個月的坎之后,心性已經(jīng)定下來,真正接受行業(yè)的發(fā)展和基調(diào)的人才是我們重點培養(yǎng)的人!
數(shù)據(jù)標注員向記者展示電腦上的標注內(nèi)容。 陳濤攝
劉仁明坦言:“現(xiàn)在有不少員工會去兼職。在數(shù)據(jù)交付上,我們面臨交付壓力。員工現(xiàn)在做的這批數(shù)據(jù)是按照周期交付,而后面在做的文本項目是按天交付,這時兼職人力無法滿足條件!
不少受訪者表示,當前,西北地區(qū)的最大問題是無法留住人才。面對行業(yè)“招人難”“留不住人”的瓶頸,梁坤認為,數(shù)據(jù)標注人員面臨的就業(yè)補貼政策是當前最需要解決的問題。除了西北地區(qū)外,在中國,上百萬名人工智能數(shù)據(jù)標注員分布在貴州、江西、山東、河南等省份的二三線城市,并逐步向人力成本更低的縣城滲透。
“1000萬+”,這是目前從事數(shù)據(jù)標注行業(yè)人群的總數(shù)量,且這個數(shù)字還在不斷地快速增長。當前,通用人工智能行業(yè)迫切需要精細化、場景化的標注數(shù)據(jù)。“整個行業(yè)的勞動密集性和人員需求較大,目前全國缺口在3000萬人次左右,國內(nèi)真正符合這類人才需求的很少!眲⑷拭鞅硎尽
那么,一個業(yè)務能力強的數(shù)據(jù)標注員需要具備哪些條件?“第一,出錯率低,效率高。第二,理解能力和領(lǐng)悟能力都需要超人!眲⑷拭飨颉董h(huán)球時報》記者說道,“一些在職業(yè)院校中接受過3D建模培訓和漢語言文學專業(yè)的學生擁有成為一名‘合格’數(shù)據(jù)標注師的潛力,而真正可以寫代碼的人早已被(其他行業(yè))挑走了。”
數(shù)據(jù)標注行業(yè)新趨勢的到來,對數(shù)據(jù)標注員這一崗位產(chǎn)生顛覆性影響。劉仁明表示,幾年前這一行業(yè)對學歷沒有要求,隨著人工智能的不斷發(fā)展,對人員的要求逐漸提高。很多人反映標注沒有門檻,但從目前的就業(yè)形勢來看,相當有門檻!熬唧w來說,我們做的項目需要針對某一專業(yè),例如我們目前做的3D項目,學習過建模或者建筑類行業(yè)的人可能更具優(yōu)勢。而大模型文本類的項目可能更適合學習過漢語言、文科底子較好的學生!
“具備相關(guān)行業(yè)知識的標注員會更加受到企業(yè)的青睞,而能力較為普通的數(shù)據(jù)標注員則將面臨被淘汰的危機!眲⑷拭鞅硎荆@個行業(yè)對年齡也有要求。以眾夢智能科技有限公司為例,數(shù)據(jù)標注員的平均年齡在二十五六歲左右。“因為隨著年齡增長,手速會下降!
“行業(yè)將經(jīng)歷人才結(jié)構(gòu)升級”
當下,社會各行各業(yè)對高質(zhì)量、高精度的數(shù)據(jù)標注需求持續(xù)增長。在今年4月召開的全國數(shù)據(jù)工作會議上,國家數(shù)據(jù)局表示,我國將開展數(shù)據(jù)標注基地試點。5月,國家數(shù)據(jù)局在第七屆數(shù)字中國建設(shè)峰會上公布了7個承擔全國數(shù)據(jù)標注基地建設(shè)任務城市名單,分別為四川成都、遼寧沈陽、安徽合肥、湖南長沙、海南海口、河北保定、山西大同。
工信部信息通信經(jīng)濟專家委員會委員盤和林接受《環(huán)球時報》記者采訪時表示,從產(chǎn)業(yè)端看,數(shù)據(jù)標注是數(shù)據(jù)要素資源開發(fā)的重要工序,企業(yè)一方面要通過標注讓數(shù)據(jù)變現(xiàn),另一方面要通過標注來推動AI產(chǎn)業(yè)發(fā)展。政策端來看,數(shù)據(jù)標注是發(fā)展數(shù)據(jù)要素產(chǎn)業(yè)的關(guān)鍵,能為當?shù)貛硇陆?jīng)濟增長點,提供更多就業(yè)崗位,而下游的AI和上游的算力也會因為這一產(chǎn)業(yè)發(fā)展而得到帶動。
2018年美國《紐約時報》的一篇報道援引一位專家的話表示,“在中國一些小城市涌現(xiàn)出一批數(shù)據(jù)標注初創(chuàng)企業(yè),它們猶如精煉廠,正在把原材料變成驅(qū)動中國AI發(fā)展的燃料。”
盤和林表示,美國數(shù)據(jù)標注經(jīng)常采用外包方式,向海外采購數(shù)據(jù)標注服務。中國的數(shù)據(jù)標注已經(jīng)形成一定的產(chǎn)業(yè)規(guī)模,受益于中國工程師紅利,中國數(shù)據(jù)標注產(chǎn)業(yè)發(fā)展較快。
“從某種程度上說,數(shù)據(jù)標注是一個被低估的行業(yè)!眲⑷拭髡J為,對于數(shù)據(jù)標注行業(yè),市場上確實存在一些誤區(qū)!斑^去,一些人常常認為,與AI行業(yè)‘高科技’‘高附加值’的標簽相比,數(shù)據(jù)標注員從事的是勞動密集型工作,唯一與科技沾邊的可能就是每天需要抱著電腦進行操作。”
而隨著人工智能的發(fā)展,數(shù)據(jù)標注行業(yè)正經(jīng)歷著快速發(fā)展。劉仁明表示,可以預見的是,未來數(shù)據(jù)標注行業(yè)將經(jīng)歷一次人才結(jié)構(gòu)升級,提升整體的專業(yè)水平。在此過程中,行業(yè)將吸引眾多具有較高素質(zhì)的人才加入,同時也會逐步淘汰那些技能平庸、無法滿足高標準要求的員工。“對于愿意投身于此的從業(yè)者來說,這不僅是一個技術(shù)性工作,更是一個充滿挑戰(zhàn)和機遇的職業(yè)選擇!