AI開闢就業新賽道,數據標註員走紅
作者:张蔚蓝 马梦阳
【環球時報報道 記者 張蔚藍 馬夢陽】編者的話:數據標註,被稱為人工智能的“基石”,這一行業90%以上的從業人員是由數據標註員構成。隨着大模型的興起,不少年輕人加入這一行業。數據標註是指對圖片、語音、文本、視頻等數據進行處理,旨在將非結構化數據進行標註處理,以供機器學習,為算法提供優質養料,從而提升機器學習能力。近日,《環球時報》記者來到位於寧夏回族自治區吳忠市的寧夏人工智能產業園,通過訪談多位數據標註行業的從業者,探討了這一行業的工作內容、挑戰及未來前景。

對圖片、視頻等進行標註,應用於自動駕駛等領域
走進位於寧夏吳忠人工智能產業園的眾夢智能科技有限公司,200多名年輕人正坐在電腦屏幕前,對着眼前所觀察的每一個細節不斷進行着拉框、標點等操作。這些圖片、視頻、文本等數據,構成了他們每一天的標註工作。
寧夏人工智能產業園於2024年1月30日正式揭牌運營,可以説是吳忠市乃至整個西北地區積極擁抱人工智能和數字經濟發展的縮影。
“從OpenAI推出人工智能大模型產品ChatGPT以來,似乎所有的事情都與AI有關。數據標註行業起源於大數據採集,隨着人工智能技術的發展,逐漸演變為今天的數據標註。整個發展過程大概有10多年的時間。”眾夢智能科技的負責人劉仁明向《環球時報》記者介紹道,“我是國內第一批加入這個行業的人。最初的數據標註工作主要集中在語音、方言和小語種的採集,後來擴展到文本類數據,再到如今的自動駕駛和垂直文本領域。數據標註師的工作是將原始數據通過標註轉化為可供機器學習的訓練數據,這一過程對於AI的訓練和優化至關重要。”
“我以前是幼師,現在是數據標註公司的預備項目經理。每月有4000元的穩定收入。”入職近半年的26歲數據標註員劉悦告訴《環球時報》記者,自己偶然接觸到了數據標註行業,並對此產生了濃厚的興趣,“在吳忠這樣的小城市,父母覺得從事計算機相關的職業還是挺高端和比較體面的”。
“之前我不瞭解數據標註這個行業,文本識別、拉框、貼合等這些詞彙對我而言很陌生。我主要對接的是自動駕駛和應用識別項目,在這個項目中我需要通過點雲數據識別並標註車輛、行人、交通標誌等。這些標註後的數據將被用於訓練AI模型,提高其識別和處理能力。這些都是我過去從未接觸過的領域,後來經過理論培訓和實操練習,才完成了崗位的競聘考核。”劉悦説,這個崗位對個人敏感度、專注度和持久性要求很高。
和一些“00後”一樣,34歲的範敏也認為數據標註是一個相對新興的行業。揣着對人工智能的好奇心,這位擁有會計專業背景的兩歲孩子的母親,決定選擇數據標註作為自己重返職場的第一份工作。“對於初學者來説,數據標註工作相對簡單且容易上手。但每個項目都有不同的規則,需要快速理解和掌握數據提供方的需求。”她所承擔的主要工作,是對自動泊車技術提供高質量的標註數據,進而讓車載大模型更具學習能力。
數據標註師的日常工作包括但不限於圖像識別、語音轉寫、文本分類等。他們需要根據項目需求,對圖片、視頻或音頻內容進行細緻的標註,數據標註廣泛應用於自動駕駛、圖像識別等多個領域。以自動駕駛為例,數據標註人員需要對車輛行駛過程中的圖像和視頻數據進行標註,包括道路邊界、交通標誌、障礙物等信息的識別與定位。這些標註數據為自動駕駛系統的感知和決策提供了重要依據,保障了自動駕駛車輛的安全性和可靠性。
“吳忠基地的標註員大多是本地人,原來主要從事外賣、酒店、餐飲等服務行業,有的人甚至在家待業。”寧夏人工智能產業園負責人梁坤錶示,人工智能產業的發展為吳忠這座西北城市提供了大量崗位。以劉悦所在的寧夏眾夢智能科技有限公司為例,截至目前,該產業園已解決本地600人就業,其中16—24歲佔62%,25—30歲佔29%,大專及以上學歷佔就業人數的90%以上。
談及薪資水平和行業前景,劉仁明表示,從自動駕駛到醫療、教育等多個領域,數據標註的應用範圍正日益擴大。“隨着經驗的積累,標註員的薪資水平會不斷提升,入行前6個月的月收入一兩千元,6個月之後的工資可能在三四千元,一年之後的平均工資應該在4000元以上。如果是項目主管,工資基本上都是破萬元。此外,一些從業者通過校企合作項目,將理論知識與實踐相結合,為行業培養了大量專業人才。”
“目前全國數據標註員缺口在3000萬人次左右”
儘管數據標註行業前景廣闊,但也面臨諸多挑戰。劉仁明感嘆道,標註行業具有“人才短缺”“用工低齡化”“流動性大”等特點。“我一直與員工開玩笑説,鐵打的營盤流水的兵。在這個行業,很多人沒有耐力。如果你告訴他需要6個月之後,才給他高工資,他可能兩三個月之後就無法支撐。相當於6個月是個試用期和里程碑。只有真正跨過這6個月的坎之後,心性已經定下來,真正接受行業的發展和基調的人才是我們重點培養的人。”

劉仁明坦言:“現在有不少員工會去兼職。在數據交付上,我們面臨交付壓力。員工現在做的這批數據是按照週期交付,而後面在做的文本項目是按天交付,這時兼職人力無法滿足條件。”
不少受訪者表示,當前,西北地區的最大問題是無法留住人才。面對行業“招人難”“留不住人”的瓶頸,梁坤認為,數據標註人員面臨的就業補貼政策是當前最需要解決的問題。除了西北地區外,在中國,上百萬名人工智能數據標註員分佈在貴州、江西、山東、河南等省份的二三線城市,並逐步向人力成本更低的縣城滲透。
“1000萬+”,這是目前從事數據標註行業人羣的總數量,且這個數字還在不斷地快速增長。當前,通用人工智能行業迫切需要精細化、場景化的標註數據。“整個行業的勞動密集性和人員需求較大,目前全國缺口在3000萬人次左右,國內真正符合這類人才需求的很少。”劉仁明表示。
那麼,一個業務能力強的數據標註員需要具備哪些條件?“第一,出錯率低,效率高。第二,理解能力和領悟能力都需要超人。”劉仁明向《環球時報》記者説道,“一些在職業院校中接受過3D建模培訓和漢語言文學專業的學生擁有成為一名‘合格’數據標註師的潛力,而真正可以寫代碼的人早已被(其他行業)挑走了。”
數據標註行業新趨勢的到來,對數據標註員這一崗位產生顛覆性影響。劉仁明表示,幾年前這一行業對學歷沒有要求,隨着人工智能的不斷發展,對人員的要求逐漸提高。很多人反映標註沒有門檻,但從目前的就業形勢來看,相當有門檻。“具體來説,我們做的項目需要針對某一專業,例如我們目前做的3D項目,學習過建模或者建築類行業的人可能更具優勢。而大模型文本類的項目可能更適合學習過漢語言、文科底子較好的學生。”
“具備相關行業知識的標註員會更加受到企業的青睞,而能力較為普通的數據標註員則將面臨被淘汰的危機。”劉仁明表示,這個行業對年齡也有要求。以眾夢智能科技有限公司為例,數據標註員的平均年齡在二十五六歲左右。“因為隨着年齡增長,手速會下降。”
“行業將經歷人才結構升級”
當下,社會各行各業對高質量、高精度的數據標註需求持續增長。在今年4月召開的全國數據工作會議上,國家數據局表示,我國將開展數據標註基地試點。5月,國家數據局在第七屆數字中國建設峯會上公佈了7個承擔全國數據標註基地建設任務城市名單,分別為四川成都、遼寧瀋陽、安徽合肥、湖南長沙、海南海口、河北保定、山西大同。
工信部信息通信經濟專家委員會委員盤和林接受《環球時報》記者採訪時表示,從產業端看,數據標註是數據要素資源開發的重要工序,企業一方面要通過標註讓數據變現,另一方面要通過標註來推動AI產業發展。政策端來看,數據標註是發展數據要素產業的關鍵,能為當地帶來新經濟增長點,提供更多就業崗位,而下游的AI和上游的算力也會因為這一產業發展而得到帶動。
2018年美國《紐約時報》的一篇報道援引一位專家的話表示,“在中國一些小城市湧現出一批數據標註初創企業,它們猶如精煉廠,正在把原材料變成驅動中國AI發展的燃料。”
盤和林表示,美國數據標註經常採用外包方式,向海外採購數據標註服務。中國的數據標註已經形成一定的產業規模,受益於中國工程師紅利,中國數據標註產業發展較快。
“從某種程度上説,數據標註是一個被低估的行業。”劉仁明認為,對於數據標註行業,市場上確實存在一些誤區。“過去,一些人常常認為,與AI行業‘高科技’‘高附加值’的標籤相比,數據標註員從事的是勞動密集型工作,唯一與科技沾邊的可能就是每天需要抱着電腦進行操作。”
而隨着人工智能的發展,數據標註行業正經歷着快速發展。劉仁明表示,可以預見的是,未來數據標註行業將經歷一次人才結構升級,提升整體的專業水平。在此過程中,行業將吸引眾多具有較高素質的人才加入,同時也會逐步淘汰那些技能平庸、無法滿足高標準要求的員工。“對於願意投身於此的從業者來説,這不僅是一個技術性工作,更是一個充滿挑戰和機遇的職業選擇。”