誰能訓練人工智能
作者:佘 颖

最近,人社部公佈了一批新職業,其中有個新職業叫作“人工智能訓練師”。聽起來高大上的人工智能還要人來訓練?誰能訓練這些看不見、摸不着的人工智能?“人工智能訓練師”究竟做些啥?關鍵是,掙得多不多?
帶着這些問題,經濟日報記者近日走訪了百度(山西)人工智能基礎數據產業基地。這裏是目前國內從業人員與產值規模第一的單體數據標註基地,入駐企業35家,AI數據標註師從業人員超過2300人。
“我是數據標註員,中專學歷,每天工作8小時,大概能掙300多元。”面對記者的問題,山西麟諾網絡科技有限公司的李宇龍自豪地給出了答案。這個收入對在太原生活的年輕人來説算高水平了——數據顯示,2019年,太原市城鎮居民人均可支配收入36362元。不過,李宇龍説自己不算最高的,“我有的同事一天能掙1000多元”。
李宇龍學歷不高,原本與人工智能沒什麼關係。2018年,山西麟諾網絡科技有限公司成立,李宇龍經朋友介紹來到這家公司。
“當時我也不知道數據標註員是做啥的,更沒聽説過人工智能。老闆就交給我一套規則,讓我按照規則在電腦上認車道線。”那時20歲出頭的李宇龍正是肯學的時候,短時間內就熟悉了規則,還總結出標註車道的新規律。
作為這項新職業的老員工,李宇龍已轉型培訓師,除了日常工作,還承擔起公司新員工的培訓教學,“有的同事會轉型做項目或者內容審核員,還是有上升空間的”。
“數據標註技術門檻低,招工人羣範圍廣泛,對於促進就業作用顯著。”山西麟諾網絡科技有限公司負責人李應維告訴記者,目前公司招聘的員工以大專生為主;標註規則由百度與相關領域專家共同制定,並形成可操作軟件平台提供給企業,對員工簡單培訓就能上手。以人臉為例,目前他們能實現對約150個特徵點的標註。大致標註規則是數據標註師看到雙眼皮就標記雙眼皮,看到獅子鼻就標記獅子鼻,讓機器自己理解與學習。標註特徵點越多,AI就越能精確識別人臉。
看似簡單的工作,背後是龐大數據基礎做支持。算法、算力與數據是人工智能發展的三大要素,其中數據是人工智能發展的燃料。每天,人類社會產生的海量數據必須經過清洗與標註,換成人工智能熟悉的語言才有價值。因此,人工智能訓練師主要任務就是數據採集和標註,特別是數據標註。如果説人工智能是個孩子,數據標註師就是帶領這個孩子認識世界的啓蒙老師。有了足夠多、足夠好的數據,AI才能學會像人一樣去感知、思考和決策,更好地為人類服務。
人工智能產業發展之初,數據採集與標註需要人力完成的部分比較多,現在數據平台已有了持續學習能力,大部分採集與標註工作人工智能自己就可完成,實現預標註與自動標註。因此,目前數據標註工作以機器輔助與人工標註結合為主。除了眼底檢查片、肺部X光片等技術含量較高有專業要求,大多數員工均能按照規則,在平台上完成語音、人臉、道路的標註操作,只要能熟練操作電腦即可。
郭梅是新職業的受益者。34歲的她原本在山西一家煤礦做監控員,為照顧到太原上學的孩子,她到學校附近的數據標註基地求職。經過公司崗前培訓與團隊幫助,她從起初每天標註兩三百張圖,提升到每天能完成1300多張。
數據標註員的工作隨着人工智能發展需求不斷調整。前幾年人工智能發展伊始,語音識別、人臉、圖像等識別需求大;近幾年無人駕駛進入發展快車道,郭梅與李宇龍的主要工作就改成無人車、地圖、3D點雲等數據標註,天天看的是車道線、行人、障礙物。
“還有一些語音識別項目,比如我們接了一些方言語音數據標註項目,這就需要招聘當地人來完成了。”李應維説。
有了足夠技術基礎,數據標註員還能教會人工智能新任務。疫情期間,戴口罩的人臉識別需求激增。“根據客户需求,山西數據標註基地採集了大量戴口罩人臉照片,由數據標註師對眉毛、眼鏡、顴骨等人臉關鍵點精準標註,訓練人工智能完成了戴口罩人臉圖像識別。”百度(山西)人工智能基礎數據產業基地負責人尉赤説,“人們能在不摘口罩情況下實現精確體温測量,或是通過人臉閘機,背後就是這些數據標註員在訓練人工智能。”
艾瑞諮詢發佈的《中國人工智能基礎數據服務行業白皮書》預測,隨着全球人工智能產業、物聯網、5G的爆發式增長,到2025年,全球每年產生的數據量將從2016年的16.1ZB猛增至2025年的163ZB,其中80%至90%是非結構化數據,需要經過清洗與標註才能被喚醒價值。在我國,每年需要標註的語音數據超過200萬小時,圖片則有數億張。因此,人工智能數據標註師的崗位需求將持續增長。尉赤透露,今年基地新招了500多人,未來5年計劃培養5萬名AI數據訓練師,並引入更多AI合作伙伴。李應維也預計,到明年自家企業用工將翻一番,從160多人擴展到300人左右。未來,數據標註將成為創造大量就業需求的新興職業領域。