智能時代的手工勞動者:調教AI、月薪三千_風聞
果壳硬科技-果壳旗下硬科技内容品牌2021-03-23 20:48
白女士坐在電腦面前,她的全部的工作內容,就是“教”人工智能認圖、認字,彷彿它是初識這個世界的小孩子。
在她所供職的縣城公司,和她一樣重複着簡單機械工作的同事,近200人,如果將視野放到全國的“人工智能數據標註公司”,已有上百萬人從事這個職業:人工智能數據標註師。
他們是智能時代最後的手工業者。
吳雲飛丨作者
李拓丨編輯
放大燈團隊丨策劃
數據標註師的主要工作是——調教AI。
他們的任務一開始比較最簡單,比如判斷句子意思是否通順;進階任務是識別圖像、驗證碼。其中識別圖像包括做人臉標識,這要求他們在各種角度、遮擋、清晰度的條件下,標註出五官、臉型的輪廓與位置,每張臉上要標出100多個識別點。

人臉識別示意丨arXiv:1706.01789
如此調教AI的本質,是對圖像數據做結構化處理。
一顆蘋果在不同光照、遮擋的環境下,人只要看一眼都能準確識別。雖然人類腦部處理其信號的原理在學界仍有爭議;但計算機看見蘋果,只能接收到一張由不同像素點組成的網絡,而無法從整體進行識別;並且晴天下的蘋果和雨天下的同一顆蘋果,將為計算機輸出不同的像素點陣。
因此只有人們將視頻、圖像、文字、聲音等信息進行標註的結構化處理後,才能為計算機所識別。
這種對人工智能系統投放有標註的數據的過程,就是人們常説的“訓練”。人工智能的先進程度與其訓練的數據規模與準確度密切相關,數據越多、越準確,系統就越智能。
智能駕駛、病例診斷、名片OCR、手勢符號、農產品、商品信息、金融服務……高大上的人工智能已經應用到了城市生活的方方面面。科技巨頭們圍繞人工智能,展開了奮力的競逐。
分佈在全國各地百萬“人工智能標註師”們的標註效率,正左右着科技巨頭人工智能競賽的勝負。

清澗縣,黃河邊僅20萬人口的一座小縣城,位於陝西省榆林市。2019 年,阿里巴巴在此與當地政府政府合作開發了名為“Ai 豆”的扶貧項目,根據協議,阿里提會為產業園供訂單並且負責培訓,而當地政府出場地與設備參與共建。項目招聘會明確傾向社會就業弱勢羣體,並且要將80%的收入用於薪資發放,並不得進行利潤分紅[1]。
Ai豆員工的主要工作內容就是為人工智能做標註,是縣城裏僱傭人數最多的一家企業。除此之外,全國7省8縣都設立了Ai豆扶貧合作項目,截至2020年底,共計吸納近800人就業。
Ai豆項目是個純粹的扶貧項目。但阿里巴巴相關人士也坦陳,但僅僅靠數百人的“Ai豆”扶貧項目,遠遠不能保障阿里人工智能的後勤供給。“整個行業的需求量實在太大了。”
事實上,包括阿里在內,每一個擁有大量數據需求的科技巨頭均建立了各自的數據標註供應鏈。其中眾包平台是他們獲得標註服務的重要方式,例如騰訊搜活幫、百度智能雲、京東眾智、科大訊飛愛標客等,均是如此。
眾包是一種靈活用工模式,參與者無需與平台或數據需求方建立僱傭關係,僅通過網絡完成協作,根據完成的任務包獲取記件收入。

騰訊搜活幫截圖
通過眾包模式,科技巨頭能快速聚集大量閒散、彈性的勞動力,無論是全職或是兼職,只需完成培訓便可直接上崗。對企業而言,先完成任務再付費也是非常穩妥的選擇,並能外化企業薪資負擔。
筆者也試着在騰訊搜活幫平台上體驗眾包任務。在通過文本識別、搜索相關性、時鮮性、內容判斷等多種考試後,就可以搶單對應任務。在通過難度相對較高的文本識別考試後,完成了兩套獎勵為150元寶的任務,耗時約3分半鐘。
每1000元寶可以兑換1元錢,按正常工時計算,每月收入能在1800元左右。隨着操作熟練度的提升、高難度題目獎勵的提升,完成任務的效率也會隨之提高。以目前的任務獎勵計算,熟練的標註師有望獲得3000元甚至更高的薪水。

騰訊搜活幫任務界面
選擇眾包或者第三方公司提供標註服務可以更靈活,但如果需要高質量或穩定的標註服務,或涉及核心知識產權的內容,自建團隊更穩妥。
有媒體報道,在百度山西人工智能數據產業基地,就擁有超過3000位標註師,主要涉及自動駕駛、人臉識別等內容標註,其中86%的員工為90後。今日頭條公司在天津、濟南、武漢各地,也招募了4萬名數據標註師。
除了大型互聯網公司自建與組織眾包標註師,市場上還活躍着諸如龍貓、雲測、數據堂、愛數智慧、海天瑞聲等第三方服務商。
林林總總,全國標註師就業總人數已超過百萬。
2020年4月26日,人力資源與社會保障部發文正式宣佈,“人工智能訓練師”正式成為新職業,並納入國家職業分類目錄。該文同時披露,僅阿里巴巴業務生態內,人工智能訓練師從業者已逾20萬人;預計到2022年,國內外相關從業人員有望達到500萬[4]。

人社部發布通知
人社部發布新職業信息,標誌着這個羣體規模與影響力都在壯大,以至於全面進入了監管視野,相關的職業規範、行業培訓體系規劃或將接踵而至。

天空的顏色、路邊的風景、交通路況、CT 片顯示的病灶……所有視覺、聲音或者文字信息,都隱含着這個星球的秘密。若是數據的標註不需要成本,人類應該想讓機器感知整個物質的星球。
在機器學習的過程中,參與的數據集被分為訓練集、驗證集與測試集,機器的任務就是對根據訓練集的數據點進行擬合、通過驗證集調教預測模型,並測試集進行準確度評估。
像白女士那樣手把手教人工智能學習的方式,被稱為“有監督”的機器學習。但當人工智能被逐漸養熟後,它自身的識別能力與模型擬合準確度將不斷提高,進入人機協作模式。
直至人工智能會在某模型的注準確度與效率完全超過人類,此時它便要離開人工標註,進入無監督機器學習。
理論上説,每一個垂直場景隨着技術發展,人工智能都有可能進入無監督學習狀態。
今年兩會期間上汽集團董事長陳虹的提案顯示,一輛自動駕駛測試車輛每天產生的數據類型包括車輛行駛數據、車身數據、操控數據、視頻數據、圖像數據、座標數據等數十類,總量最高可達10TB[5]。
2020 年 8 月 15 日,特斯拉創始人馬斯克宣佈要建立名為“Dojo”的神經網絡訓練機器項目,用於處理特斯拉汽車駕駛過程中攝像頭產生的數據,並鼓勵 AI 以及計算機芯片工程師加入該團隊[6]。
目前每輛新款特斯拉配置有八顆攝像頭,產生的數據量更是遠超10TB。
所以標註師這個職業,未來會消失麼?
一位不願透露姓名的自動駕駛公司工程師向筆者表示,人工智能應用的領域很廣泛,每個細分領域的處理方式很不一樣,“至少在短期內,我所在的圖像識別領域還不能離開標註師。”
他例舉了四點理由:
1. 計算機視覺領域仍然處於早期階段,神經學習領域在最近5年才有了飛躍式提升,目前還在積累數據;
2. 在計算機視覺領域,學術層面的確有無監督學習的訓練方式,但是在實際圖像識別訓練的角度上,目前每一家都還是進行有監督的學習;
3. 在市場的角度看,無論是車企本身還是自動駕駛解決方案供應商,仍處於構建自己核心能力的階段。在這種競爭環境下,大家都沒有建立公用數據庫的動力,因此自有結構化標註的數據的價值就會更加凸顯;
4. 從技術的角度看,目前市場上識別技術還沒有出現公認的最優解。各家的算法都有不同的技術路線,一旦算法的更迭,還是需要新數據去訓練和進化。因此在算法公認最優解出現之前,人工對數據做標註依然非常必要。
他還補充道,真實世界總有意想不到的情況。沒人知道人工智能會把掛載自行車的吉普車或是運載着着好幾輛小車的重型卡車識別成什麼樣子。更準確的人工智能,仍然需要海量、多樣且真實的數據持續補充。
另有數位相關領域從業者認為,目前人工智能應用場景還在不斷深化,諸如疫情期間大量公司的人臉標註工作就重新圍繞口罩遮擋的場景做了處理,在工業垂直場景、醫學診斷等場景中,人工智能的應用仍處於萌芽階段。因此公司對標註師的技能要求可能會越來越高,但在可預見的3~5年,數據標註產業的規模應該會確定性的成長。
曾幾何時,人們擔心AI的終局將把人類從簡單、機械、重複的勞動中解放出來,從此人類只需要專注於需要創造、情緒、社交互動的崗位。
卻未曾想過,構建人工智能的過程,竟然創造出眾多簡單、機械、重複的勞動崗位。
或許,他們就是人類最後的手工業者。

白女士已經工作一年多了,她形容這份工作的感覺就是——“刷題”。不過刷着刷着,也慢慢覺得有了些意思,比如在遇到不認識的圖片或文字時,查查資料也能學到點新東西。
相關人士也表示,由於收到了許多縣級政府的合作邀約,阿里今年也有意持續擴大Ai豆扶貧項目,拓展更多試點。但作為扶貧項目,這個簡單、機械、重複的行業能否做到“授人以漁”?
他回覆了以下幾點:
1. 絕大多數標註師文化程度較低,通過培訓他們起碼掌握了電腦的基本操作能力;
2. 業務的訂單分細分了很多諸如金融、醫療、交通等行業領域。如果不是標註工作,他們可能永遠也不會接觸到這些行業,而理解行業專用詞彙的過程就是學習;
3. 最關鍵的是,標註師是他們在縣城就業普遍的最優解,標註師收入通常比當地銷售或收銀員要高一些。
至於外界對標註行業的“數據富士康”評價,他回應稱:“外人不能太上帝視角了,是不是好事,還是要站在他們的立場去看問題。”
當機械代替人力成為時代的強權,有批人失去了工作,但圍繞着機械新創造出了能源、製造、維修、運輸等產業,另一批工作又誕生了。
在可預見的將來,人工智能也許會成為新的時代權力高點,屆時圍繞人工智能,全新的職業秩序又將被重新建立。
至於人工智能會帶來什麼樣的未來,也只能交給更遠的未來去回答了。科幻電影《銀翼殺手 2049》中,華萊士有一句話:Every leap of civilization was built on the back of a disposable workforce——每一次文明的躍進,都建立在可被拋棄的勞動力基礎之上。
且看看標註師們餵養長大的人工智能,將反哺給我們一個怎樣的世界。
References:
[1] 清河縣Ai豆項目招聘
http://www.qjzhf.gov.cn/Government/PublicInfoShow.aspx?ID=13071
[2] 鋭圖:讓自動駕駛學會“科目一”:探訪人工智能背後的數據標註師. 2020.8.18
https://new.qq.com/omn/20200818/20200818A05PHC00.html
[3] 石三香:沒有這些髒亂累,哪兒來的“今日頭條”.2020.3.12
https://www.huxiu.com/article/343677.html
[4] AI戰“疫”嶄頭角——“人工智能訓練師”新職業正式發佈
http://www.mohrss.gov.cn/SYrlzyhshbzb/dongtaixinwen/buneiyaowen/202004/t20200426_366504.html
[5] 搜狐汽車:聚焦兩會|上汽集團陳虹:提高車規級芯片國產化率 加強汽車數據安全保護.2021.03.03
https://www.sohu.com/a/453729166_430289
[6] 吳昕,力琴. 在線招聘AI或芯片人才、擴充數據標記團隊,馬斯克的「超級怪獸」1.0最快明年完成. 機器之能.2020.8.17
https://mp.weixin.qq.com/s/lNhalbVb0WN1k-5JzOR9ig