科技公司越來越好,這羣參與創造的人卻在變成「工具」_風聞
极客公园-极客公园官方账号-2021-03-19 14:08
如果只是用供需這種單一標準去慰勞這些「困在系統裏的人」,是否足夠公平?
「人工智能會改變世界,那誰會改變人工智能?」這是 AI 科學家李飛飛的追問。15 年前的 AI 界,普遍信奉更好的算法就能帶來更好的決策,但李飛飛意識到了這種思路的侷限:即使是最好的算法,如果沒有好的、能夠反映真實世界的訓練數據,也沒辦法用。於是,李飛飛着手構建大規模的標註良好的圖片集 ImageNet。
從今天看,ImageNet 的革命性不言而喻。它的衍生賽事成了篩選算法競賽中的奧林匹克,各大機構紛紛拿它作為練兵場,測試自家算法優劣。一時間,各種突破紛紛湧現。2012 年,Geoffrey Hinton 基於卷積神經網絡的 AlexNet 拔得頭籌,深度學習也因此騰飛。十幾年來,它全程見證了深度學習在視覺領域的全面興起。
計算機視覺是當前 AI 發展最好的一個方向,而 ImageNet 是這個領域裏經典的數據集,不誇張地説,如果沒有它,現在的面部識別都會是一種奢望。但它產生的更重大的意義,是讓人們意識到構建優良數據集的工作是 AI 研究的核心,數據和算法一樣至關重要。
最早期,ImageNet 需要有人手動查找、標記圖像並將其添加到數據集中。李飛飛想僱用本科生,每小時付 10 美元,但經過計算,想到達到她預想的規模,本科生們不吃不喝得做數十年。最終,事情有了轉機,她注意到了亞馬遜眾包平台 Mechanical Turk。在這個平台上,一些科研人員會發布一些瑣碎任務,比如給圖像加標籤、鑑定色情照片等。每個能坐在電腦前的人都可以接活,完成後就能獲得金錢回報。
就這樣,來自 167 個國家的 49000 人次,花費兩年半的時間完成了這項偉大的工程。可以説,ImageNet 因為眾包才得以出生,但卻鮮少人會關注那羣同樣參與創造的數據標註員。他們是真人,只不過平台把服務背後的人「抽象化」了,讓人感覺這些任務是由計算機自動執行的。他們是真人,點擊了無數次「圖片裏是否有皮艇」和「圖片裏是否有暹羅貓」。
今天,幾乎每個籌備上市的公司都恨不得在招股書上寫滿「AI +」,產業「言必稱人工智能」也就意味着人們對數據有着極大的渴望。數據標註員也因此擴展了好幾個數量級。Mechanical Turk 現在穩定的活躍零工有 10 到 20 萬,在人力成本低廉的地區,甚至形成了特色「數據標註村」。
但有點反直覺的是,這羣「創造者」催生了 ImageNet,讓它開啓了深度學習乃至人工智能新的篇章,他們最後拿到的錢卻低得可憐。最近,幾所知名大學發表論文 The Limits of Global Inclusion in AI Development,揭示了一個現實:完成 ImageNet 的數據標註零工們,時薪中位數只有 2 美元左右,只有不到 4% 的標註員拿到了超過 7.25 美元的時薪。作為對比,現在美國一些地區的最低時薪都提高到了 15 美元。但因為這些兼職者不算員工,因此不受最低時薪法律保護。
他們拿着比最低時薪還低的錢,在無數次的點擊中,完成了一場開天鴻蒙的革命。這羣同樣在為 AI 奠基的「隱形人」,應該得到更多人的重視。
有多少智能,就有多少人工
現代 AI 依賴各種算法處理規模達數百萬的示例、圖像或文本素材。但在此之前,首先需要由人工在圖片數據集中手動標記出對象,再將標記完成的大量圖像交付給算法以學習模式,掌握如何準確識別對象。
極客公園(ID: GeekPark)早前就記錄過一位數據標註女工的工作:小雪正在把一張張快遞單或家譜上的手寫體上的字母標註出來,告訴機器 i 可以有多種寫法。這樣的工作並不簡單。手寫的 i 可能是頂上一點加上一豎,也可能是朝後彎的小勾,更潦草一點就和數字 9 一樣……小雪的筆記本上密密麻麻地擠滿了這些像字更像圖的墨跡。她做的,是一種介於手寫錄入和圖像標記之間的工作。同服務於智能駕駛的街景標記、服務於智能醫療的人體標記、服務於語音交互的聲音標記一樣,他們共同的行業學名叫做「人工智能數據標註」。
即便技術門檻低,但這份重複性極高的工作,對標註精度有着極高的要求,「95% 以上的準確率是理想情況。」如果用於訓練模型的數據精度低於要求,那 AI 就會「指鹿為馬」。
2020 年 6 月 18 日,太原,在數據標註中心|視覺中國
AI 行業對數據的渴求,催生出了一批數據標註眾包平台,比如前面提到的亞馬遜 Mechanical Turk,還有谷歌 Crowdsource,國內的京東眾智、百度眾測等。而在這個平台上兼職的人,也大多是打零工心態——利用閒暇時間賺點小錢。當然,他們也不全都能意識到自己經手的數據其實是一些科技企業賴以生存的核心資產。
比如,美國創業公司 Sama 專門為 AI 項目提供訓練好的數據,其眾包平台面向全球開放,上面大多是非洲和東南亞零工。數據顯示,這些人平均每天只能賺到 8 美元(約 50 元人民幣),而依靠標註好的數據,Sama 在 2019 年拿到的 A 輪融資就接近 1500 萬美元,營收超過 1900 萬美元,其客户包括谷歌、沃爾瑪和福特。
2005 年就啓動的 Mechanical Turk,創辦初衷就是為了讓更多零工參與進來,幫預算不多的科研機構識別海量 AI 無法歸類的圖片。但隨着更多 AI 公司的湧入,零工和任務發佈者的關係也在「惡化」。在這個平台上,任務發佈者擁有至高無上的權力。他們不僅可以任意調整任務價格(最低至 1 美分),還能拒絕任何已經完成的任務成果,甚至是故意縮短任務建議完成時間,使其大幅低於實際完成時間,以吸引工作者並降低成本。
這類低薪隱形勞動,也走到了「線下」,在中國一些人力成本較低的地區,還發展出了「數據標註工廠」。目前的數據標註工廠,多集中在河北、河南、山東、山西等地區,這同以富士康為代表的傳統人力密集企業的選址偏好重合度極高——以更低廉的勞動力成本支撐起聚集在首都的人工智能底層數據需求。
印度也有不少「數據標註村」,他們為歐美 AI 公司服務,Facebook 就曾將部分社交網絡上內容標註的工作外包給了一家印度公司。
他們不是工具,是參與創造的人
一項研究顯示,Mechanical Turk 上的零工的動機大多是「享受其中」,也有很多人表示是因為當地沒有好的工作機會。乍看之下,雙方的需求和興趣互相吻合。但同樣不可忽視的是,這類低技術門檻的工作,本質上並不能帶來任何技能上的提升。零工們犧牲掉了自己的本可以拿來自我提升的機會成本。
儘管對於非洲和東南亞的工作者來説,8 美元的日薪可能足夠維生,但這並不能改變其創造的價值被大大壓縮的現實。對於 Sama 這樣的公司來説,他們用極低成本拿到的數據,創造了千萬美元級別的收益,但這些收益與其背後(一部分)真正的勞動者幾乎毫無關係。
在這種境況裏,數據標註員更像是價值鏈條裏的「可消耗資源」,是被無盡壓縮成一次性工具的角色,鮮有人關注他們個人的留存。
和數據標註員類似的,還有社交網絡審核員。他們受僱坐在電腦屏幕前,用審判的眼光看着互聯網上的帖子。赤裸的色情、嘶鳴的槍響、血腥的暴力都直白地鋪在他們的屏幕上,這些圖片、視頻是被互聯網平台用户舉報後聚集到審核隊列裏的。他們在和互聯網的黑暗面貼身肉搏,做着算法還不能完全做到的事,就像社交網絡中的「人肉盾牌」,網絡審查員受到的精神傷害卻很少有人關注。
這些審核員的薪水同樣低廉。Facebook 正式員工的平均年薪是 24 萬美元,但據 The Verge 前年的調查,替 Facebook 做平台審查的外包勞工薪水卻只有前者收入的零頭——工作時薪僅 15 美元(年薪 2.8 萬美元)。
他們都在給「信息行業的富士康」打工,做的是被上層切分得異常細微的工作,這些工作簡單、單調、重複,但在用人方看來,這種切分能最大程度保證準確度。但如果只將這羣人困在一個異常狹小的工作空間裏,那他們是沒法脱離「工具」的角色成為「創造者」的。
Sama 也持一詞,公司開出的日薪是 9 美元,他們表示希望藉此幫助那些日薪低於 2 美元的零工。「我們不會提供可能破壞當地勞動市場的薪酬水平。如果我們給出的薪酬過高,就會給整個社會帶來麻煩。比如,可能會對我們員工所生活的社區的住房成本、還有食物成本等帶來潛在負面影響。」公司 CEO Leila Janah 説道。
市場供需需要考量,但人的成長也需要被重視。前提是用人方真正把他們當成「人」而非只是「工具」看待。論文提到,解決這個問題的潛在方案是,讓更多人蔘與到 AI 研究的核心環節,尤其是 AI 模型和項目的研發、實現和部署,從而在欠發達國家培養和鍛鍊更多本土 AI 人才,之後再鼓勵他們謀求管理崗位,或者支持其創業。相比之下,做再多數據收集和標註這樣的工作,也無法提升他們的能力。
科技越好,他們越沒有價值
如果説數據是原油,那數據標註員,這些挖掘數據、標記條目的礦工們,這些在價值鏈條最前端的創造者,是不該被遺忘的。這羣人在幫助 AI 不斷成長,但最終他們就並沒有真正幫助到自己。越來越好的科技,可能會讓他們越來越沒有價值。
先拋開微薄的收入,更諷刺的是,這些零工可能會被他們一手訓練出來的 AI 歧視。零工們大多來自非洲和亞洲,有色人種居多。但在 AI 訓練中,輸入的數據卻往往是傾向西方語境。這些數據主要來自於西方語境,並帶有人類社會的刻板印象,由此得來的模型無法對不同於西方文化的人和物體做出準確判斷,還會產生類似人類的性別或種族偏見。
那篇論文的最大意義,就在於讓更多人看到那些「困在系統裏的人」。這些沒有上升空間的零工,乍一看和平台方的需求相吻合,但不知不覺中,前者成為被盤剝的角色。這羣人就像外賣員、快遞員一樣。成長空間狹小,在算法和平台的支配下,這些勞動者都被擠壓得喘不過氣。
科技公司在享受着 AI 給他們帶來的巨大紅利的同時,卻讓這羣人成了不可見的「幽靈工作者」。如果只是用供需這種單一標準去慰勞這些「困在系統裏的人」,是否足夠公平,這是我們都需要思考的。
18 世紀,一架國際象棋機器(The Turk)在歐洲巡迴比賽,還曾打敗過富蘭克林和拿破崙。這台機器曾被譽為人工智能的偉大壯舉,但是後來人們發現它根本不是機器,而是一個機械木偶,被藏在棋盤下方的人類象棋高手控制着。有意思的是,21 世紀,亞馬遜運營起了機械版 Turk——Mechanical Turk。
改革並非一朝一夕之事,但我們要先看到那些藏在「棋盤」底下的輔助人工智能的人。
題圖來源:極客公園|責****任編輯:靖宇
轉載請聯繫極客君微信 geekparker