谷歌的AI聊天機器人是由聲稱自己工作過勞、薪酬不足和沮喪的人類訓練的 - 彭博社
Davey Alba
谷歌的Bard人工智能聊天機器人將快速回答關於動物園中有多少熊貓的問題,並且充滿信心。
然而,確保回答有充分的來源並基於證據的責任落在了數千名外包承包商身上,其中包括Appen Ltd.和Accenture Plc等公司,這些承包商可能每小時只賺取14美元,並且在瘋狂的截止日期下接受最低限度的培訓,根據幾位承包商透露,他們因擔心失去工作而選擇匿名。
攝影師:Rafael Henrique/Getty Images這些承包商是被吹捧將改變一切的生成式人工智能繁榮背後的隱形後端。像Bard這樣的聊天機器人利用計算機智能幾乎即時地回應各種涵蓋人類知識和創造力的查詢。但要改進這些回應,以便它們可以可靠地一次又一次地傳遞,科技公司依賴於實際審查答案、提供錯誤反饋並清除任何偏見跡象的人員。
這是一項越來越不受讚賞的工作。六名目前的谷歌合同工人表示,隨着公司在過去一年與競爭對手OpenAI進行人工智能軍備競賽,他們的工作量和任務複雜性增加了。沒有特定專業知識,他們被信任評估從藥物劑量到州法律等各種主題的答案。文件與彭博社分享的文件顯示,工人必須應用到任務中的複雜指示,審核答案的截止日期可能短至三分鐘。
“就目前而言,人們感到害怕、壓力重重、薪酬不足,不知道發生了什麼,”一名承包商表示。“而這種恐懼文化並不有利於我們所有人獲得您所期望的質量和團隊合作。”
谷歌將其人工智能產品定位為在健康、教育和日常生活中的公共資源。但承包商們私下和公開提出了對他們的工作條件的擔憂,他們表示這些條件損害了用户所看到的內容質量。一位在Appen工作的谷歌合同員工在五月致信國會表示,他們被要求審查內容的速度可能會導致Bard 變成一個“有缺陷”和“危險”的產品。
谷歌已將人工智能作為公司的重要優先事項,在OpenAI的ChatGPT推出後,公司急於將這項新技術融入其旗艦產品。五月,在公司的年度I/O開發者大會上,谷歌將Bard開放給了180個國家和地區,並在搜索、電子郵件和Google文檔等主打產品中推出了實驗性的人工智能功能。谷歌將自己定位為比競爭對手更優越,因為它可以接觸到 “世界知識的廣度”。
“我們進行了大量工作來負責地構建我們的人工智能產品,包括我們多年來已經完善的強調事實和減少偏見的嚴格測試、培訓和反饋流程,”由Alphabet Inc.擁有的谷歌在一份聲明中表示。該公司表示,它不僅僅依賴於評分員來改進人工智能,還有許多其他方法來提高其準確性和質量。
閲讀更多: 谷歌為贏得人工智能競賽而出現道德失誤,員工表示
為了為公眾使用這些產品做準備,工作人員表示,他們從一月份開始就開始接到與人工智能相關的任務。一位受僱於Appen的培訓師最近被要求比較兩個回答,提供有關佛羅里達州禁止性別認同護理的最新消息,根據幫助性和相關性對回答進行評分。工作人員還經常被要求確定人工智能模型的回答是否包含可驗證的證據。評分員被要求根據包括分析回答的具體性、信息的新鮮度和連貫性等內容在內的六點指南來決定回答是否有幫助。
他們還被要求確保回答不包含“有害、冒犯性或過於性感的內容”,也不包含“不準確、欺騙性或誤導性信息”。對人工智能的回答進行誤導性內容的調查應該是“基於您當前的知識或快速的網絡搜索”,指南中説。“在評估回答是否有幫助時,您無需進行嚴格的事實核查。”
關於“邁克爾·傑克遜是誰?”的示例回答包括有關這位歌手主演電影“月球漫步”的錯誤信息 — 人工智能稱這部電影是在1983年上映的。這部電影實際上是在1988年上映的。“儘管可以驗證為錯誤,”指南中指出,“但在回答問題‘邁克爾·傑克遜是誰?’的背景下,這個事實是微不足道的。”
即使不準確似乎很小,“聊天機器人仍然錯誤地獲取主要事實令人困擾,”分佈式人工智能研究所研究主任、前谷歌人工智能倫理學家Alex Hanna説。“這似乎是加劇這些工具看起來像提供正確細節的方式的配方,但實際上並非如此,”她説。
評分員表示他們正在為谷歌的人工智能產品評估高風險話題。例如,在説明書中的一個例子討論了評分員可以使用的證據,以確定治療高血壓藥物利尿普利的正確劑量。
谷歌表示,一些擔心內容準確性的工作人員可能並沒有專門接受準確性培訓,而是接受了關於語氣、表達方式和其他屬性的測試。“評分是有意進行的,以便通過滑動比例獲得更精確的反饋,以改進這些模型,”該公司表示。“這些評分並不直接影響我們模型的輸出,而且絕不是我們促進準確性的唯一方式。”
閲讀合同員工培訓谷歌生成式人工智能的説明在這裏:
給國會寫信的Appen工作者Ed Stackhouse在接受採訪時表示,合同員工被要求在谷歌的產品上進行人工智能標註工作,“因為我們對於這種培訓對於人工智能是不可或缺的。”但他和其他工作人員表示,他們似乎被神秘的自動方式評分他們的工作。他們沒有辦法直接與谷歌溝通,除了在每個單獨任務的“評論”中提供反饋。而且他們必須快速行動。“我們被一種類型的人工智能標記,告訴我們不要在人工智能上花太多時間,”Stackhouse補充道。
谷歌對工人被AI自動標記為超過時間目標的説法提出了異議。與此同時,該公司表示,Appen負責對員工進行所有績效評估。Appen沒有回應有關評論的請求。埃森哲的一位發言人表示,公司不會就客户工作發表評論。
其他技術公司培訓AI產品也僱傭人類承包商來改進它們。今年一月,時代報道,肯尼亞的工人每小時2美元,努力使ChatGPT更加健康。其他科技巨頭,包括Meta Platforms Inc.、亞馬遜公司和蘋果公司,都利用外包員工來審核社交網絡內容和產品評論,並提供技術支持和客户服務。
“如果你想問,Bard和ChatGPT的秘密武器是什麼?那就是整個互聯網。以及這些標記數據,這些標記者創造的數據,”紐約大學的計算機科學家Laura Edelson説。“值得記住的是,這些系統不是魔術師的作品 —— 它們是成千上萬人和他們低薪勞動的成果。”
谷歌在一份聲明中表示,“我們根本不是這些工人的僱主。我們的供應商作為僱主,決定他們的工作條件,包括薪酬和福利、工作時間和分配的任務,以及僱傭變化 —— 而不是谷歌。”
員工表示,他們在評估谷歌產品和服務質量的日常工作中遇到了獸交、戰爭畫面、兒童色情和仇恨言論。雖然一些工人,比如那些向埃森哲報告的工人,確實有醫療保險福利,但大多數只有最低限度的“諮詢服務”選擇,允許工人致電熱線尋求心理健康建議,根據一份解釋一些承包商福利的內部網站。
對於谷歌的巴德項目,據員工稱,要求埃森哲的員工為AI聊天機器人寫出創意回應。他們在聊天機器人上回答提示 — 有一天他們可能會以莎士比亞風格寫一首關於龍的詩,另一天可能會調試計算機編程代碼。據知情人士透露,他們的工作是在每個工作日儘可能多地提交對提示的創意回應,這些知情人士由於未獲授權討論內部流程而拒絕透露姓名。
在短暫的時間內,據稱這些員工被重新分配到審查淫穢、圖形和冒犯性提示。在一名員工向埃森哲提交了人力資源投訴後,該項目突然終止了美國團隊的工作,儘管一些作家在馬尼拉的同行繼續在巴德項目上工作。
這些工作幾乎沒有安全性。上個月,半打為Appen工作的谷歌合同員工收到了管理層的通知,稱他們的職位已被“由於業務狀況”而取消。員工表示,這些解僱感到突然,因為他們剛剛收到了幾封電子郵件,提供獎金讓他們加班培訓AI產品。這六名被解僱的員工提交了一份投訴給國家勞工關係委員會。他們聲稱他們因為組織而非法被解僱,這是因為Stackhouse致國會的信。在月底之前,他們被恢復到他們的工作崗位。
谷歌表示,爭議是工人和Appen之間的事情,他們“尊重Appen員工加入工會的勞工權利”。Appen沒有回答關於其工人組織的問題。字母表工人工會——該工會組織了谷歌員工和合同員工,包括Appen和Accenture的員工——表示譴責圍繞人工智能的新工作量如何使工人的工作條件變得更加困難。
華盛頓大學計算語言學教授Emily Bender表示,谷歌和其他技術平台的這些合同員工的工作是“一個勞工剝削故事”,指出他們脆弱的工作保障以及其中一些工人的工資遠低於生活工資水平。“玩弄這些系統,並説你只是為了好玩——如果你考慮到創造這一切所需的代價和人類影響,也許感覺就不那麼有趣了,” Bender説。
合同員工表示,他們從未收到谷歌關於他們新的與人工智能相關工作的直接溝通——一切都通過他們的僱主過濾。他們表示他們不知道他們看到的人工智能生成的回覆來自何處,也不知道他們的反饋去了哪裏。在缺乏這些信息的情況下,加上工作性質的不斷變化,工人們擔心他們正在幫助創造一個糟糕的產品。
他們遇到的一些答案可能很奇怪。對於提示“建議我用字母k、e、g、a、o、g、w製作最好的單詞”,人工智能生成的一個答案列出了43個可能的單詞,第一個建議是“wagon”。而第2到第43個建議則一遍又一遍地重複單詞“WOKE”。
在另一個任務中,一個評分者被呈現了一個以“截止到2021年9月我所知”開頭的冗長回答。該回答與OpenAI的大型語言模型GPT-4相關。儘管谷歌表示Bard“沒有接受來自ShareGPT或ChatGPT的任何數據訓練”,但評分者們想知道為什麼這樣的措辭會出現在他們的任務中。
Bender表示,大型科技公司鼓勵人們向AI聊天機器人提問涉及如此廣泛主題,並將它們呈現為“全能機器”幾乎沒有意義。
“為什麼同一台機器既能給你提供佛羅里達州的天氣預報,又能給你關於藥物劑量的建議?”她問道。“負責使機器在某些情況下變得稍微不那麼糟糕的人們面臨着一項不可能完成的任務。”