谷歌和微軟押注27歲創始人讓人工智能在印度發揮作用 - 彭博社
Saritha Rai
印度卡納塔克邦農村的Karya公司聯合創始人Manu Chopra,於9月25日。
攝影師:Samyukta Lakshmi/Bloomberg在阿加拉(Agara)一條安靜街道上的一間單間住宅裏,這個小村莊位於班加羅爾西南三小時車程的地方,四周是稻田和花生地,Preethi P.坐在縫紉機旁的凳子上。通常情況下,她會花幾個小時修補或縫製衣服,平均每天不到1美元。然而,在這一天,她正在用手機的一個應用程序朗讀她的母語卡納達語中的一句話。她稍作停頓,然後又讀了一句。
Preethi是這個地區常見的單字名字,她是Agara及周邊村莊中被一家名為Karya的初創公司僱傭的70名工人之一,負責收集印度方言語言的文本、語音和圖像數據。她是一個龐大而看不見的全球勞動力——在印度、肯尼亞和菲律賓等國家運作——這些勞動力收集和標記AI聊天機器人和虛擬助手所依賴的數據,以生成相關的回應。然而,與許多其他數據承包商不同,Preethi的努力得到了很好的報酬,至少按當地標準來看。
與Karya合作三天後,Preethi賺了4500盧比(54美元),這比這位22歲的高中畢業生通常作為裁縫一個月的收入多出四倍以上。她説,這筆錢足夠支付那個月的貸款分期付款,這筆貸款是用來部分修補她家裏那些被用彩色紗麗小心修補過的破敗泥牆的。“我只需要一部手機和互聯網。”
Karya公司員工Preethi P.在印度卡納塔克邦阿加拉的家中工作,時間是9月25日。攝影師:Samyukta Lakshmi/BloombergKarya成立於2021年,在ChatGPT崛起之前,但今年圍繞生成式人工智能的狂熱只增加了科技公司對數據的貪婪需求。根據印度科技行業協會Nasscom的預測,到2030年,僅印度就預計將擁有近一百萬數據標註工作者。Karya通過向承包商提供比普通最低工資高出多達20倍的報酬,承諾生產更高質量的印度語言數據,從而使科技公司願意支付更高的價格來獲取數據,與其他數據供應商有所區別。2030年,印度預計將擁有近一百萬數據標註工作者。
“每年,大型科技公司花費數十億美元來收集用於他們的人工智能和機器學習模型的訓練數據,”這家初創公司背後的27歲斯坦福大學計算機工程師Manu Chopra在接受彭博社採訪時表示。“為這樣的工作支付較低報酬是行業的失敗。”
Manu Chopra與Chamarajnagar當地工人互動。攝影師:Samyukta Lakshmi/Bloomberg如果微薄的工資是行業的失敗,那麼硅谷有責任創造這種失敗。多年來,科技公司一直將數據標註和內容審核等任務外包給海外更便宜的承包商。但現在,一些硅谷最知名的公司正在轉向Karya,以解決他們的人工智能產品面臨的最大挑戰之一:尋找高質量數據來構建能更好服務數十億潛在非英語使用者的工具。這些合作關係可能代表數據行業經濟和硅谷與數據提供商關係的強大轉變。
微軟公司已經使用Karya來為其人工智能產品獲取本地語音數據。比爾和梅琳達·蓋茨基金會正在與Karya合作,以減少輸入大型語言模型的數據中的性別偏見,這些模型是AI聊天機器人的基礎技術。谷歌的母公司Alphabet公司正在依賴Karya和其他本地合作伙伴在印度的85個地區收集語音數據。谷歌計劃擴大到每個地區,包括大多數使用的語言或方言,併為125種印度語言構建生成式AI模型。
許多人工智能服務主要是通過英語互聯網數據(如文章、書籍和社交媒體帖子)不成比例地發展的。因此,這些人工智能模型無法很好地代表其他國家的互聯網用户的語言多樣性,這些用户比他們學習英語更快地訪問使用人工智能的智能手機和應用程序。僅在印度,就有近10億潛在用户,因為政府正在推動在從醫療保健到教育再到金融服務的各個領域推出人工智能工具。
人工智能如何幫助打擊印度貧困
“印度是我們在非西方國家首次嘗試這樣做,我們正在用九種印度語言測試Bard,”谷歌印度研究負責人Manish Gupta説,他指的是公司的AI聊天機器人。“超過一百萬人口使用的70多種印度語言沒有數字語料庫。問題非常嚴重。”
Gupta列舉了AI公司需要解決的一系列問題,以便為印度的互聯網用户提供服務:非英語數據集的質量極低;印地語和其他印度語言幾乎沒有對話數據;以及印度語言的書籍和報紙的數字化內容非常有限。
當用於南亞語言時,一些大型語言模型 被發現會編造詞彙並且在基本語法方面存在困難。人們還擔心這些人工智能服務可能反映出對其他文化更加偏頗的看法。斯坦福大學計算機科學系教授Mehran Sahami表示,關鍵在於廣泛代表性的訓練數據,包括非英語數據,以便人工智能系統“不會持續傳播有害刻板印象,產生仇恨言論,也不會傳播錯誤信息”。
一名工人在印度的方言語言中收集文本、語音和圖像數據。攝影師:Samyukta Lakshmi/BloombergKarya是一家社會影響初創公司,總部位於班加羅爾,並得到資助,通過專門針對農村地區的工人,擴大了部分語言代表性的範圍。Karya的應用程序可以在沒有互聯網訪問的情況下運行,併為那些識字能力有限的人提供語音支持。在印度,超過32,000名眾包工作者登錄了該應用程序,完成了4000萬個有償的數字任務,如圖像識別、輪廓對齊、視頻標註和語音標註。
對於 Chopra 來説,目標不僅僅是改善數據供應,而是為了與貧困作鬥爭。Karya的創始人在印度德里西部的一個貧困社區叫做Shakur Basti長大。他贏得了一項獎學金,進入一所精英學校學習,在那裏他因為同學説他“聞起來像窮人”而受到欺凌。Chopra最終來到斯坦福大學學習計算機科學,但意識到他討厭那裏流行的“如何賺十億美元”的思維方式。
2017年畢業後,他開始着手他長期以來的興趣:利用技術來解決貧困問題。“僅需存款1500美元,就能讓印度人有資格進入中產階級,” Chopra説。“但貧困人口可能需要200年才能達到那個儲蓄水平。”在Chamarajnagar的一個Karya培訓中心。攝影師:Samyukta Lakshmi/Bloomberg
微軟發現,為了供其人工智能系統和研究使用,一直在支付大量費用來收集語音數據,儘管質量較差。例如,2017年,儘管在孟買及其印度西部地區使用的馬拉地語中有100萬小時的數字化口語數據可用,但僅有165小時可供購買。他的初創公司此後為微軟的人工智能服務整理了1萬小時的馬拉地語音數據,由來自五個不同地區的男性和女性朗讀。“科技公司想要數據,包括口音等,” Chopra説。“你咳嗽,他們就想要在語音中體現出來——這代表着自然語言。”微軟印度研究院的研究員Saikat Guha專注於數據收集倫理學,他表示也已經在一個項目中使用了Karya的內容,幫助視障人士找工作。“這些數據的質量比我使用過的任何其他來源都要好,”Guha説。“如果公平支付工人,他們會更投入工作,最終結果就是更好的數據。”
與此同時,超過3萬名受過學校教育的年輕女性正在與Karya合作,幫助收集“性別有意識”的數據集——比如醫生或老闆並不總是男性——用六種印度語言為比爾及梅琳達·蓋茨基金會工作。這是印度語言中最大的這類努力,將作為一個語料庫,用於構建減少LLM中與性別相關偏見的數據集。Karya並不止步於印度。該公司表示正在與非洲和南美的組織就出售其平台作為服務進行談判,這些組織將進行類似的工作。
在培訓中心的Shambhavi.S。攝影師:Samyukta Lakshmi/Bloomberg目前,班加羅爾西南另一個村莊Yelandur的婦女們正急切地等待Karya的下一個項目:從卡納達語音頻錄製轉錄。其中之一是25歲的Shambhavi S.,她在家裏安靜地工作,給公婆做完晚飯,哄好孩子睡覺後,從之前的任務中賺了幾千盧比。
“我不知道什麼是人工智能,我從未聽説過,”Shambhavi説。“我想賺錢並教育我的孩子,讓他們學會如何使用它。”訂閲 印度版新聞簡報*,Menaka Doshi撰寫——這是對新興經濟強國、其崛起背後的億萬富翁和企業的內幕指南,每週發送一次。*