AI盈利的秘密在於僱傭更多的博士 - 彭博社
Saritha Rai
十幾位數據專家在不丹的廷布科技園的辦公室中完善人工智能模型,時間是在十月。
攝影師:Saritha Rai/Bloomberg在不丹這個小王國,十幾位數據專家在雄偉的喜馬拉雅山峯環繞的辦公室中完善人工智能模型。iMerit的員工並不是在訓練AI進行諸如識別“窗台上的棕色貓”這樣的基礎任務。相反,他們在教算法人眼的解剖結構或如何檢測地理空間地圖的變化。
在三位硅谷億萬富翁的支持下,iMerit是越來越多的公司中的一部分,這些公司正在構建更復雜、可盈利和可靠的AI版本,這個行業預計到2030年將為全球經濟增加近20萬億美元。隨着模型變得更加智能,大型企業越來越希望利用它們的力量來完成高度專業化的任務,催生了數十家致力於跨金融、醫療和國防等行業定製應用的數據服務初創公司。
這關係重大。儘管人工智能熱潮席捲硅谷,但人們仍然對這項技術是否真的足夠有用以至於全球企業願意為其支付費用並確保AI模型開發者能夠盈利存在疑問。當然,英偉達公司通過銷售AI芯片成為了世界上最有價值的公司。但該公司的最大客户,包括微軟公司和谷歌公司,仍然因構建更先進的AI系統的巨大成本而虧損。
拉達·巴蘇,iMerit的創始人兼首席執行官,將其與構建互聯網、手機和其他現代技術平台的軟件編碼員進行了類比。“我們是人工智能革命的編碼者等價物,”這位正在準備籌集下一輪資金的白髮企業家説道。
在不相關、敏感且有時危險的行業中使人工智能達到高級水平並不容易。這項工作需要一支深厚的人類專家團隊,他們願意在日常工作之外,通過培訓和改進技術領域的模型來貢獻力量。
iMerit在不丹廷布的辦公室,拍攝於十月。攝影師:薩里莎·賴/彭博社在肯尼亞,一家初創公司正在開發技術,以掃描灌木叢尋找偷獵者的跡象。在哈薩克斯坦,醫學專家正在教模型識別肺癌的早期階段。在印度、韓國、越南等地,時薪65美元的語言學家正在幫助模型掌握英語以外的語言。
在iMerit,這裏僱傭了5000名員工,分佈在不丹、印度和新奧爾良,23歲的耶希·旺莫來自一個農民家庭,花了多年時間掌握一項單一任務:正確識別廣闊玉米和棉花田中的雜草和碎片。旺莫和她的同事們身穿色彩斑斕的不丹傳統服裝gho和kira,幫助像藍河科技這樣的公司(德爾公司旗下的子公司)構建算法,提高噴灑農藥和肥料的準確性,減少使用量多達90%。
“我們看到公司正在解決更高級但也越來越小眾的問題,”數據標註解決方案公司Datasaur Inc.的創始人兼首席執行官Ivan Lee説,該公司的客户包括Netflix Inc.和FBI。“客户可能需要在坦桑尼亞長大的牙醫或來自法國的建築師,”Lee説,他的團隊主要在印度尼西亞工作。
數據準確性是他們工作的指路明燈。當ChatGPT在兩年前推出時,批評者迅速指出該平台的缺陷和失誤。從那時起,許多人類專家被聘請進行質量控制。這項工作非常繁瑣。像Wangmo這樣的數據標註員仔細審查掃描件、照片、視頻和文本,以準備AI模型。目標是改善訓練於龐大數據集上的生成AI系統,以分析或創建新內容。完善它們消除了AI潛在能力與其在現實世界中實際表現之間的差距。
Yeshi Wangmo花了多年時間掌握正確識別廣闊玉米和棉花田中雜草和碎片的技能。攝影師:Saritha Rai/Bloomberg根據研究公司PMI Cognilytica的董事兼總經理Kathleen Walch的説法,這種專業化在處理軍事情報等高風險行業中越來越關鍵。
這種工作的低級版本並不新鮮。數據服務行業大約在二十年前開始。當時,生活在菲律賓和印度等地的標註員主要標記小數據集,這些數據集支撐了例如語音助手或購物網站上的搜索引擎的語音識別。批評者擔心AI已經創造了一個可被利用的底層階級,指出該行業某些領域的工資徘徊在每天幾美元左右。
但隨着多年來人工智能的進步,許多簡單的工作現在已經實現自動化。需求已經轉向招聘專家,並支付更高的薪水和費用,儘管這些仍然遠低於硅谷數據科學家的薪酬套餐。
印度的一名放射科醫生訓練人工智能模型,可能會獲得100,000盧比(1,200美元)的報酬,工作幾個小時,Indika AI的創始人兼首席執行官Hardik Dave表示。這位承包商的平均月收入大約是這個的三分之一,他説。
如今,提供標註服務的初創公司吸引了知名投資者。今年夏天,最大的參與者Scale AI從Meta Platforms Inc.和Amazon.com Inc.籌集了資金。該公司的估值接近140億美元,已經超過了Mistral和Cohere等知名人工智能模型構建者的數字。在2023年,紅杉資本的前50家人工智能公司名單中有四家標註初創公司,較去年僅有一家有所增加。一家公司Labelbox得到了Andreessen Horowitz和Kleiner Perkins的支持。另一家公司Snorkel AI則由Alphabet Inc.的風險投資部門資助,估值為10億美元。
Scale AI的聯合創始人Alex Wang(左)在7月的Allen & Co.的陽光谷會議上。Scale AI從Meta Inc.和Amazon.com Inc.籌集了資金。攝影師:David Paul Morris/Bloomberg更廣泛地説,數據標註市場的估值在2024年接近200億美元,預計到2030年將以每年約20%的速度增長,根據總部位於舊金山的市場研究公司Grand View Research的報告。
失誤的後果也更加嚴重。一個標記錯誤的框架可能會讓企業損失數百萬美元,招致訴訟甚至 導致死亡。癌症掃描的人工智能工具或自動駕駛汽車是兩個敏感領域。
“不夠準確的人工智能可能會失控,”洛斯加託斯的Sama首席執行官温迪·岡薩雷斯説,她的客户包括 福特汽車公司 和 沃爾瑪公司。“企業無法承受這樣的損失。”
考慮一下馬薩諸塞州總醫院與Centaur Labs之間的合作,這是一家擁有50,000名自由職業者的數據標記初創公司,分佈在包括美國、哈薩克斯坦和越南等國家。
近年來,總部位於波士頓的Centaur Labs改善了醫院使用的產品,逐漸引入更高技能的數據專家。有些與日常疾病相關。(該初創公司正在開發一個打鼾檢測算法和一個用於睡眠呼吸暫停的應用程序。)其他則涉及更復雜的主題,例如開發能夠更精確識別CT掃描中肺結節的人工智能。上個月,該初創公司宣佈獲得來自Accel、Y Combinator等的資金注入。
哈薩克斯坦的放射科醫生波利娜·皮柳斯負責Centaur Labs的一家承包商的團隊,她表示,工作越來越專業化。她説,如今,僅僅檢測肺結節已經不夠。客户越來越希望獲得減少假陽性數量並跟蹤結節隨時間增長的專業功能。在不降低標準的情況下降低風險是最佳選擇。
“醫學數據標註是一個複雜的過程,不能容忍匆忙、無能、粗心或過度削減成本,”Pilius説。
Polina Pilius,哈薩克斯坦的一名放射科醫生,負責Centaur Labs的一個承包商團隊。來源:Polina Pilius儘管可能出現各種問題,人工智能的支持者認為,訓練模型以應對風險行業中的複雜問題總比無所作為要好。他們説,在許多情況下,只有好處。
Labelbox,這家位於舊金山的初創公司,與一家向監管數十萬輛卡車的公司銷售行車記錄儀分析的客户合作。在過去的一年裏,Labelbox的數據專家已經訓練人工智能機器人,使其在監測駕駛員是否疲勞或醉酒方面變得更加專業。一旦檢測到,車隊運營商會被提醒,駕駛員會被聯繫。
Labelbox的首席執行官Manu Sharma表示,這只是一個例子,説明模型不僅僅是在削減成本或提高效率。他説,最好的技術是拯救生命的,而數據標註者正處於推動人工智能能力前沿。
他們正在“創造一個他們的專業知識更易獲得並可以應用於造福社會的世界,”他説。