人工+自動化,數據標註最嚴峻的時刻要到了_風聞
互联网那些事-有态度 够深度11-09 13:56
大模型搬上台面之後,數據標註領域也開始變得熱鬧。
這種熱鬧,更像是第三方服務公司單方面的“狂歡”。因為2017年的人工標註師風口已經過去了,例如做文本標註的人員,現在越來越少,部分標註團隊圖像標註的流動率高達30%也已經是常態,有時候就連語音、視頻標註都是常年對半開。
因為在當下的數據服務市場中,數據方少,數據標註的需求小,供大於求的情況嚴重。
直白一點來説就是,新入行的公司是很難找到可做項目的,哪怕是有小項目可接,利潤空間也不會太高,這也就導致在工資低的同時項目趕,於是可能導致短時間內工作量又非常的高。
最誇張的是什麼?因為門檻足夠低以及數據標註與AI之間的聯繫,想要進入數據標註市場的人絡繹不絕。
但在微調前的數據標註,其實就是一個數據流水線,枯燥,重複,機械。
網友也曾將數據標註比做舊社會拉黃包車的苦力,甚至可能還會和外賣騎士、快遞小哥差着好幾個段位,收入更是難望其項背。
於是,網上各大平台只要提起數據標註,一定是批評貶低佔8成,誇這個行業的人只佔2成。而大多誇讚的是因為握住了風口,但如果你在評論區建議別人去幹標註,那你一定會被罵的狗血淋頭。
數據來源:職友集
不過更有趣的是,隨着自動化標註成為可能,不光個人標註師罵,就連標註師團隊也在罵。
原因在於,互聯網大廠不僅將數據標註納入自己的業務範圍,為了將性價比作為噱頭,也在不斷地比拼成本。
一、數據標註現狀:低需求,高供應
某種角度上來説,數據標註行業實際上就是一個資源行業,類似於包工程,誰家能包下合適的工程就賺錢了。
但前提是得能結了款,另外賺多賺少全看人力成本了。
所以先是對於大多數,很難接到大單數據標註訂單的第三方數據服務公司而言,如果再把數據標註任務轉手交到數據標註師的手中,那麼到手薪資低已經成為普遍的現象。
往深一點來説,市場環境差的很大部分原因,其實是因為第三方數據服務公司的“免費外包行為”。
利潤層層遞減,導致底層人員賺不到錢,瘋狂的在互聯網上吐槽這個行業。
還有更慘的,運氣不好的時候還會遇到數據標註公司白嫖數據跑路的。在你沒有太多標註經驗的時候,承諾不需要你交任何的費用,就能獲得數據標註任務。
基於沒有成本負擔,也就放鬆了警惕,哪怕是第一次數據標註不合格,你也會因為付出了第一次的努力,進而二進二出,甚至三進三出。
結果發現,不是用甲方不滿意為藉口拒絕給你打錢,就是直接消失。
但無論是以上何種結果,歸根到底都是因為大量數據標準員,沒有積累良好的數據標註渠道,進而被不靠譜的數據標註公司所欺騙。
如果換做是自己帶團隊做數據標註,遇到數據標註公司跑路的情況,結果只會更慘不忍睹。
不過對比實體行業的投資以及競爭力度,數據標註遠遠優於實體行業,利潤的確是低,但仍然是有利潤可言的。
據統計,2021我國人工智能數據標註市場中,計算機視覺類、智能語音類和NLP類需求佔比分別為45.3%、40.5%和14.2%。
但如果想要提高數據標註任務的穩定性,那必然需要尋求更好的出路。例如免費外包這條路跑不通,那麼就採取收費的形式。
另一方面,提高對標註師的學歷要求。不過,人才的進入也取決於企業是否存在利潤空間。
歸根到底,個人人工標註師或是人工標註團隊,想要在人工標註數據服務領域獲取利潤,其實是很難的。
因為從長遠的維度來看,只要智能化未達標,那麼數據標註就一定是一個長期的過程。在算法逐漸複雜化以及人工標註成本之下,自動化標註自然會成為行業追求。
更何況,是在算力環節廠商以及大模型廠商同樣想要瓜分的領域。
二、人工數據標註,被市場踢出局?
站在各大廠商的角度,有了技術紅利之後進入數據標註領域,他們還能釋放一部分成本優勢給客户,降低單位數據標註任務的價格。
總的來説,行業從勞動密集型向技術密集型轉變是一個必然的過程。
一方面,不同於傳統深度學習算法,大模型場景下數據處理流程中,在數據需求量最大的預訓練環節,使用的多是無標註或弱監督標註數據。
更多的人工標註需求出現在預訓練環節之後的微調(SFT)以及基於人類反饋的強化學習(RLHF)階段。
微調和對齊時,人工標註的質量會極大影響模型在生成內容時的智能水平,這對人工標註的數據質量提出了更高的要求。
簡單來説就是,在微調階段的標註師,是需要體系內的業務專家們去標註金融相關的數據。
比如早期單純只標註“語音轉寫文本”的相對簡單的作業要求,現在已經增加了很多其他維度,比如對於聲音邊界的精細度的要求,以前要求的可能是粗顆粒度,但現在動輒要求精確到毫秒級。
比如出於對安全考量,車企對數據標註的準確度要求通常在99%以上,這實際上也大幅提高了對數據服務商的要求門檻。
再比如對於在語音中出現的各類不同的其他聲音的標註,以前可能只需要標註出來某些噪音,現在的要求則可能是還要對噪音進行更多維度的分類。
更進一步來説,隨着語音數據量的日漸增多且複雜,對人工標註也存在高強度。
另外,在醫療領域從事傳統和常規的工作,固然也是很多人夢寐以求的,但同領域的數據標註,也同樣潛力巨大。
據媒體報道,截至今年3月,百度山西人工智能數據產業基地中,就擁有超過3000位標註師,主要涉及自動駕駛、人臉識別等內容標註,其中86%的員工為90後;字節跳動在北京、天津、濟南、武漢各地,也招募了4萬名數據標註師;騰訊更是直接把平台放到了線上,讓標註師變成了一種“全民兼職”,稱為“眾包”。
可以預見的是,在未來更多更廣闊的垂直領域裏,有專業經驗、並且熟悉數據標註工作的人羣,都將是亟需的人才。
不過,也僅限於真正擁有專業經驗的技術人才,以及自動標註之後的審核崗位,但需求有限。
三、自動化標註進入淘汰賽?
在大廠入局之下,不只是數據標註團隊,那些單純依靠人工標註的企業也很難存活。原因在於,今年數據標註市場或許會加速向技術型玩家集中,市場正開啓淘汰賽。
最簡單的理解是,由於看中了大模型訓練的算力市場,不少模型提供商提供了AI訓練全家桶,數據標註被納入了大廠的服務範圍,這可能正加劇行業的競爭。
不過從另一方面考慮,即便大廠內部建的數據標註平台,因為很難應對市場多樣化的數據標註任務需求,而存在侷限。
但最初被劃為算力環節的企業,也一樣會對自動化標註虎視眈眈。例如,原本處於數據服務下游的算法研發平台及科技企業,自身也在嘗試把大模型技術用到了自身的數據標註場景。
今年4月,海康威視在一季度的財報電話會上向投資者答疑時也提到,他們也在將自研AI技術用到自動化標註場景。
原因在於,此前被行業裏劃為應用開發或算法研發環節的海康、商湯等企業,現在他們也需要一些智能化工具和應用來提升數據標註效率。
而商湯科技就是最好的例子。目前,商湯科技在自動駕駛場景基於視覺大模型技術,降低了人工數據標註的數量,大幅提升了數據標註效率。
隨着機器學習模型的發展,自動化數據標註的準確性提高,可以使用模型來輔助人工標註,比如模型預處理數據再發送給標註師,或人類作為審核員,審核並糾正模型給出的標註結果等等。