AI數據也要緊跟MLOps,那個把標註精度提高到99.99%的公司又出手了_風聞
量子位-量子位官方账号-2022-09-21 18:32
夢晨 發自 凹非寺
量子位 | 公眾號 QbitAI
當IT行業改變整個世界的時候,DevOps理念從大量產業實踐中誕生。
如今AI也進入產業化新時代,繼承者MLOps或者叫AI工程化也越發火熱。
Gartner諮詢公司將AI工程化列為2022年十二大戰略性技術趨勢,IDC則預測到2024年60%的企業將MLOps用於機器學習工作流。

****△圖源:ml-ops.org
這一波浪潮之中,算法的工程化一如既往的跑在前面,模型的自動部署、持續訓練甚至AutoML都有較大進展。
與之相對的是,數據的工程化稍顯落後。
對此,一直呼籲建設“以數據為中心AI”的吳恩達,今年初在接受IEEE Spectrum採訪時也喊出新的口號:
AI要從大數據轉向高質量的小數據。
吳恩達認為,對於數據中存在的噪聲,通常做法是隻要量足夠大就可以讓算法對其做平均處理。
但這樣做不僅限制了算法的能力,有些場景如工業質檢、罕見病等更是根本湊不出一個大型數據集,精心標註的高質量數據就成了關鍵。

實際上,除了碎片場景之外,如何高效構建高質量數據集也是全行業共同面對的問題。
AI工程化的大背景下,新一代數據標註與管理方法也從實踐中逐漸誕生。
最新解決方案來了
雲測數據,一家以“將數據標註的最高準確率提升到99.99%”而聞名的AI數據服務公司,率先推出**「面向AI工程化的新一代數據解決方案」**。
方案不僅包括標註數據、管理數據所需的平台工具,還涉及管理體系以及數據安全,總共三個方面。
平台工具方面,除了基礎的標註工具、API集成能力,還有數據流轉產線工作台和數據產能管理體系。
管理體系方面,分為人員管理和項目管理兩部分。
數據安全方面,則從硬件安全、網絡安全、物理安全和人員安全管理4個角度提供保障。

為什麼是這三個方面?雲測數據總經理賈宇航從AI工程化時代的不同特徵進行了分析。
算法進入持續優化期,此時數據也要從瀑布式流轉過渡到持續流轉。
在算法預研期只需要基礎數據集就能滿足需求,針對實際業務場景的算法研發期則需要數據採集、清洗、標註等一系列定製化服務。
算法進入持續優化期,情況再次發生變化。
生產環境的迴流數據需要持續標註用於迭代,使算法越用越智能;標註數據需要流轉至仿真平台用於算法評測,提高重複利用價值;自動化流程中又需要輔以人工檢查糾正,降本增效。
雲測數據新一代解決方案中基於這些需求打造了數據處理工作台,支持持續任務處理、人機協作,同時以標準API接口與各類系統對接,將AI數據訓練過程中的綜合效率提升200%。

算法落地到實際場景中,而高質量的場景數據需要標註人員有領域專業知識。
舉例來説,前一陣谷歌的文本情感數據集GoEmotion就被一位機器學習工程師Edwin Chen指出有30%標註錯誤,他分析問題出在谷歌請的印度員工不瞭解美國本土互聯網文化。
像這樣的問題,在知識門檻頗高的金融、自動駕駛等領域場景中也有可能發生。
對此,雲測數據推出數據服務體系。其中人員管理體系涵蓋招聘、業務培訓,以及自動駕駛、智慧金融、AIOT等重點行業的領域知識培訓。項目管理體系則以標準化的流程把控數據質量,將數據標註最高精度提升至99.99%。

最後,算法深入到實際業務中,數據安全需要得到保障。
雲測數據推出安全交付體系,全方位保障數據安全和風險治理,同時滿足ISO27001和ISO27701標準。

新一代數據解決方案,如何煉成?
雲測數據是AI數據服務領域的領先者,憑藉在產品、服務、技術研發等方面的綜合實踐,已連續三年被評為行業第一,具備豐富的研發及產業化服務經驗。

技術能力方面,去年雲測數據先後發佈雲測數據標註平台、AI數據集管理系統等技術成果,率先形成AI訓練數據的“採、標、管、存”一站式服務,實現從“數據原料”到最後的“數據成品”全鏈條打通,輸出完整的數據價值,其中更是將數據標註的最高準確率提升到了99.99%。
又經過一年的打磨完善後,雲測數據標註平台&數據集管理系統在工具豐富性與易用性得到升級,並且與各種類型企業系統對接的能力得到增強,整合到最新解決方案裏。

行業經驗方面,雲測數據提供多維度、場景化的數據服務與策略,多年來服務於汽車、安防、手機、家居、金融、教育、新零售、地產等行業,滿足AI應用在數據質量、數據豐富度、數據時效性等方面的需求。
另外正如MLOps繼承自軟件行業的DevOps,Testin雲測結合自身優勢,將軟件測試業務上10多年ToB服務經驗也遷移沉澱至雲測數據的AI數據服務中,提質增效的作用十分顯著。
到如今,隨着智能化轉型的逐漸深入,雲測數據的服務對象已擴展至各行各業,正是在大量實踐與不斷探索中,AI數據服務所需的方方面面被雲測數據掌握、整合,最終沉澱成新一代數據解決方案集中發佈亮相。
而隨着新一代數據解決方案的發佈及雲測數據背後更多動作佈局,給AI數據服務行業本身也帶來一些改變。
雲測數據,帶來什麼改變?
先看雲測數據給服務對象帶來的改變。
以自動駕駛行業為例,首先是一站式解決自動駕駛領域多場景的數據採集的需求,包括智能駕駛主流應用場景。通過雲測數據的DMS與ADAS場景搭建採集能力,來減少數據採集週期、提升數據質量。
接下來,通過數據標註平台來解決包括2D標註、3D點雲標註、2D/3D融合標註、語義分割、目標跟蹤等等數據標註需求,同時標註&管理平台支持與企業完成訓練、仿真等系統集成。
數據不必再按批次來回傳輸,實時處理的同時節省大量時間和成本。數據不出企業內網就能完成流轉,同時也支持專業標註員駐場作業,在保證數據安全的基礎上,有效降低信息傳遞損耗,同時兼顧標註作業效率和質量的提升。

據賈宇航透露,以某自動駕駛相關企業為例,原來要花一週時間的AI數據工作,對接新一代數據解決方案後效能至少提升2倍以上。
憑藉這樣的能力,雲測數據與行業內包括自主、合資車企,大型Tier1、Tier2,以及無人出租車等眾多自動駕駛企業建立了持久良好的合作關係。

效率的提升同樣體現在零售貨檢行業,通過雲測數據標註平台將貨櫃檢測數據持續迴流,基於算法預標註結果進行可視化審查並修改,與純人工標註效率提升3倍。
而在金融領域,通過雲測數據標註平台及集成算法API可進行金融票據標註,通過離岸的安全房進行標註,在保證質量和效率的基礎上確保數據隱私安全。
另外還有建築行業也可以通過雲測數據標註平台對生成建築CAD圖紙進行審查校驗。
雲測數據深度合作伙伴覆蓋了汽車、手機、工業、家居、金融、安防、教育、新零售、地產、生態系統等行業。這其中包含眾多世界500強企業、高校科研機構、政府機構,頭部AI企業和大型互聯網企業覆蓋率超90% ,涵蓋了計算機視覺、語音識別、自然語言處理、知識圖譜等AI主流技術領域。
與此同時,雲測數據對AI數據服務行業自身的探索也在持續進行。
比如作為人工智能數據服務領域代表廠商,參與信通院牽頭的全球首個MLOps模型開發管理標準,以數據標準化助推AI落地。
最新能透露的一條進展是, 雲測數據正與雲服務廠商合作,探討延展數據服務的邊界。
參考資料:
[1]https://spectrum.ieee.org/andrew-ng-data-centric-ai
[2]https://www.surgehq.ai/blog/30-percent-of-googles-reddit-emotions-dataset-is-mislabeled