數據標註通通自動化!華為雲AI開發集大成之作ModelArts 2.0發佈_風聞
量子位-量子位官方账号-2019-09-20 13:38
乾明 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
福音。AI開發門檻現在更低。
不用你編碼,甚至無需AI開發經驗。
如今你所需所做:只需標註一小部分數據,然後它就會幫你標註剩下數據,並且自動化完成模型訓練,並且一鍵部署。
在整個過程中,它還能夠實現自動調參,能夠自動debug,並進一步提高模型的精度。
甚至到了模型落地階段,如果開發者遇到難例,還能夠自動幫開發者收集起來,用於進一步自動提升模型精度。
而福音集大成的“它”,就是華為雲最新重磅發佈的一站式AI開發管理平台ModelArts 2.0。
壓軸發佈產品
在2019華為全聯接大會的最後一天主題演講現場,其作為壓軸產品隆重出場。
與此同時,華為豪擲15億美元打造開發者生態的細節也進一步公佈(聽説有羊毛可以薅,見文末)。
和去年華為全聯接大會上首次發佈ModelArts相比,華為雲這次發佈的ModelArts 2.0有本質上的進化——對已有的AI開發模式進行了全流程的極簡和專業升級。
同時,ModelArts 2.0還支持華為自研的世界最快AI集羣——Atlas 900,訓練速度業界第一。
華為雲 EI服務產品部總經理賈永利介紹稱,ModelArts 2.0以全流程的極簡和自動化升級已有的AI開發模式,讓數據準備、算法開發、模型訓練、模型管理、模型推理全鏈條產生質的飛越。
不僅能夠降低初學者的門檻,初學者羣體和龐大的軟件開發者羣體都能快速地把AI用起來。
還能夠大幅提升專業AI開發者的開發效率並幫助模型調優,讓算法工程師、數據科學家們聚焦基礎核心的算法研究與創新。
或許你會好奇,如此產品,實際效能到底如何?是否徒有其表?
我們不妨以AI開發者的身份按照AI開發的步驟展開實驗~
數據處理:自動過濾、自動打標籤、自動評估數據集
處理數據,是AI開發的第一步,也是AI開發過程中非常痛苦的一步。
不僅要篩選數據,還要給數據打標籤,因此也催生了一個新的職業——數據“民工”。
耗時耗力,而且精度難以保證。
這一次對於ModelArts全新升級,華為雲也瞄準了這一痛點,給出了相應的解決方案,即在原有的數據服務基礎上推出了相應自動化服務。
首先,是對數據智能數據篩選,用AI的方式自動過濾和篩選出對訓練模型無效的數據。
賈永利也在現場進行了揭秘,比如在視覺類場景中,失焦、過度曝光的圖片往往不能參與標註;而且,從業務場景上看,有些不符合要求的也不能參與標註。
篩選效果如何?華為雲深度學習架構師白小龍介紹稱,其能夠快速篩選出40%不可用的數據,而且誤篩率極低。
與此同時,華為雲ModelArts 2.0將業界傳統的主動學習進行升級,首次提出混合智能標註技術,可以讓標註效率獲得至少5倍以上的提升。
據賈永利介紹,ModelArts 2.0也能夠基於樣本質量特徵、圖像全局屬性、標註特徵等約20種特性的自動特徵提取能力,幫開發者識別數據間的深層關係,指導開發者對數據進行優化。
最直接的一個應用就是它能夠對不同批次的訓練數據進行整體統籌,也能夠對數據訓練集、測試集的數據特徵分佈進行自動診斷,從而提高模型精度。
模型訓練:自動學習,自動“煉丹”
不僅僅只是解放“數據民工”,這次ModelArts的升級中,對於“開發老手”也可以説是一個福音。
華為雲直接將自動數據增強、超參自動搜索、神經網絡架構搜索等技術進行融合,推出了一個多元搜索技術,不用你人工操作,全都交給AI來做。
賈永利説,這是業內獨創的技術,精度表現上也遠超業界水平。
在大會現場,華為雲專家為在場來賓展示了一個構建細胞發育時期分類模型的例子:
通過多元搜索技術構建的單細胞基因圖譜表達分類模型精度,相對於通過傳統自動學習方法構建的模型,精度提升5.4個百分點,同時模型訓練速度快了5倍。
在展區內,專家們還分享了另外一個例子:ImageNet數據集通過自動搜索,達到76.7%精度只需要600小時,而Google MobileNetV3需要40000個小時。
不過,這一模型在訓練過程中並不僅僅只面對AI初級開發者,在面對更加專業的開發者時,ModelArts 2.0也會提供整個模型訓練過程的“白盒子”,讓他們能夠更有針對性的對模型參數進行調整。
針對更加專注於數據建模和問題解決的資深算法工程師和數據科學家,華為AI計算框架MindSpore提供自動化的並行能力,只需簡單幾行描述就可以讓算法跑到幾十乃至上千AI運算節點上。
而且也能提供強大的自動微分能力,從源碼級別幫助實現微分算子的自動開發,極大釋放專家們的創造力。
賈永利也講述了這背後能量:只需簡單幾行描述就可以讓算法跑到幾十乃至上千AI運算節點上。
以上是MindSpore 2.0自動並行的代碼,僅需設置auto_parallel這一項參數即可將單卡模型自動並行到多機多卡上,華為雲也在現場進行了演示。
同時,ModelArts 2.0內置的MindSpore計算引擎也能夠提供強大的自動微分能力,從源碼級別幫助實現微分算子的自動開發,最大程度釋放專家們的創造力。
以上是MindSpore自動微分的代碼,僅需調用tensor engine的differentiate API即可自動得到反向算子的實現。
此外,華為雲也開放了ModelArts SDK,支持被集成到各類第三方開發環境(例如PyCharm),從而為企業級應用打通開發流水線,支持線上線下協同的開發環境。
模型管理:自動debug調優,自動轉換壓縮
截止到這個階段,開發者基本上就已經能夠擁有訓練良好的模型出來了。
但對於AI開發終點的路程,才行至中途。
接下來開發者需要對不同版本的模型進行管理與優化,然後針對不同的平台對模型進行轉換。
這兩個方面,華為雲都有進行針對性升級。
首先在模型調優方面,對於算法開發人員來説,對模型性能的評估以及調優是一項重要且難度極高的工作。
現在,ModelArts 2.0能夠自動幫助開發者debug調優。
具體來説,華為雲提供了豐富的模型評估、可視化以及診斷能力。而且,評估並不僅僅只是針對模型展開的,而是從數據到模型訓練的整體過程進行評估。
評估之後,ModelArts 2.0也能夠基於評估結果給AI開發者提供模型診斷建議,來幫助開發者持續調優、增強模型。
模型最後完善階段,便是部署了。
但在部署前,還需要針對不同的平台對訓練優良的模型進行轉換。
在這方面,華為雲也進行了提升。同時專家介紹到,ModelArts 2.0能夠在不損失模型精度的情況下,對模型進一步壓縮,從而提升模型在端側和邊緣側部署的能力。
模型部署:自動難例發現,在線學習
最後,模型部署階段,也是通常意義上AI開發進入的最後一個階段。
但飽受AI開發折磨的開發者們都知道,這才是最具備壓力的階段。
因為AI模型要落地,是需要直接提供給用户使用的,換句話説,整個模型接收到的輸入將會呈現各種各樣的狀態。
目前的AI,基本上都是基於數據集的AI。
那麼,數據集之外的數據,模型能否hold住?能否保持在訓練集和測試集上的精度?都是亟待解決的問題。
在這方面,除了雲端實時服務和批量服務、端邊雲協同之外,華為雲ModelArts 2.0也提供了自動難例發現功能。
直接打通了運行態和開發態,讓數據和模型能在線持續學習和進化。
具體來講,如果模型在實際推理的過程中,遇到了新的、且很難識別的數據,ModelArts 2.0就會收集起來,之後再根據開發者需求,基於這些數據進行在線學習,提升模型的魯棒性。
目前,這一功能已經率先在華為雲自動駕駛雲服務Octopus上試運行。
此外,如果開發者模型訓練完畢但並不需要部署,也可以通過ModelArts的AI市場進行模型和API交易。這次的升級中,華為雲在這方面也有新的升級,新增了預置模型二次調優的功能。
最後總結下華為雲ModelArts 2.0的功能全景圖:
有羊毛可薅!豪擲15億美元
如此工具,華為雲沒有藏着掖着。基於ModelArts,華為雲在2019華為全聯接大會期間舉辦了華為雲人工智能大賽·垃圾分類挑戰杯、華為雲人工智能大賽·無人車挑戰杯等賽事的決賽。
在大會現場,賈永利還展示了與上海交通大學聯合舉辦的無人車挑戰賽場景,開發者通過雲側進行開發與訓練,訓練好的模型部署到車上的Atlas 200系列的HiLens Kit,實現車輛的自動行駛。
同時,華為正式對外公佈了沃土計劃2.0的細節。
這一計劃的目標,是在未來5年投入15億美元構建開發者生態。具體扶持資源包括:
鯤鵬開發樣機、昇騰訓練卡、雲服務代金券,OpenLab,培訓與認證服務,開發者大賽,ISV應用遷移技術支持,華為FAE開發支持服務,華為認證,ISV營銷活動與樣板點支持等。
此外,華為也將圍繞開發者學習、產品構建、產品上市三個階段,分別設立LGF(學習成長基金)/PDF(產品開發基金)/MDF(市場發展基金)三類基金。
具體到ModelArts 2.0上,不僅有羊毛可以薅——新用户註冊,可以免費體驗40個小時,華為雲也推出了ModelArts-Lab AI實戰營系列活動,來幫助開發者掌握人工智能實戰技能,覆蓋領域包括圖像分割、姿態識別、活體識別、NLP等等。