專訪李兵:他堅守的跨模態視頻搜索正在爆發
李兵説,通過創業,能夠跟一羣志同道的合作伙伴,讓技術真正實現產業落地,是他認為最有價值的事情。隨着跨模態視頻搜索爆發,很多藍海市場等待着人民中科去挖掘,他對未來充滿期待和希望。
人民中科董事長李兵喜歡看《阿甘正傳》,每年他都會回看幾遍這部影片,阿甘的那份耐力和執着一直吸引着他。
現實生活中,李兵也經歷了一場“阿甘式”創業。從求學到科研、再到創業,他已經在視頻內容理解與安全領域堅守了十三年。
CNNIC發佈的2022年《中國互聯網絡發展狀況統計報告》顯示,截至2021年12月,在網民中,網絡視頻、短視頻用户使用率分別為94.5%和90.5%,用户規模分別達9.75億和9.34億。
近10億視頻用户正催生了一個新的藍海市場——跨模態視頻搜索引擎。
去年底,人民日報社傳播內容認知國家重點實驗室與人民中科共同發佈面向內容安全的跨模態視頻搜索引擎“白澤”,在業內引起廣泛討論。
面向內容安全,“白澤”結合對境內外多平台內容的檢索,可跨平台實現文本搜圖片、文本搜視頻、圖片搜視頻、視頻搜視頻、圖片搜文字、視頻搜文字等功能。
半年時間內,“白澤”便已經廣泛應用於內容風控、戰略傳播、數字政務等領域。
“白澤”的出現,可謂是恰逢其時,也凝聚着一支中科院出身的技術團隊的無數心血。
不典型的科學家
2000年高考後,李兵離開安徽老家北上求學。在北京交通大學的機房裏,他第一次接觸到了計算機,“那時候進機房要穿鞋套,是一件很“隆重”的事情。”
而在此之前,李兵與計算機科技的世界可謂是兩條平行線。
李兵出生在一個偏遠山區的農村家庭裏,説起自己的童年趣事,李兵笑到,小時候經常會幫父母去放牛、放鴨子,曾有次在小河邊貪玩,結果丟了整整十隻鴨子,被母親追着打,跑了幾里地。村裏小學的泥巴房教室年久失修,在一場大雨過後徹底成為危房,於是全班轉移到附近廢棄的衞生所裏上課,就這樣度過了充滿“消毒水”味道的小學。
從那時起,通過高考走出家鄉,成為李兵堅定的信念。2000年,李兵高考填志願時,家鄉縣城才有了第一家網吧,讓他知道了有個彼時最火熱的計算機專業。
在北京交通大學完成本碩博連讀之後,李兵進入到中科院自動化所,開始做視頻內容理解與敏感信息識別研究。
中科院自動化所,是國內最大的成建制人工智能研究機構。在中科院自動化所進門巨大的宣傳欄上寫着這樣一行字——“打造新時代智能科學與技術的國家戰略科技力量”。自動化所還有一顆耀眼的明珠,那就是成立於1984年的“模式識別國家重點實驗室”,作為第一批國家重點實驗室,主要研究人類模式識別的機理以及有效的計算模型與算法。
今年是李兵在所裏的第13個年頭了,他是所裏年輕的研究員、博導,做研究期間,總喜歡探索一些比較前沿和實用的課題。
2010年,彼時互聯網內容還以圖文為主,音視頻內容由於生產創作門檻較高,而中國的家庭攝像機普及率不如歐美,所以大多來自專業影視製作或者海外內容的引進。但仍然有些包含暴力血腥、恐怖活動及教唆犯罪的視頻開始零星出現,李兵也是從這時開始帶領團隊研究恐怖視頻識別和暴恐視頻分析,為監管部門提供技術支持。李兵回憶道,“那時候為了做研究,曾經集中閲覽過大量恐怖電影和暴力血腥視頻,很多場景至今讓人不願回想。有時想到如果自己的孩子會在網上看到這樣的內容,便難以接受,也覺得自己肩上的擔子更重了一分”。
此後隨着人工智能領域的不斷發展和迭代,他又在多模態識別、跨模態理解、偽造視頻識別等新領域取得了世界領先的科研成果。
李兵形容自己是一個非典型科學家,他一直不希望是“從論文到論文”的學術研究,而是讓研究成果解決實際問題,並落地到產業中去。李兵感慨到,“我們這一代人很幸運,出生在了祖國發展建設的高速期,才能有今天這樣的機會和平台。我也希望能用畢生所學,為社會、為祖國做點實實在在的事。”
真正進入創業,則是一出“千里馬遇見伯樂”的故事。
2019年,計劃佈局內容科技的人民網,與想做科技成果轉化的中科院,一拍即合,世界領先的視頻理解技術啓動了產業化的征程。
成為創業者
2020年,人民中科正式啓動運營。
這樣一家頗具傳奇色彩的初創公司,帶着央媒龍頭和中科院的基因,以攻堅下一代內容認知能力為使命,在各方矚目下,就此揚帆起航。
去年11月,人民中科核心產品“白澤”正式上線,這是成立僅兩年時間的人民中科交出的第一份答卷。
“白澤”的典故出自於中國神話《山海經》中一種“通萬物之情、曉萬物狀貌”的神獸,它知道天下所有鬼怪的名字、形貌和驅除的法術。這是一款跨模態視頻搜索引擎,將文字、圖片、語音和視頻等不同模態信息映射到一個統一特徵表示空間,以視頻為核心,學習多個模態間統一的距離度量,跨越文字、語音、視頻等多模態內容的語義鴻溝,自動關聯多模態間關鍵要素。
“白澤”無疑是跨模態視頻搜索引擎的先行者。但對李兵來説,這是一個長期坐“冷板凳”的厚積薄發的過程。
在圖文為主的互聯網時代,視頻內容安全鮮有人關注,一方面是視頻內容數量不多,互聯網場景也一直都不如安防、工業等領域受歡迎,另一方面,類似色情、暴恐這樣的敏感內容,在學術界關注度較低。李兵和研究團隊在恩師胡衞明研究員的帶領下,率先將色情、恐怖圖像/視頻的識別相關研究成果發表在頂級學術期刊上。
但李兵一直在堅持,用他的話説,無論是讀書還是工作,自己總希望能在一個細分領域裏做到最好。團隊在視頻內容理解領域堅持了二十餘年後,他也終於等到這個賽道的全面爆發。
跨模態視頻搜索正在爆發
真實世界是多模態的,信息往往同時存在於文字、聲音、圖像等多個模態當中。當前人工智能發展迅速,在自然語言處理(NLP)、自動語音識別(ASR)和計算機視覺(CV)各自領域都有重大突破,但這種單一領域的突破仍然有其侷限性,與人類理解模式有着明顯不同。
人類對於真實世界的感知是多模態和跨模態的,為構建能夠“完全模擬人類對於真實世界理解模式”的人工智能,它需要有對多模態數據識別和響應的能力,構建多模態神經網絡。
目前藉助深度學習技術已經能夠有效地對不同模態的數據進行統一的特徵表達,不僅能夠實現不同模態數據的融合,更能夠將不同模態的信息進行相互轉換(例如:文字到圖像,視頻到文字等),從而實現跨模態的智能理解與表示。
因此,跨模態理解可以理解為多模態學習的高級階段。多模態學習的早期是期望實現不同模態間信息的融合,而跨模態則是更進一步實現不同模態的統一表達,從而實現不同模態信息的相互“翻譯”和“跨越”。
李兵認為,人類的大腦是極其奧妙的,例如最早在博士期間,他研究人的視覺認知的四個恆常性,分別是顏色恆常、大小恆常、明亮恆常和形狀恆常。以大小恆常為例,在一張照片上,遠處的大人比近處的小孩還矮,但人們看到照片第一時間,就知道大人實際上遠高於小孩,這是因為人腦對“大小”進行了二次加工。
人工智能可以説是人類智慧的結晶,是對人類自身奧妙的探索與挑戰,這種不斷突破的興奮感與成就感也一直鼓舞着大家。李兵帶領着團隊每年都會在頂級會議和期刊中發表相關學術論文,並獲得了一系列的國內外競賽獎項。2020年更是在恩師胡衞明的帶領下收穫了國家自然科學二等獎這樣的重量級獎項。(編者按:國家自然科學獎,是由中華人民共和國國務院設立,由國家科學技術獎勵委員會負責的獎項,是中國五個國家科學技術獎之一,授予在基礎研究和應用基礎研究中,闡明自然現象、特徵和規律、做出重大科學發現的公民)
根據Cisco VNI預測,隨着未來8K視頻、VR/AR應用及物聯網的發展,全球IP流量將會保持指數式增長。2022年,全球網絡流經的IP流量將超過互聯網元年到2016年底全部32年間的流量總和,視頻、遊戲和多媒體將佔全部流量的85%以上。
數字化時代,隨着視頻等非結構化內容的迅猛增長,迫切需要實現文字、圖片、音頻、視頻的互聯互通。基於單個模態的內容提取及簡單規則匹配的內容分析策略,已無法滿足實際需要。
實現跨模態視頻搜索,需要克服很多技術難題。首先是進行大量的數據訓練,採集跨模態數據,其次是搭建設計神經網絡架構,最後是讓整個模型運轉起來。對企業來説,還需要考慮用最低成本、最高效的方式跑起來。
“以前做科研,是帶幾十個人做項目,現在則需要與幾百個人協同做企業。”李兵需要以低成本和較少的約束條件做出讓用户滿意、市場買單的實用產品。
成立兩年半年,如今人民中科的營收保持了每年近十倍的增長速度,從百萬級營收到幾千萬營收,再到幾億級別的營收。人民中科也在堅持高研發投入,形成一個又長又厚的雪道。從科學家轉變為創業者,既要有能力,也要有情懷。 “眼裏沒有錢,才能掙到大錢”。
“無論任何事情,你能堅持十年下來,感覺肯定是不一樣。”李兵説,通過創業,能夠跟一羣志同道的合作伙伴,讓技術真正實現產業落地,是他認為最有價值的事情。隨着跨模態視頻搜索爆發,很多藍海市場等待着人民中科去挖掘,他對未來充滿期待和希望。