AI算法撐起市值,快手如何管理視頻?_風聞
谭婧在充电-谭婧在充电官方账号-偏爱人工智能(数据、算法、算力、场景)。-2021-02-05 14:01

原創:譚婧
無視頻、不娛樂,視頻審核要排隊。
管理員説:“此山是我開,此樹是我栽,要想從此過……”
機審、人審、再加舉報審核。
一審、二審、三審、四審。
審核決定一個視頻平台公司能不能活,也決定它會不會死。
話説,B站也曾被請去喝珍珠奶茶。

AI技術對於視頻審核的意義,很大一部分是減輕人類審核的工作量。
視頻,按其體量可被視為工業界最大的業務場景之一。
參考愛奇藝官宣每天大概產生的數量規模,主頁頻道的內容規模,上千。PGC內容。上萬,UGC內容,上百萬。
參考阿里巴巴資深算法專家王曉博公開演講:“只要視頻平台開放了UGC上傳口,每天百萬級數量級上傳量,擋都擋不住。”
快手名場面,鼠年春節達3.2億日活躍用户的峯值,牛年春節更加牛(多地倡導,原地過年)。
優質崗位常年空缺,視頻審核大師廣告文案如下(假想版):
“一月3休,每週300小時強制工時,每天只需要工作到凌晨3點。”
如今,AI技術在快手“審核”環節用得最廣,審核要求非常高,比如鑑黃。

如果AI看不懂視頻,審核工作全部歸人類,這是一樁嚴重違反《勞動法》的慘案。
視頻平台都有審核中心,TikTok也曾設有海外審核中心,2020年5月在美國加州總部設立一個名叫“透明中心”的部門,實則是審核中心。這裏都是勞動密集型辦公,光靠人力不夠。
審核大師手捏泰國船票,正準備收拾個人物品跑路,AI就上崗了,一插電,審核數量級從十萬飆升到十億。
彈幕飄過:“好開心,謝謝你。”

一、AI審核看不懂視頻,就會“誤傷”。
誤傷什麼,都不能誤傷長腿美女。科學講解現在開始,比如,某天,長腿美女的比基尼視頻被低俗惡搞了,數個小時內上傳量激增。廣大網友到處求資源,“好人一生平安”。
熱度過高,視頻審核怎麼辦?“長腿美女比基尼專項整治工作小組”在一片祥和安寧的氣氛中組建。
要麼,把所有含有比基尼三點式泳裝的相關視頻都召回,一刀切。結果使得召回視頻大部分是不相關的,把維密天使、海景Vlog、游泳教學、港姐選美的視頻都錯誤召回了。
BGM播放:“哦漏,哦漏,哦漏漏漏漏。”
要麼,用技術手段精準地找到不雅視頻,再把不相關的給人力處理。
最後,清點全部召回的視頻,評估有多少錯的,多少對的。正確率越高,説明算法越精準。
快手審核負責人:“哦耶,哦耶,哦耶耶耶耶。”
視頻審核也要對文本、語音、圖像、視頻等(不同種類的多媒體)進行統一搜索。
“跨界”從多種媒體中,找出長得像的作品,既能“查重”,還能打擊“洗稿”。
比如,“六神磊磊”講金庸的文字原稿,常常被“搬運”,改頭換面,就成了“歷史故事”短視頻,還有一堆不明真相的羣眾點贊。
審核低效,速度就會很慢,熱點流量的高峯來臨,就無法處理。
快手審核大師説:“我終究沒能飆得過那輛寶馬,只能眼望它在夕陽中絕塵而去,不是引擎不好,而是腳蹬子壞了。”
再看看高德地圖:“沒有AI,就沒有路了。”
於是,AI算法工程師狠狠心,訓練人工智能“看懂”視頻。
二、AI看懂視頻很難,關鍵在於看懂到什麼程度?
比如,破格公主姚安娜在快手跳了一段現代舞。
AI讀懂(字幕、彈幕、廣告標語、標題),聽懂(樂曲、歌詞),看懂(姚安娜,她在跳舞,在家裏跳舞)。
姚安娜情緒很積極,可惜,輿論情緒很負面。
評論一:“跳得好不好不説,有一種有錢人的自信。”
評論二:“這水平,過年給親戚表演的感覺。”
AI順手完成一道附加題,搞懂了羣眾對公主跳舞的態度。

比起AI看懂破格公主姚安娜的照片,AI處理視頻是關注整條視頻的信息,不像傳統方法關注的是圖片(照片)的信息,視頻信息量更大。
將二維圖片信息升維了,增加了時間序列信息,既一脈相承,又有技術創(nan)新(ti)。
再比如,愛奇藝的AI技術如何看懂視頻?
仔細看,在播放進度條橫線的上方,AI畫了波浪線,把視頻裏精彩的部分標註出來,叫做視頻highlight。

AI能畫出“潮漲潮落”,證明AI知道哪裏是“高潮”,而且還有時間“印記。
問題一:為什麼快手AI認識姚安娜?
人臉識別在警察叔叔那裏抓嫌疑犯,在視頻中就是識別演員,或者給演員換臉。
比如愛奇藝APP的“只看他”功能早已上線,愛奇藝等長劇場景非常需要,短視頻業務裏就不是剛需。
只看《如懿傳》周迅的片段,只播放進度條中周迅的片段。計算機先把視頻切分了,按段分析。
在長視頻裏,技術實現並不難,就是花多長時間找出來。
問題二:為什麼快手AI讀得懂視頻裏的字?
OCR一般用於發票信息識別,在軟件中一鍵識別,發票號碼,消費金額等信息,RPA機器人還能做到一鍵填入。
OCR來到視頻的世界,不僅希望能看懂視頻中的每個字, 也希望能理解它們的類型、重要性和邏輯。
姚安娜的視頻只是其中一個,視頻平台要管理億級視頻的“大倉”,系統要能給視頻分類。
分類也是在理解的基礎上進行。這裏就不得不補一段“標籤的歷史”。

視頻理解過去主要是標籤,現在是顆粒度更細。標籤分為,內容標籤和類型標籤。
內容標籤是對文本、圖文或者短視頻等內容的表徵。
表徵,就是用一些關鍵詞或者是短語來表達對應的內容是什麼含義“萌寵”與“萌娃”就是兩種不同的萌物。

內容標籤,是根據內容生成標籤,換句話説,有什麼樣的內容就有什麼樣的標籤。標籤的集合是開放的。
類型標籤,是一個分類體系,就是把不同的內容分到不同的體系下面,這個分類體系是預先定義的,比如“影視”與“動漫”。
以前做到,軟件快速為快手視頻生成熱門內容標籤,解決快手視頻關鍵詞無法露出的問題,但對於細粒度結構分析則較少。現在,快手用視頻理解技術關聯,能把視頻關聯到相關視頻。
快手後台審核人員做什麼呢?他們忙着給訪問量高的視頻打標籤,關聯到熱點。
姚安娜跳舞的視頻,也會被打標籤。
安防視頻很多都是無聲的(無拾音器攝像頭),而娛樂視頻裏信息量很大,人臉、商品、物體、人物行為、地點、文字、歌詞、對話、時間。
線索越多,難度越大,那怎麼辦?
答案:多模態聯合建模,用好視頻裏一切可以利用的信息。
媒體內容包含多種形態,比如視頻、圖片、聲音、文字等等。
技術小哥哥敲黑本:綜合使用這些媒體形態的技術,叫做多模態技術。
AI媒體內容生產,就是自動、批量地生產這些不同模態的內容。從1970年代起步的多模態學習,英文全稱 MultiModal Machine Learning (MMML)。
經歷了多個發展階段,現在全面進入深度學習的階段。
圖像、視頻、音頻、語義之間的多模態學習比較熱門。

比如互聯網大型視頻平台,快手愛奇藝優酷騰訊,都會將多模態技術用於視頻理解業務,可以加視頻封面,視頻抽幀,加文本信息融合,比如做視頻分類,視頻質量評估。
歡聲笑語中,AI默默接手海量視頻管理,撐起快手視頻億級估值。

三、AI技術處理圖片是主流,AI處理視頻,仍然力不從心。
在國內,算法推薦內容方面最典型的公司,是今日頭條、抖音和快手。
幾年前,2018愛奇藝世界大會上,CTO劉文峯説:“私人影院的觀看時長因為有了智能推薦提高了15%。”這告訴我們推薦也是AI技術的基本功。
AI審核和推薦都及格了,但是,特效和剪輯,AI依然力不從心。
B站兩個鎮站之寶, “鬼畜”與“踩點”。
踩點之王“改革春分吹滿地,中國人民真爭氣”。剪輯大師把趙本山台詞拼出來,把對應的幀找出來,湊上畫面,配上音效。彈幕飄過:“再來億遍“停不下來”屏幕背後,笑出豬叫聲。
在快手科技,多媒體內容理解部門(MultiMedia Understanding,MMU),有一種工程師的崗位,叫做多模態內容創作算法工程師。
崗位職責上面寫着:“對海量多媒體素材(如圖片、視頻、文本、音樂等)進行深入語義理解,在此基礎上進行素材打散、內容匹配和智能創作,形成多樣化高質量的內容,服務於智能廣告生成、視頻智能混剪等方向。對無監督學習、搜索、強化學習、GAN、圖形學等方向有深入瞭解者優先。”
這一崗位,北京、杭州、成都都有。
巧了,《親愛的數據》有一位朋友在快手做AI算法工程師,偷看了一眼“Offer Letter概覽”,每個月基本薪資25000元,還不算公司估值對應的長期激勵。
快手MMU張德兵在知乎中談道:
“(MMU嘗試的十個方向)未來可能會誕生一個AI,它可以藉助全網的信息跟你溝通交流,模態不限。不僅能充分理解你,而且可以用最直觀易懂高效的方式給你傳遞各類信息,潛在對於資訊、娛樂、教育、商業等眾多行業都產生非常大的影響。”

與此同時,在字節跳動,智能創作圖像組也做這個特效方向。
計算機眼裏,視頻中有很多“幀”,理解視頻,從幀入手。
一個視頻大概抽幾幀,關鍵幀裏有什麼樣的人物、場景、動作、情緒、服裝、化妝、道具,將視頻分解成為更小的顆粒去理解。
再説智能首圖功能,幾乎所有頭部視頻平台都有。
“封面”可以就是“一幀”。能做到輸入一段視頻用算法解析視頻,輸出視頻封面,還可以給不同用户剪出定製封面。
遊戲向多模態技術,拈花一笑。

騰訊多媒體實驗室,開發了一套《使命召喚手遊》視頻智能剪輯工具,想推廣到超大規模視頻剪輯中。
技術也很硬核,有通用視頻理解框架,還用到了時序動作分割與文字識別等技術。

騰訊遊戲和快手有啥關係呢?遊戲直播等來源於遊戲的視頻是快手等視頻平台內容原料之一。
總之,視頻審核,離不了AI。
AI技術想徹底搞定視頻,難度非常大,現實場景比學術場景複雜得多。所以,放鬆一下,慢慢來吧。
日本社畜有一句話:“事情做不完就明天再做吧,運氣好的話,明天死了就不用做了。”

最後,放下那段搞笑片,有事衝着AI來。
(完)
