知乎CTO李大海:AI是應對內容消費升級的關鍵武器
12 月 7 日,由 infoQ 主辦的 2018 ArchSummit 全球架構師峯會在北京舉行。知乎合夥人、CTO 李大海受邀參會並發表主題演講,分享了知乎在內容平台 AI 應用的創新經驗。李大海表示,新內容時代面臨信息過載及用户內容消費升級兩大挑戰,對於知乎來説,AI 算法技術創新和應用則是應對挑戰的關鍵武器。

以 AI 為武器,應對信息雙重挑戰
李大海認為,近幾年在移動互聯網和科技驅動下,內容平台迎來黃金時代。但也不可避免的,出現很多問題和挑戰,其中就包括:信息過載和用户內容消費升級。
首先,技術的進步讓信息豐富且即時,也讓超負荷接收信息成為一種常態。根據 IDC 預測,全球數據總量預計 2020 年達到 44 ZB。信息大爆炸,讓人們花費更多的精力接收和處理信息,沉澱知識。
與此同時,用户的內容消費升級正在發生。但優質、有用的信息一直是稀缺品,低質、無用的信息卻很容易氾濫。如何大幅度提升優質內容的絕對數量,擴寬優質內容的覆蓋領域,並同時減少低質內容的產生,是內容平台的共同難題。
面對信息過載及用户內容消費升級兩大挑戰,知乎一方面通過個性化推薦和搜索縮短用户和內容之間的距離,讓用户在知乎擺脱信息過載帶來的負擔和壓力;另一方面從內容生產和內容治理等維度入手,加速優質的、稀缺內容的生產,壓縮低質內容的傳播空間。
在具體戰術上,知乎通過問題路由技術實現了快速精準匹配問題與用户,信息流個性化推薦技術則推動了用户便捷獲知感興趣的內容,用户推薦技術基於用户興趣和行為數據強化用户連接,瓦力算法機器人則通過識別不友善、低質內容,營造良好社區氛圍。
連接用户與內容,打造 AI 驅動的智能社區
知乎從問答起步,經過 8 年的發展,已經成為一個綜合性全民知識內容平台,涵蓋 25 萬個話題,2700 萬個問題,1.2 億個回答,月瀏覽量達到 290 億。與此同時,知乎也將技術創新納入核心戰略。據李大海介紹,自 2016 年引入機器學習開始,知乎已經將 AI 算法貫穿到知乎內容與用户的各個環節和體驗中,構建了“人與內容”、“人與人”、“內容與內容”三個維度的連接。
在“人與內容”的連接中,知乎做出了諸多嘗試。其中問題路由上線之後,由系統推薦帶來的應邀回答數比過去提升了 400%;採用 DNN 模型的知乎個性化推薦上線之後,知乎 Feed 流的人均閲讀量和人均使用時長均增長了 50% 以上;而瓦力算法機器人對不友善、低質內容的識別精準度達到了 99.13%。這些技術應用,在一定程度上為信息過載及用户內容消費升級問題的解決提供了可借鑑經驗。
知乎的技術還應用在“人與人”的連接中。李大海表示,知乎在用户連接方向的追求是“讓人發現更多有趣的靈魂”,本質上是理解用户價值觀、興趣,通過推薦,讓大家能在需要的時候找到最能解決自己問題的人,找到最有用的解答。據介紹,對於任何一個社區而言,用户與用户之間的連接是用户活躍度和歸屬感的重要影響因素。在這個問題上,知乎通過 Graph Embedding 模型對用户進行隱式表示的學習,計算出兩個用户之間的親密度、興趣相似度,以此進行更精準的推薦,讓用户更多地在社區裏發生連接。
知乎社區內“內容與內容”的連接主要集中在知識圖譜領域。知乎上的問題和回答相當於半結構的文本組織,裏面藴含了大量的有價值信息,但這些信息缺乏一個結構化的整理,知乎希望通過構建這樣一個知識圖譜,讓越來越多的提問和回答中的有價值信息,能夠以一種更結構化的形式表徵出來。李大海透露,知乎目前構建了以話題、實體為核心的百萬級節點、千萬級邊,構建了話題相關性圖譜、話題上下位圖譜、話題與實體的關係圖譜等。並且知乎的知識圖譜已經在首頁、推薦和搜索等實際業務中得到了應用。
通過三大維度、多個領域的技術應用嘗試,知乎讓每個用户持有的信息都能高效地被髮掘,每個用户的內容需求都能被快速地被發現並滿足,內容的價值能在生產和流通中得到充分釋放,從而構建一個由 AI 驅動的“智能社區”,讓每個用户都能高效獲得可信賴的解答。(一鳴)