華為開發者大會展示黑科技:小説能自動生成人物關係
【環球網報道 記者 張陽】華為開發者大會2022(Together)(以下簡稱HDC 2022)正式拉開帷幕,作為華為面向開發者羣體舉辦的科技盛宴,每年在大會期間總能看到各項新成果、新技術、新開放能力的公佈,既給消費者帶來新的功能升級,又會為開發者帶來更加高效便捷的應用開發體驗。
今年在大會現場記者就看到了華為閲讀帶來的兩大全新功能,着實引人矚目:一是人物圖譜,二是WebBrain搜索。

閲讀,是大家在高效利用碎片時間的常見選擇之一。我們經常能看到有人在公交車和地鐵上用手機進行閲讀,或者為自己“充電”,或者就是放鬆一下心情。但是,在閲讀很多大部頭作品時,書內人物眾多,關係又錯綜複雜,再加上都是碎片時間進行閲讀,很難理得清書中的人物關係,或者讀到後面在書中提及早前的情節時已然忘記了之前的故事,只好回頭再翻閲前文幫助回憶,如果閲讀的是外國作品,更有可能連人物的名字都混淆不清,這閲讀體驗着實讓人感到不便。
華為閲讀新推出的人物圖譜功能就可以很好地解決這樣的問題。人物圖譜,可以自動幫助讀者生成“人物關係圖”,幫助大家迅速理清人物之間的關係,點擊相關人物就能看到人物介紹,以及某個人物出現的章節,可以迅速幫助讀者掃清閲讀障礙,沉浸到故事當中。

人物圖譜,很像在學生時期會將一章節的內容濃縮成知識要點。這種技術在AI領域也被稱為“知識圖譜”。為了實現閲讀助手中的“知識圖譜”,華為閲讀、華為雲、倫敦研究所等聯合進行研發,用百萬本小説訓練數據集,訓練十多個AI 算法模型來構建;同時使用支持百億規模數據集圖譜的基礎設施,能實現毫秒級圖譜查詢。同時,“章節索引”功能基於10億參數600G訓練數據的NLP大模型,通過語義匹配算法,構建高精度的段落提取模型,內容理解準確度提升30%。

我們在使用閲讀應用時,對於不認識的英文單詞、不認識的漢字已經可以便捷的進行查詢掃盲了。但是,如果閲讀時遇到了一些不瞭解的知識點,或者不瞭解的名詞就還是要跳出閲讀環境,去求助於百度等搜索引擎獲取相關信息,閲讀體驗就會被迫中斷。
WebBrain搜索技術正是為了解決這樣的問題而誕生的,WebBrain搜索是華為2012 實驗室研發的檢索增強生成模型,模型通過檢索增強技術RAG和自然語言生成技術NLG實現端到端的權威知識的搜索與生成。模型在檢索部分的主題相關性檢索技術,在千億網頁中精準檢索到用於生成答案的全面的網頁證據和片段。在生成部分,採用多源信息編碼融合技術將檢索回的文檔融會貫通,對檢索回的文檔進行多源信息融合,讓答案突破輸出長度限制,將檢索文檔去粗取精,選擇高質量片段進行融合表示並生成出內鏈和外部文檔引用;同時智能事實核驗技術對生成的答案,包括內部鏈接及外部文檔引用,進行相關性、流暢性、權威性、完備性等多方面核驗,使得模型生成權威的自然語言回答。
比如這句話“在奧地利與普魯士戰爭期間……”,如果不瞭解奧地利與普魯士的歷史,就很難做出準確理解,在WebBrain搜索技術的幫助下,用户選中“奧地利與普魯士戰爭”關鍵詞進行搜索,就會跳出對這一世界歷史事件的詳細介紹。相當於在一些知識難點上自動為用户加了註釋一樣,不需要跳出閲讀過程,幫助理解之後,可以快速返回閲讀過程,繼續閲覽。
閲讀是智能手機使用的高頻場景,但是它又只是一個小小的功能,為了提升用户的使用體驗在這樣的細微之處,華為閲讀也在不斷提升從語言讀書到隨手記錄讀書筆記,現在又將AI能力引入其中,都是為了讓用户獲得更好的精品閲讀內容和服務,這樣持續升級的閲讀體驗才會讓用户更願意欣然使用。