華為應用市場搜索技術揭秘
2016年最火的互聯網概念當屬VR 和人工智能,科技巨頭們紛紛亮出自家在智能領域的技術探索,而華為作為一直標榜科技驅動型的公司,內部的黑科技一定數不勝數,筆者今天給大家深剖一個用技術死磕體驗的華為應用市場。
據統計,首次從應用市場下載一個應用,超過60%用户會選擇搜索。搜索已經成為用户從應用市場下載應用的首要方式。因此搜索結果的好壞,會直接決定了應用市場的用户體驗。 華為應用市場採用先進的大數據技術,為每一個訪問華為應用市場的用户提供精準的搜索服務,幫助用户從百萬級的App庫中快速找到感興趣的應用。黑科技“伏羲搜索引擎”是華為應用市場研發團隊同華為諾亞方舟實驗室共同研發的一款搜索引擎。伏羲搜索引擎通過搜索、自然語言處理、機器學習、數據挖掘等多項綜合技術,為用户提供精準、貼心的搜索內容,滿足用户尋找App的需求。
眾裏尋他千百度,伏羲一點輕鬆指路。
伏羲搜索引擎的關鍵技術可以簡單概括為以下關鍵的四招,凝聚了伏羲的核心技術:
1. 用户意圖的理解 為了滿足用户的搜索需求,搜索引擎需要準確的理解用户的查詢意圖。用户的意圖主要體現在查詢詞中。為此,伏羲搜索引擎自研了一系列自然語言處理技術,包括分詞、查詢詞糾錯、查詢詞同義改寫等,來分析、理解和擴展用户的查詢詞。通過對查詢詞的深入理解,華為應用市場能夠精準的把握用户的意圖,給用户找到滿意的結果。此外,伏羲搜索引擎還考慮了用户的機型、位置等情景特徵,來適配最合適的App給用户。
2. 排序學習技術 排序是搜索引擎的核心技術,排序效果的好壞與用户的搜索體驗直接相關。伏羲搜索引擎使用自研的排序學習(Learning to Rank)技術,通過機器學習算法訓練排序模型,以達到排序效果的最優化。排序學習模型能夠綜合各種搜索排序的特徵,包括用户查詢詞與App信息的匹配、查詢詞下App的點擊率、App的下載量、App的質量評級等,並藉助大量專家標註數據,訓練得到最優的排序函數。這樣的排序函數能夠使得與用户意圖高度匹配、高質量、受歡迎的App排在搜索結果的前面,從而使用户更容易的找到所需的App。
3. 基於用户行為的點擊模型 華為應用市場每天都有數千萬的用户訪問量。在完全保證用户隱私的前提下,伏羲搜索引擎通過對海量的用户行為數據進行分析和挖掘,建立了用户行為模型,簡稱之為點擊模型。通過點擊模型,伏羲搜索引擎能夠更加了解用户的行為和偏好,並將這種知識運用到搜索的排序和效果評估當中。具體的,在搜索排序中,用户行為數據會被作為排序的特徵,從而使得更為用户喜歡的結果排在前面;在評估搜索的效果時,用户行為數據被用來衡量不同的排序模型的效果差異,從而為搜索引擎選擇最好的排序模型。
4. 泛搜索技術 傳統的搜索引擎是基於關鍵字匹配技術,這種技術在用户的查詢詞與App的相關信息(例如名字、內容簡介)時字面匹配時,較為有效且穩定。但是,在華為應用市場的搜索中,有一部分查詢詞則相對寬泛,且並不能很好的匹配到某個App的信息,我們稱之為“泛搜索”。泛搜索查詢詞是多種多樣的。例如,用户有時並不確切知道App的名字,往往會用對該App的主觀印象描述作為查詢詞。例如搜索“切東西”,用户想找的App很可能是“切水果”類似的遊戲。還有些用户,想搜索是具有某種功能或屬性的App,比如搜索“找大夫”,用户想找的很可能是醫療相關、能夠聯繫醫生的App,例如“好大夫在線”。
為了滿足用户泛搜索的需求,伏羲搜索引擎自研了針對泛搜索的識別和匹配技術。首先,對於用户的查詢詞,伏羲搜索引擎通過自然語言分析以及用户日誌挖掘的技術,識別該查詢詞是否為泛搜索詞;對於泛搜索詞,伏羲搜索引擎使用了基於語義和標籤的匹配技術,來實現泛搜索意義上的語義匹配。
其中,App的標籤是泛搜索準確匹配所依賴的基礎數據。伏羲搜索引擎通過結合互聯網數據挖掘、人工標註和機器學習模型,實現了App的自動化標籤機制,能夠為華為應用市場中的海量App自動打上標籤。
伏羲搜索引擎能夠無縫的融合基於關鍵詞的搜索結果和泛搜索結果,從而為用户提供多樣化的搜索體驗。不管是通過機器學習的關鍵詞精準搜索,還是觸類旁通的泛搜索技術,華為為伏羲都做到了內外兼修。日下載量過億的華為應用市場,達到了專家級的安全之後,在高效、精準的體驗上,也比各應用分發廠商做到了絕對領先。