視覺搜索之變，變得不僅是搜索？_風聞

根新未来-2022-09-18 08:34

2022-09-18

文/觀察未來科技

在智能搜索時代，搜索引擎日益成為高效連接我們和信息的核心技術，而隨着移動設備智能化程度也越來越高，搜索的過程除了逐漸從PC端轉到了移動設備，比如智能手機中，搜索方式也正發生轉變，文字、聲音已無法滿足人們的搜索要求，視覺搜索則顯得更加符合人們隨時隨地搜索的特性。

要知道，人類有近80%的信息獲取來自雙眼，人們對所看到的事物總是充滿了好奇心。而當圖像遇到搜索引擎，視覺搜索便應運而生，給到人們想要的答案。如今，貼近自然的搜索模式正在取代傳統的搜索方式，帶來智能搜索的新變。

從文本搜索到視覺搜索

互聯網發展到今天，人們已經對搜索太過熟悉，人們習慣了搜索技術的存在，以至於感受不到其中技術的變革。但實際上，從古早的文本檢索到今天的人工智能，網絡世界的網頁數量已經從千萬級別，增長到了千億級別，其中囊括的內容甚至比世界上所有圖書館加起來還要豐富。

**我們都知道，早期的搜索引擎採用的是文本檢索的方式，只能做到用户查詢關鍵詞和網頁文本內容的匹配。**雖然這樣的方式也能把不同網頁的關聯度進行排序，但總體的搜索質量卻是比較差的。

相較於文本檢索，網頁之間有着更豐富的鏈接關係，就像高引論文往往本身質量更高，高質量的網頁通常也會被更多的網頁鏈接。為了進一步挖掘和利用這種鏈接信息，1996年，李彥宏開發了Rankdex，即超鏈分析算法。這是世界上首個使用超鏈接來衡量網站質量的搜索引擎。

也就是説，搜索引擎在收到一個用户查詢之後，不僅僅會去匹配網頁的內容，還會看看其他網頁對這個頁面的“評價”。在此之後，谷歌也提出並使用了類似的PageRank技術，並大獲成功。可以説，超鏈分析算法，就是當今每個主要搜索引擎排名算法的基礎。

在搜索引擎從文本搜索轉向網頁搜索的同時，智能手機也加快了普及。相比較於傳統PC的搜索，智能手機的移動搜索發生了許多的變化，除了搜索方式從PC端的Web網頁演變為App外，人們的搜索訴求也不再是僅單純地獲取信息，而是對本地化、生活化的具體實體展開搜索。

在新的搜索需求下，再加上智能手機豐富的傳感器，人們搜索的輸入方式開始從傳統的文字輸入演變為文字、聲音、圖像、位置、體感等的綜合輸入，因搜索場景的移動性和網絡環境的變化而發生變化。

如今，在移動端，基於語音的搜索技術已經較為成熟，具有代表性的就是蘋果的“Siri”，它可利用人們的口述信息進行檢索，Siri的出現讓搜索更加符合人們的自然需求，使人與機器的交互演變為人與人的自然交流。此外，還有基於位置的搜索，當人們旅遊至某地後，就可以收到相應的酒店、餐館等方面的提示信息，快速讓我們熟悉所在地。在文字、聲音、位置等搜索外，視覺搜索則是一種更加深度影響人們生活的搜索，並日益成為搜索技術的未來。

視覺搜索是通過搜索視覺特徵，為人們搜索互聯網上相關圖形、圖像資料檢索服務的專業搜索引擎系統。簡單來理解的話，視覺搜索就是當我們拍攝一張照片後系統會提取此圖片的信息，然後和圖片庫中的圖片進行比對，最終找出和圖片具有極高相似度的一張圖片。

相較於視覺搜索來講，語音搜索識別率低，對使用者的説話語速、語氣、口音等具有較高的要求；語音搜索適合相對獨立和安靜的空間使用，受使用場景侷限，使用手機語音會干擾周圍的人，也極容易被周圍環境干擾。而視覺搜索則是在移動場景下對“線下實體”的搜索，包括環境、商鋪、餐廳、招牌、商品、圖書、菜品、景點等，具有天然的技術優勢。

比如，當我們對路邊一隻小狗感興趣時，使用視覺搜索軟件進行識別，我們就會知道它屬於哪一種狗，它的成長曆史和基因信息，它的生活習性，如何養好它，周圍是否有寵物醫院，在什麼地方可以買到這種狗等一系列的相關信息。**就像PC時代的搜索框一樣，攝像頭就是移動互聯網時代的入口，**而流量入口又是搜索引擎之源，這也是谷歌和百度等搜索巨頭都對視覺搜索投入大量資源的原因。

不只是搜索

如果説視覺搜索在PC端上的優勢還是有限的，那麼，當把視覺搜索技術“移動”起來，其功能便顯得異常強大。

移動智能手機幾乎已經成為了人們生活的必須，藉助移動終端在生活中發現新東西的概率，遠比在網頁瀏覽時發現新東西的概率要大得多，而利用傳統搜索無法準確地完成對事物的描述，很多時候這就成了一個有頭無尾的搜索過程。但在移動端選用視覺搜索的話，藉助所拍影像或圖片資料，馬上就能得到我們想要的結果，快捷、高效且符合人們的自然習慣。

阿里巴巴於2014年推出了視覺搜索引擎Pailitao， Pailitao用户可以使用圖像進行搜索，並在阿里巴巴的在線購物網站淘寶上找到數十億項目中的匹配產品。 Pailitao幾乎涵蓋所有淘寶產品類別，包括時裝，鞋子，包包，傢俱，化妝品和食品。比如，在淘寶的前20大類別之一的時尚服飾中，顧客經常使用Pailitao來搜索名人或影響者在照片中所穿的服裝或配飾。Pailitao通過使用與顏色，樣式，品牌等相關的術語消除描述目標項目的需要，極大地改善了用户體驗。

谷歌則更進一步。他們於2017年發佈了一個通用的視覺搜索引擎——谷歌鏡頭（Google Lens）。它不僅可以識別出待售的產品，而且還能解碼整個景觀。你可以利用它學到任何你想學的東西。

**谷歌之後，還有宜家。宜家在這方面取得的進展更大。**在智能手機中安裝好他們利用增強現實技術開發的應用程序後，宜家就可以繪製我們家客廳的效果圖了，這個數字版本的效果圖中包含了所有傢俱的確切尺寸。

此外，儘管視覺搜索技術的基本功能是查找相似圖片、識別圖片中的事物，但當這種神奇的搜索能力與移動端的穿戴設備、社交網絡以及數以萬計的App結合起來時，這種搜索方式就會立刻變得強大，影響我們生活的方方面面。

當前，Google、Yandex、YouTube、Instagram或Pinterest中的視覺搜索及推薦正把無窮無盡的圖像和視頻推送到我們面前，而大型博物館的網站提供了大量藝術品和歷史文物的數字影像。

在社交領域，視覺搜索有助於我們結識與我們有相同興趣愛好的人，擴展深化社交網絡。Clickpic就是這樣的產品，人們拍攝自己的照片上傳後，可以看見社交網絡中其他用户的相似圖片，通過這種相似的圖片便可建立起話題式討論小組，結識具有相同興趣愛好的人們，擴大上傳者的社交網絡。

不僅如此，視覺搜索還將更新智能終端的新模式——**自然環境中的物體、圖片信息，對於視覺搜索來説，都是將真實的物理世界信息映射為互聯網信息的方式。**基於此，再加上類似於谷歌眼鏡的可穿戴設備，人們的眼睛無疑多了一項視覺搜索功能。之前人們看到環境，然後通過大腦來對環境做出反應，但現在我們又增加了海量的雲端信息。在這個過程中，終端設備的攝像頭就是下一個移動互聯網時代的入口。

視覺搜索的現在和未來

從文本搜索到網頁搜索，再到語音搜索和如今的視覺搜索，搜索技術的進步也能幫助我們得以更好地認識世界，增進我們獲取知識的手段。

當前，就視覺搜索來説，它還能識別現實生活中的更多事物，比如書籍、電影、DVD、植物和動物，等等。

另外，視覺搜索也提供了人們結識更多人的機會。可以説，視覺搜索雖然依舊是一項搜索技術，但它也****已經不再是一個簡簡單單的搜索引擎了，它還承載了社交的功能。用户利用百度的相似臉識別功能進行自拍，可以結識和自己相像的明星、朋友或附近的人，這使人們之間有了更多的聯繫，人與人之間進行的分享也從線上順理成章地發展到線下。

雖然視覺搜索的未來令人期待，但現實技術的實現仍不盡如人意。李彥宏曾指出，視覺搜索目前仍是待解的技術難題。視覺搜索的關鍵技術密集，並且面臨與以往的搜索技術完全不同的背景技術難題，比如，移動端相機水平的參差不齊，照片信息模糊、色彩失衡、過度曝光、數據量大等問題，技術發展相對遲緩。

目前，在對平面或剛性物體（油畫、書籍、建築物、CD、明星照片等）的搜索方面，視覺搜索的準確率已超過90%，而對於非剛性物體的圖像識別，則還需要更加有效的機器算法（比如，活動中的動物）。

部分軟件的人臉識別性能已做到極高的精度，主要是由於人臉的規則性及海量的人臉照片庫。**但****在常規圖像/影像資料等方面，視覺搜索的識別率顯著低於二維碼和條形碼的識別率。**正如常規文字搜索引擎尚無法完全解析人類自然語言一樣，視覺搜索技術也無法完全瞭解圖像的語義內容，對影像賦予的語義理解較為困難，憑藉目前的識別技術，僅僅是將獲取的資源進行清晰明確地羅列，然後讓用户自行篩選，後續機器預處理數據量巨大。

與此同時，視覺搜索的人機交互性有待進一步改善。蘋果公司的Siri的語音搜索是在對話中完成的，而現在視覺搜索仍採用傳統文字檢索的方式，即使用者提交待檢索的內容，然後進行檢索的方式，交互的自然性依然有待提高。

此外，視覺搜索的數據傳輸量極大，對網絡傳輸質量提出較高的要求，隨着Wi-Fi覆蓋加強及5G時代的到來，網絡環境更好，視覺搜索性能也會大幅提升，李彥宏曾預言，當搜索時長變為0.1秒以內後，視覺搜索就將迎來大規模應用。

在今天，信息的獲取方式看似便捷，但海量資訊湧來的同時，也帶來了越來越多的無效信息。這也是為什麼我們會希望搜索的結果更加精準。而在此之外，我們還更希望搜索更能讀懂人的意圖，更節省時間、更高效地解決問題。顯然，視覺搜索的進步不僅僅是搜索技術的進步，更是人類對於智能的探索的進步——智能搜索對於人類社會的影響，或許遠比我們今天想象的還要深刻。