視覺搜索之變,變得不僅是搜索?_風聞
根新未来-2022-09-18 08:34
文/觀察未來科技
在智能搜索時代,搜索引擎日益成為高效連接我們和信息的核心技術,而隨着移動設備智能化程度也越來越高,搜索的過程除了逐漸從PC端轉到了移動設備,比如智能手機中,搜索方式也正發生轉變,文字、聲音已無法滿足人們的搜索要求,視覺搜索則顯得更加符合人們隨時隨地搜索的特性。
要知道,人類有近80%的信息獲取來自雙眼,人們對所看到的事物總是充滿了好奇心。而當圖像遇到搜索引擎,視覺搜索便應運而生,給到人們想要的答案。如今,貼近自然的搜索模式正在取代傳統的搜索方式,帶來智能搜索的新變。

從文本搜索到視覺搜索
互聯網發展到今天,人們已經對搜索太過熟悉,人們習慣了搜索技術的存在,以至於感受不到其中技術的變革。但實際上,從古早的文本檢索到今天的人工智能,網絡世界的網頁數量已經從千萬級別,增長到了千億級別,其中囊括的內容甚至比世界上所有圖書館加起來還要豐富。
**我們都知道,早期的搜索引擎採用的是文本檢索的方式,只能做到用户查詢關鍵詞和網頁文本內容的匹配。**雖然這樣的方式也能把不同網頁的關聯度進行排序,但總體的搜索質量卻是比較差的。
相較於文本檢索,網頁之間有着更豐富的鏈接關係,就像高引論文往往本身質量更高,高質量的網頁通常也會被更多的網頁鏈接。為了進一步挖掘和利用這種鏈接信息,1996年,李彥宏開發了Rankdex,即超鏈分析算法。這是世界上首個使用超鏈接來衡量網站質量的搜索引擎。
也就是説,搜索引擎在收到一個用户查詢之後,不僅僅會去匹配網頁的內容,還會看看其他網頁對這個頁面的“評價”。在此之後,谷歌也提出並使用了類似的PageRank技術,並大獲成功。可以説,超鏈分析算法,就是當今每個主要搜索引擎排名算法的基礎。
在搜索引擎從文本搜索轉向網頁搜索的同時,智能手機也加快了普及。相比較於傳統PC的搜索,智能手機的移動搜索發生了許多的變化,除了搜索方式從PC端的Web網頁演變為App外,人們的搜索訴求也不再是僅單純地獲取信息,而是對本地化、生活化的具體實體展開搜索。
在新的搜索需求下,再加上智能手機豐富的傳感器,人們搜索的輸入方式開始從傳統的文字輸入演變為文字、聲音、圖像、位置、體感等的綜合輸入,因搜索場景的移動性和網絡環境的變化而發生變化。
如今,在移動端,基於語音的搜索技術已經較為成熟,具有代表性的就是蘋果的“Siri”,它可利用人們的口述信息進行檢索,Siri的出現讓搜索更加符合人們的自然需求,使人與機器的交互演變為人與人的自然交流。此外,還有基於位置的搜索,當人們旅遊至某地後,就可以收到相應的酒店、餐館等方面的提示信息,快速讓我們熟悉所在地。在文字、聲音、位置等搜索外,視覺搜索則是一種更加深度影響人們生活的搜索,並日益成為搜索技術的未來。
視覺搜索是通過搜索視覺特徵,為人們搜索互聯網上相關圖形、圖像資料檢索服務的專業搜索引擎系統。簡單來理解的話,視覺搜索就是當我們拍攝一張照片後系統會提取此圖片的信息,然後和圖片庫中的圖片進行比對,最終找出和圖片具有極高相似度的一張圖片。
相較於視覺搜索來講,語音搜索識別率低,對使用者的説話語速、語氣、口音等具有較高的要求;語音搜索適合相對獨立和安靜的空間使用,受使用場景侷限,使用手機語音會干擾周圍的人,也極容易被周圍環境干擾。而視覺搜索則是在移動場景下對“線下實體”的搜索,包括環境、商鋪、餐廳、招牌、商品、圖書、菜品、景點等,具有天然的技術優勢。
比如,當我們對路邊一隻小狗感興趣時,使用視覺搜索軟件進行識別,我們就會知道它屬於哪一種狗,它的成長曆史和基因信息,它的生活習性,如何養好它,周圍是否有寵物醫院,在什麼地方可以買到這種狗等一系列的相關信息。**就像PC時代的搜索框一樣,攝像頭就是移動互聯網時代的入口,**而流量入口又是搜索引擎之源,這也是谷歌和百度等搜索巨頭都對視覺搜索投入大量資源的原因。

不只是搜索
如果説視覺搜索在PC端上的優勢還是有限的,那麼,當把視覺搜索技術“移動”起來,其功能便顯得異常強大。
移動智能手機幾乎已經成為了人們生活的必須,藉助移動終端在生活中發現新東西的概率,遠比在網頁瀏覽時發現新東西的概率要大得多,而利用傳統搜索無法準確地完成對事物的描述,很多時候這就成了一個有頭無尾的搜索過程。但在移動端選用視覺搜索的話,藉助所拍影像或圖片資料,馬上就能得到我們想要的結果,快捷、高效且符合人們的自然習慣。
阿里巴巴於2014年推出了視覺搜索引擎Pailitao, Pailitao用户可以使用圖像進行搜索,並在阿里巴巴的在線購物網站淘寶上找到數十億項目中的匹配產品。 Pailitao幾乎涵蓋所有淘寶產品類別,包括時裝,鞋子,包包,傢俱,化妝品和食品。 比如,在淘寶的前20大類別之一的時尚服飾中,顧客經常使用Pailitao來搜索名人或影響者在照片中所穿的服裝或配飾。Pailitao通過使用與顏色,樣式,品牌等相關的術語消除描述目標項目的需要,極大地改善了用户體驗。
谷歌則更進一步。他們於2017年發佈了一個通用的視覺搜索引擎——谷歌鏡頭(Google Lens)。它不僅可以識別出待售的產品,而且還能解碼整個景觀。你可以利用它學到任何你想學的東西。
**谷歌之後,還有宜家。宜家在這方面取得的進展更大。**在智能手機中安裝好他們利用增強現實技術開發的應用程序後,宜家就可以繪製我們家客廳的效果圖了,這個數字版本的效果圖中包含了所有傢俱的確切尺寸。
此外,儘管視覺搜索技術的基本功能是查找相似圖片、識別圖片中的事物,但當這種神奇的搜索能力與移動端的穿戴設備、社交網絡以及數以萬計的App結合起來時,這種搜索方式就會立刻變得強大,影響我們生活的方方面面。
當前,Google、Yandex、YouTube、Instagram或Pinterest中的視覺搜索及推薦正把無窮無盡的圖像和視頻推送到我們面前,而大型博物館的網站提供了大量藝術品和歷史文物的數字影像。
在社交領域,視覺搜索有助於我們結識與我們有相同興趣愛好的人,擴展深化社交網絡。Clickpic就是這樣的產品,人們拍攝自己的照片上傳後,可以看見社交網絡中其他用户的相似圖片,通過這種相似的圖片便可建立起話題式討論小組,結識具有相同興趣愛好的人們,擴大上傳者的社交網絡。
不僅如此,視覺搜索還將更新智能終端的新模式——**自然環境中的物體、圖片信息,對於視覺搜索來説,都是將真實的物理世界信息映射為互聯網信息的方式。**基於此,再加上類似於谷歌眼鏡的可穿戴設備,人們的眼睛無疑多了一項視覺搜索功能。之前人們看到環境,然後通過大腦來對環境做出反應,但現在我們又增加了海量的雲端信息。在這個過程中,終端設備的攝像頭就是下一個移動互聯網時代的入口。

視覺搜索的現在和未來
從文本搜索到網頁搜索,再到語音搜索和如今的視覺搜索,搜索技術的進步也能幫助我們得以更好地認識世界,增進我們獲取知識的手段。
當前,就視覺搜索來説,它還能識別現實生活中的更多事物,比如書籍、電影、DVD、植物和動物,等等。
另外,視覺搜索也提供了人們結識更多人的機會。可以説,視覺搜索雖然依舊是一項搜索技術,但它也****已經不再是一個簡簡單單的搜索引擎了,它還承載了社交的功能。用户利用百度的相似臉識別功能進行自拍,可以結識和自己相像的明星、朋友或附近的人,這使人們之間有了更多的聯繫,人與人之間進行的分享也從線上順理成章地發展到線下。
雖然視覺搜索的未來令人期待,但現實技術的實現仍不盡如人意。李彥宏曾指出,視覺搜索目前仍是待解的技術難題。視覺搜索的關鍵技術密集,並且面臨與以往的搜索技術完全不同的背景技術難題,比如,移動端相機水平的參差不齊,照片信息模糊、色彩失衡、過度曝光、數據量大等問題,技術發展相對遲緩。
目前,在對平面或剛性物體(油畫、書籍、建築物、CD、明星照片等)的搜索方面,視覺搜索的準確率已超過90%,而對於非剛性物體的圖像識別,則還需要更加有效的機器算法(比如,活動中的動物)。
部分軟件的人臉識別性能已做到極高的精度,主要是由於人臉的規則性及海量的人臉照片庫。**但****在常規圖像/影像資料等方面,視覺搜索的識別率顯著低於二維碼和條形碼的識別率。**正如常規文字搜索引擎尚無法完全解析人類自然語言一樣,視覺搜索技術也無法完全瞭解圖像的語義內容,對影像賦予的語義理解較為困難,憑藉目前的識別技術,僅僅是將獲取的資源進行清晰明確地羅列,然後讓用户自行篩選,後續機器預處理數據量巨大。
與此同時,視覺搜索的人機交互性有待進一步改善。蘋果公司的Siri的語音搜索是在對話中完成的,而現在視覺搜索仍採用傳統文字檢索的方式,即使用者提交待檢索的內容,然後進行檢索的方式,交互的自然性依然有待提高。
此外,視覺搜索的數據傳輸量極大,對網絡傳輸質量提出較高的要求,隨着Wi-Fi覆蓋加強及5G時代的到來,網絡環境更好,視覺搜索性能也會大幅提升,李彥宏曾預言,當搜索時長變為0.1秒以內後,視覺搜索就將迎來大規模應用。
在今天,信息的獲取方式看似便捷,但海量資訊湧來的同時,也帶來了越來越多的無效信息。這也是為什麼我們會希望搜索的結果更加精準。而在此之外,我們還更希望搜索更能讀懂人的意圖,更節省時間、更高效地解決問題。顯然,視覺搜索的進步不僅僅是搜索技術的進步,更是人類對於智能的探索的進步——智能搜索對於人類社會的影響,或許遠比我們今天想象的還要深刻。