這個來自中國的知識提取引擎,看起來比百度還好用一丟丟_風聞
重度选择恐惧症患者-2019-11-07 11:44
來源:微信公眾號“硅星人”
新時代的搜索引擎,給你知識而不是鏈接。
作為文字工作者,我每天都在跟搜索引擎打交道。
比如在寫 Facebook 的財報新聞時,Google 可以告訴我它的實時股價、市值、近期高低點等非常有用的信息。
但其實,還有另一個工具比 Google 更好用,那就是 Wolfram Alpha。它比 Google 更進一步,可以用結構化的方式直接列出我可能需要的知識。
舉個最簡單的例子:我家帶寬是 75Mbps (9.375MB/s),要下載一個100GB的文件需要多久?我可以直接用自然語言詢問,Wolfram Alpha 不僅會告訴我答案,還會寫出公式:
它不僅是一個數學工具,還是一個很好的知識聚合工具。比如最近電影《小丑》很火,如果我想寫關於它的文章,上 Wolfram Alpha 一搜就能找到大量細節,包括並不限於影片信息、排名和票房等。
準確來講,Wolfram Alpha 並非一個搜索引擎。它的官方定義叫做“計算式知識引擎”,可以用來回答那些沒有公開答案,但是計算一下即可得到的問題。而且,它用結構化的方式去展現答案,而不是像搜索引擎那樣,把鏈接一條一條列出來。
接下來介紹今天文章的主角:Magi,一個最近幾天在我的技術圈朋友中間小有名氣的工具。
Magi(網址 https://magi.com)看起來也像是一個搜索引擎:
但是隻要玩上一次,就會發現,它和你印象中的所有搜索引擎都大不相同。
當我用它搜索詞條“易烊千璽”時,得到了下面的結果。
首先,答案提供了對易烊千璽的幾個關鍵描述,如“TFBOYS的成員”、“00後國民偶像代表”等。緊接着,它列出了關於詞條主人的幾乎全部的重要屬性,包括由他出生年月、參演的影視作品、發表的音樂專輯等。
答案的結構化展現方式,和 Wolfram Alpha 頗有類似。
甚至連千紙鶴(易烊千璽粉絲代稱)的應援色都答了出來
更有趣的是,magi.com 還答出了易烊千璽的幾個近義項,比如他的暱稱、代稱和他所養的寵物等等。
有時候,Magi 還能給出一些令我忍俊不禁的結果……
輸入了一下“新世紀福音戰士”。答案的描述中有“業界有名的勞模”……
又搜了一下小島秀夫,答案裏的“專長”一項我也是醉了……
接下來搜了一下富堅義博。
可能因為職業生涯中大部分時間都在拖稿,magi.com 告訴我富堅的業餘愛好是“畫畫漫畫”……
當然,大部分時候 magi.com 給出的答案還是比較靠譜的。
搜索到的答案,每一條都會用以綠、黃、紅三種顏色表示其可信度從高到低;在答案的右側則會提供幾條鏈接,用鼠標劃過它們即可看到,答案是從哪個/哪幾個具體的來源學習到的:
你會注意到,magi.com 的結果中,答案在正下方,鏈接跑到了右邊,跟主流搜索引擎的用户界面完全是反的。
這就是 Magi 和主流搜索引擎最大的區別所在:鏈接對於它不是結果,答案才是。
這是因為 Magi 並非搜索引擎(儘管具有一些搜索引擎的功能)。它實際上是一個基於機器學習的知識引擎,能夠檢索和提取任何領域自然語言文本,將其中的知識提取出來,形成結構化的數據。
説得簡單一點:
我們都知道,互聯網上有着大量的,基於文本的信息,當中藴藏着許多的知識。然而,計算機讀不懂互聯網上大部分的信息,因為這些信息往往不是以“性別:男”、“國籍:中國”這樣的結構化形態,而是以自然語言的形態出現的。
比如,”埃菲爾鐵塔的高度“是一個入門級的問題,因為早已有人整理出了正確的答案,寫在維基百科和旅遊網站上;但是想知道“埃菲爾鐵塔的第二節電梯線路有多長”,就很難在搜索引擎上查到準確信息了。這是因為很少有人會把這些細節的數據,以結構化的方式記錄在互聯網上。
這就是 Magi 想要解決的問題:從開放領域的純文本當中提取知識,並讓其可解析、檢索和溯源。
Magi 來自中國團隊 Peak Labs,創始人季逸超在開發者圈子內也小有名氣。2011年,還在北大附中讀書期間,他就獨自完成了猛獁瀏覽器 iOS 的開發。次年,他只用兩天時間就完成了 Rasgueado,第一個支持划動手勢控制光標位置的 iOS 輸入法
2012年,季逸超創辦了自己的公司,繼續推動瀏覽器和輸入法項目。目前,Peak Labs 主要精力都放在 Magi 項目上,專注於背後的技術,以及相關商業產品的開發。
中間:季逸超
Peak Labs 並沒有計劃將 Magi 和 Google、百度之類的主流搜索引擎相提並論。把 Magi 做成一個“搜索引擎”,主要是為了讓公眾有機會能夠體驗它背後的技術,感受它能夠提供的價值。
即便如此,看起來很像搜索引擎的 magi.com,實力還是不容小覷。事實上,為了這個示範性質的產品,Peak Labs 並沒有選擇小聰明的方式,從其他搜索引擎抓取結果,而是從零開發了一套互聯網搜索引擎。
”我們的結果的摘要比一般的搜索引擎都長,是的,我們是故意為之。這足以證明我們的結果不可能來自其他搜索引擎,“季逸超在官網上寫道。
根據用户輸入問題、關鍵詞和表達式的不同,magi.com 可以用不同的方式來呈現答案——具體的呈現方式也展現了 Magi 系統的能力。
比如,輸入“打車軟件公司”,Magi 系統可以把它知道的所有手機叫車公司,以“集合”的方式列在答案裏。
而在百度上,得到的結果如下。可以看到百度的知識圖譜也提供了類似的結果,只是看起來有四、五年沒有更新過了:
再比如,如果輸入“八角 大料”,Magi 系統會發現這兩個關鍵詞其實是同一個東西,它就會以“斷言”的形式給出答案。
如下圖,magi.com 告訴我,八角和大料是“近義項”,是“又稱”、“也稱”的關係。
Magi 系統可以24小時不間斷地進行學習。它的時效性也還算不錯,Peak Labs 宣稱實時新聞當中的知識,Magi 只需要 5 分鐘就可以掌握,而且還可以採納新的信息源進行交叉驗證,實現自動糾錯。
如果你在 magi.com 的首頁停留一會,就能看到它當前正在學習的鏈接:
除了自主開發的全網規模搜索引擎以外,Peak Labs 還開發了基於注意力機制的神經信息提取系統,不依賴無界面瀏覽器的分佈式抓取系統(爬蟲程序 MagiBot),以及支持混合處理170多種語言的自然語言管道。
這四者結合在一起,才是 Magi 系統的全貌。
作為 EVA 粉,這裏不得不打斷一下:Magi 以及它的四個子系統,名稱全部來自《新世紀福音戰士》(EVA 本身取材自聖經等其他西方宗教經典),而且命名裏也有彩蛋:
Magi(三賢者,多個系統組成的超級計算機)
搜索引擎 Ramiel(雷天使,)
神經信息提取系統 Ireul(恐怖天使,擁有學習和進化能力)
自然語言處理管道 Arael(鳥天使)
爬蟲程序 Matarael(雨之天使,外貌像蜘蛛)
Peak Labs 在官網指出,目前的 Magi 技術還沒有完全成熟。
確實如此。目前通過 magi.com 可以觀察到一些問題,比如很多可以在主流搜索引擎中輕易找到的答案,magi.com 給不出來(通常是因為它還沒有學到);
比如搜索“世界上最富有的人”時,我想要的是 Magi 能告訴我當前誰最富有,但它只能告訴我最富有的那一羣人:
比如消歧義的把控,容易導致答案混亂(這一點季逸超自己在知乎上[1]也有所提到):
隔壁老王不大可能是你的親戚
再比如,碰到一些實在太“複雜”的詞條,magi.com 就凌亂了……
不過正如前面提到,這個搜索引擎並不是 Peak Labs 的最終產品——他們的真正目的,是藉助搜索引擎背後 Magi 系統的力量,提供企業級的服務。
Peak Labs 的官網指出,他們希望未來的 Magi 系統能夠成為“知識領域的 ImageNet”。它已經展示出的開放領域信息提取能力,可以應用到企業客户所在的細分領域內,變成一個更加強大的信息抽取系統,讓每一個領域、每一家企業都可以輕鬆地打造屬於自己的知識圖譜。
“也許在不遠的未來,伴隨着整個行業的進步,Magi 所構建的包容萬事萬物的結構化網絡,將成為通向可解釋人工智能的基石。”Peak Lab 的網站這樣寫道。
——希望這個願景能夠實現。(就算實現不了也沒關係啊!拿 magi.com 搜些奇怪的東西,還是能得到不少笑料的……)
如果你對 Magi 的技術細節感興趣,可以點擊下方**“閲讀原文”**到 Peak Labs 網站進一步瞭解。季逸超在知乎的回答也做了更加詳盡的闡述。
[1] 季逸超在知乎問題《如何評價 Peak Labs 出品的 2019 版 Magi 搜索引擎?》的回答 https://www.zhihu.com/question/354059866/answer/881655371
除了部分截圖,其他均來自 Peak Labs 網站和前述知乎回答