這個權威賽事上,AI閲讀理解首超人類
2018年伊始,人工智能的發展又迎來一個里程碑時刻。1月3日和5日,兩個研究團隊連續刷新AI閲讀理解得分記錄,並且首次超過人類水平。

SQuAD官網排名
AI閲讀理解得分首超人類
由斯坦福大學發起的 SQuAD(Stanford Question Answering Dataset)挑戰賽,被認為是目前全球最高水平的AI閲讀理解賽事。
SQuAD官網顯示,阿里巴巴 iDST NLP 團隊提交的 SLQA +模型,1月5日在精確匹配(Exact Match)項目上獲得了82.440的分數,刷新了微軟亞洲研究院R-NET模型剛剛於1月3日創造的紀錄。而這兩個模型的成績都超過了人類在該項目上的得分——82.304。
SQuAD閲讀理解賽事是以超過500篇維基百科文章為基礎,包含了超過10萬個問題-答案組合,是目前世界最大的AI閲讀理解數據集。
而且跟CNN/DM,CBT等自然語言處理類數據集相比,過往的數據集往往只是“完形填空”的形式,即要求AI將一個詞語填寫到文章空白處。而SQuAD則是真正的閲讀理解,需要AI先讀完一段文章,然後回答一個根據文章提出的問題。

SQuAD問題示例
據微軟方面介紹,得益於SQuAD所提供的龐大數據規模,參與該項挑戰賽的選手不斷地對成績進行刷新,SQuAD挑戰賽也逐步成為行業內公認的機器閲讀理解標準水平測試。在今年的ACL大會(自然語言處理領域最頂尖的會議之一)的投稿裏,有非常多的論文就是關於這項挑戰賽的研究,其影響力可見一斑。從ACL 2017論文主題的可視分析中可以看到,“reading comprehension(閲讀理解)”是今年ACL錄取論文中最熱門的關鍵詞和任務,廣受自然語言處理領域研究人員的關注。
SQuAD評分分為精確匹配(Exact Match)和模糊匹配(F1-score)兩種,人類在這兩項的得分分別是 82.3 和 91.2。上述兩個模型目前只是在精確匹配項目上超過人類,而在模糊匹配上仍有大約2.5分的差距。

微軟亞洲研究院機器閲讀團隊成員(從左至右:崔磊、韋福如、周明、楊南)
阿里已將技術用於客服
據阿里巴巴官方賬號“阿里技術”介紹阿里巴巴自然語言處理首席科學家司羅表示,對於解決wiki類客觀知識問答,機器已經取得非常好的結果,我們將繼續向對通用內容的“能理解會思考”的終極目標邁進。今後,研發的重點在於把這項技術真正應用在廣大實際場景,讓機器智能普惠生活。
實事上,這項技術已經在阿里巴巴內部被廣泛使用。比如,每年雙11都會有大量的顧客對活動規則進行諮詢。阿里小蜜團隊通過使用司羅團隊的技術,讓機器直接對規則進行閲讀,為用户提供規則解讀服務,是最自然的交互方式。
再比如,顧客還會針對單個商品詢問大量的基礎問題,而這些問題其實在商品詳情頁都是有答案的。現在通過機器閲讀理解技術,能夠讓機器對詳情頁中的商品描述文本進行更為智能地閲讀和回答,降低服務成本的同時提高購買轉化率。
由司羅領導的自然語言處理團隊支撐了阿里巴巴整個生態的技術需求。由他們研發的AliNLP自然語言技術平台每日調用1200億+次,Alitranx 翻譯系統提供20個語種在線服務日調用量超過7億+次。此前曾在2016年ACM CIKM 個性化電商搜索、2017年IJCNLP中文語法檢測CGED評測、2017年年美國標準計量局TAC評比英文實體分類等大賽中取得全球第一的成績。
中國多個團隊排名前列
儘管阿里和微軟是目前僅有的兩個超過人類得分的團隊,但是在自然語言處理領域,其實各方研究者的實力相當接近,競爭一直很激烈。
從SQuAD官網發佈的榜單來看,去年11月和12月,得分紀錄已經多次被刷新,其中來自中國和美國的團隊佔據了最前列的位置,包括騰訊、哈工大&科大訊飛等中國團隊都取得了不錯的成績,一些歐洲、韓國和以色列的研究者同樣榜上有名。
微軟亞洲研究院副院長、自然語言計算組負責人周明博士表示:“祝賀中國的自然語言理解研究已經走在世界前列!整個領域的進步需要大家共同的努力和投入來推動。自然語言處理長路漫漫,讓我們共勉。”