極客邦科技專訪騰訊小知陳松堅:知識表示是NLP乃至AI發展的瓶頸
北京2018年12月27日電 /美通社/ -- 極客邦科技主辦全球人工智能與機器學習技術大會 -- AICon 2018,會上專訪了騰訊數據平台部高級算法研究員陳松堅,與大眾分享 NLP 的發展瓶頸以及當前技術研發趨勢。
人工智能領域有這樣一句名言:解決了 NLP 的難題,也就解決了 AI 領域80%的問題。從對話機器人 Eliza 開始,人們就對“會説話的機器”出奇的着迷,隨着人工智能技術的進步,越來越多的人投身自然語言處理(NLP)的研究中,為了開發出智能、易用的對話機器人而不懈努力着。
幾個月前,AI 前線策劃了一篇文章,題為《都説聊天機器人已死,為什麼騰訊還要打造自己的智能客服?》,在這篇文章中,曾深入討論過智能客服/問答產品和 NLP 技術的技術難點、解決思路、商業化落地的途徑和未來發展,在極客邦科技主辦的全球人工智能與機器學習技術大會 -- AICon 2018上,極客邦科技有幸再次專訪到騰訊數據平台部高級算法研究員陳松堅,除了對他本人的技術研發之路有了更深的瞭解,陳松堅也分享了許多有關 NLP 發展瓶頸以及技術趨勢的看法。
入坑 NLP,一不小心深耕十年
自然語言處理被稱為人工智能皇冠上的明珠,為了它,無數研究人員為之辛勤鑽研,陳松堅就是這其中的一員。2009年,還是研究生的陳松堅選擇了 NLP 作為自己的研究方向。為了這個選擇,他與自己作了一番鬥爭。
從當時比較現實的角度看,算法或許更好就業,於是陳松堅選擇了機器學習、NLP、計算機視覺、數據挖掘等幾個方向作為備選。至於為什麼最終選擇 NLP,陳松堅説,主要是因為考慮自己當時對搜索引擎比較關注,尤其是智能搜索技術;而從理想的角度想,他説自己從小比較喜歡機器人,一直有個夢想開始建造自己的機器人系統,而 NLP 是其中的不可或缺的部分,於是也就自然地做出選擇了。
兜兜轉轉過了十年,陳松堅也早已成長為一名專業的研發人員,但是手裏的工作還是轉回到了 NLP 相關的項目上來 -- 即騰訊小知,他開玩笑的説:或許是內心的召喚讓自己重回智能對話這個研究領域。
騰訊小知是如何煉成的?
對於大部分對話機器人的研究人員來説:人類如何產生認知並且與外部進行交互是一個永恆的課題,對於陳松堅來説自然是不例外,他認為:深度學習的興起使得語音和圖像識別的錯誤率大大降低,感知的問題得到了很大程度的解決。但是認知的問題,目前可以説還沒有本質上的進步,原因就是那個永恆的課題。
“語言是思維的外化,研究語言的理解和產生,就是想借此推動認知智能的發展。”陳松堅補充道:“當然這需要一個迭代的過程,也需要一個場景去實踐和落實這些想法,於是我們選擇了智能客服這個商業場景,去打造企業服務中的智能問答服務,輸出價值。”
陳松堅説,智能問答中有很多方面都可以進行深入研究。
比如,基礎層可以做深度語義匹配模型核心組件的進一步優化,還有開發問答拒識模型,用於過濾當前問答庫無法回答的問題;應用層可以做強化學習在多輪任務機器人的應用,主要用於進行對話策略的在線學習。目前騰訊小知團隊已經成功開發了若干個特定任務的 demo,正在準備正式部署到線上使用。
説回陳松堅深度參與的騰訊小知項目。
騰訊小知是從去年7月開始啓動研發的智能客服系統,經歷1年多的核心功能打造,現已落地多個應用,日均回答百萬量級。在之前的採訪中,陳松堅曾説:騰訊小知目前落地在政務、零售、服務等多個行業,上線時間僅2個月,已落地了數套成熟行業解決方案,成長勢頭很好。
雖然長勢喜人,但説起騰訊小知的成長曆程,陳松堅還是發出了一聲感嘆:萬事起頭難。
他解釋道,在騰訊小知剛起步的時候,團隊裏對深度匹配模型的經驗較少,而又由於業務上線的進度比較緊迫,因此選擇雙線作戰,一邊開發基於傳統機器學習模型(xgboost)的線上系統,另一邊進行深度語義匹配模型的論文復現、調優和工程實踐。
考慮到 SaaS 場景下用户能夠提供的訓練語料非常欠缺,陳松堅和團隊因此特地引入了遷移學習的策略來對應解決語料不足的問題。事實證明這些安排和策略都取得不錯的效果。
能夠帶領騰訊小知的算法團隊,從零開始一步一步地建設這種面向行業的智能問答解決方案,讓陳松堅倍感欣慰,一方面需要快速響應業務的需求,快速實現和上線新功能,切實解決客户提出的問題;另一方面又必須緊跟業界和學界最新的技術,並積極尋求實施落地的路徑,陳松堅説,從個人角度來説,這是最有成就感的事情。
從業近十年,陳松堅也積累了大量的實踐經驗,在採訪中他也毫不吝嗇地將這些經驗分享給了有同樣困擾的開發者:
他認為對於開發者來説,首先,“要儘早搞清楚業務的需求”,不同行業的問答解決方案很可能會涉及到不同的技術點,而且不同的業務場景對準確率指標的要求也不一樣,這個也會影響算法落地的側重點。比如騰訊小知最早接入的公安行業,知識庫就特別複雜,分支條件很多,因此需要大量使用知識圖譜來補全 FAQ 機器人的問答死角。
第二,“要注意測評數據集的準確構建,尤其是線上環境的測試數據的收集”,需要保證線下實驗能對齊模型在線上環境的效果。另外就是跟業務關聯的評價體系的構建,這樣才能朝着正確的方向,穩定地迭代優化。
NLP 如何突破瓶頸?
智能客服是非常綜合的 AI 系統,幾乎涉及 NLP 領域所有技術點,甚至還包括語音和圖像的處理。但人們對技術往往短期期望過高,而長期期望過低。雖然近年來 NLP 應用,尤其是翻譯、寫作、對話機器人等,在模型增強和知識圖譜建設完善的過程中,在特定的場景下,滿足了大部分人的使用需求,但是,在陳松堅看來,NLP 仍有一些瓶頸問題需要解決。
他説:“AI 領域目前解決的問題,使用的都是模式識別的方法”。進一步解釋的話,就是通過大量的訓練數據去找到數據內裏的模式,然後再應用到實際數據的識別上,比如説語音的識別,圖像的識別等,對應的是感知智能。
而 NLP 問題往往需要更高級的方法,因為在語言理解中涉及到大量的上下文,而除了一般意義的語言上下文,更重要的是外部知識上下文。這對應的就是認知智能的範疇,即如何幫助機器人構建概念世界,並作用到 NLP 的處理過程中。
陳松堅比喻説:“我認為,‘對知識表示的建模,是目前 NLP 乃至 AI 技術發展的瓶頸’,如果説 NLP 是皇冠上的明珠,那知識表示就是其中最大的一顆。”
他解釋道,目前的知識都是基於符號表示的,比如知識圖譜是利用了圖節點來表示概念,關聯邊來表示概念之間的關係,但總的來説還是一個符號系統,所有的操作還是符號的檢索和匹配,而跟當前的深度神經網絡模型沒辦法有機結合。
所以,他本人與研發團隊思考的方向也是諸如:是否可以將所有概念和關係都利用深度學習技術向量化,以及如何將規則也使用模型表示等問題。
*“強化學習在多輪對話中的應用”*也是陳松堅重點關注的技術趨勢,主要是在特定場景下進行對話策略的學習,例如訂票訂餐任務、商品推薦等。他認為,目前主流的任務機器人都是基於槽位填充的方法,對話策略主要基於事先約定的規則,不夠靈活,而強化學習可以通過結合端到端模型來實現對話策略的靈活調整,並且能夠實現在線學習,使得多輪對話模型可以持續優化。