清華自然語言處理科學家孫茂松:讓算法懂得人類“常識”_風聞
航通社-航通社官方账号-微信公号:航通社2019-11-04 14:53
航通社首發原創文章,未經授權禁止轉載。
航通社微信:lifeissohappy 微博:@航通社
書航 11 月 4 日發於北京
語音助手回答人們的指令、AI客服自動接聽人類來電、部分替代人工的機器翻譯……這些人工智能應用都屬於自然語言處理(NLP)的範疇。目前,基於深度學習的NLP應用已經可以取得很好的效果,特別是在機器翻譯方面,最終給人類呈現的答案越來越理想。
不過,目前的NLP應用都是基於深度學習的“黑箱”,通俗的説,就是我們不知道機器是怎麼給我們這樣的結果的,機器自己也不知道。它如鸚鵡學舌一般,並沒有真正“懂得”經它處理的這句話是什麼含義。
“黑箱”問題是AI研究的一個長期的焦點,從著名的“中文房間實驗”提出開始就一直有各式各樣的討論和思考。航通社之前整理過微軟亞洲研究院院長洪小文在清華大學的演講,也提到了這方面的內容。
https://mp.weixin.qq.com/s/fbhpm3AlDbiN83aStYLBsQ
2019年10月31日,北京創建全球人工智能學術和創新最優生態的標誌性學術活動“北京智源大會”在國家會議中心舉辦。清華大學計算機系教授,智源首席科學家孫茂松接受了航通社 / cnBeta 等媒體採訪,提出了他眼中“打開黑箱”的獨特方案。
解決AI可解釋性問題的迄今最複雜嘗試
孫茂松是自然語言處理領域國際領軍人物,在自然語言處理的理論、方法及應用方面取得突出成果。數月前,孫教授被北京智源人工智能研究院聘請為“自然語言處理”重大研究方向首席科學家。
智源研究院是北京大力支持建設的新型研發機構,希望其通過機制體制創新,建設成為匯聚全球頂尖科學家研究力量,產出具有重要國際影響原創成果的重大戰略平台。
當時還宣佈了“北京智源-京東跨媒體對話智能聯合實驗室”揭牌。依託京東在電商零售領域的海量數據積累和超大算力,聯合實驗室將重點打造跨模態對話與人機交互領域的超大規模、開放領域、真實複雜場景數據集,打造智能零售場景下的前瞻性示範性應用。
孫茂松希望解決機器翻譯等“黑箱”NLP應用面對的最大挑戰:看起來效果不錯,其實算法本身對語義並沒有任何自己的理解,這樣系統在處理複雜語義的時候非常脆弱。“前門快到了,請從後門下車”等例子到現在也沒有被攻克。
此前在上海的世界人工智能大會(WAIC)期間,航通社 / cnBeta 也向IBM專家請教過同一問題。IBM 傾向於用“黑箱”解釋“黑箱”,通過同樣是基於神經網絡的辦法,來解釋 AI 模型的決策。2019 年 8 月,IBM 發佈開源算法集合 AI Explainability 360,以增強算法的可解釋性。
https://mp.weixin.qq.com/s/yyZ95DFWAdL9wbvL44mbeg
但孫茂松認為,黑箱是不得已而為之。黑箱在近幾輪AI熱潮興起之初都起到了比較積極的作用,但發展到現在的問題也比較明顯。他認為,重要的是讓機器説出有常識、有邏輯的話,不能僅僅合乎語法,但在現實中卻不成立,或者顯得荒誕。
孫茂松團隊將自己在智源實驗室進行的NLP研究課題定為**“大數據+富知識雙輪驅動的自然語言處理”**,需要建立一個可以被電腦認知的,可操作的人類知識庫。顯然與用“黑箱”解釋“黑箱”相比,這是一條更復雜的道路。
建立“北京特色”的世界知識庫和“常識庫”
目前,有Wikidata、WordNet等一些行業先驅製作的知識庫系統,企業也有自己做一些知識圖譜,但要麼不開放,要麼不夠被全人類認可,要麼太過粗淺,“大而不強”。
孫茂松認為,NLP符合人類邏輯的關鍵是讓機器擁有所有人都懂得,且存在全球一致共識的“常識”,為此建立的知識庫更恰當的應該被稱作是“常識庫”。
WordNet、Wikidata等知識圖譜是純人工編輯,需要花費數十年的精力。孫茂松則希望他們可以在整合前人開放研究成果的基礎上,依賴現有的深度學習算法,通過拆解語料的句子結構,將原本浩如煙海的語料庫轉化為各個元素之間的關係鏈,減少人類手工編輯的負擔,並讓項目可持續開展。
他希望自己的團隊可以做出一個“體現北京特色的庫,做的比較深入”,如果不能全做出來,至少要做出其中一部分。
航通社 / cnBeta 對這個“常識庫”當中**如何定義和取捨“常識”**比較感興趣。畢竟,有些人可能認為登月是陰謀論,可能還有其他關於地緣政治或者其他方面的分歧,在維基百科上也有出現基於意識形態衝突的激烈“編輯戰”。
孫茂松希望做一個顆粒度並沒有那麼細的“常識”系統,也就是只針對人類知識中比較穩定的核心部分,超出這個常識範圍的,就相當於觀點,是允許有不同的。
“你去餐館,不管全世界哪個餐館,你要點菜,上菜,吃完之後付賬,不付賬就跑人家肯定不幹,這就屬於常識。”
另一方面,觀點是靈活的,難以窮盡的。觀點的補足可以通過掌握“常識”基礎上的大數據挖掘來做到。孫茂松團隊會對構成“常識庫”的原始語料和輸出效果把關,裏面不能包含事實錯誤。
目前,團隊內的李涓子教授已經基於維基百科抽取了一些中英雙語的世界知識庫,這個庫和其它一些清華NLP項目,已經開源放在GitHub上了。清華NLP組開源得到的star,跟斯坦福Manning(世界上做NLP最好的組之一)的開源star差不多。
長遠有助於減小訓練算法的數據量
孫茂松認為,即使業界有使用小數據、乃至數據不上雲,在本機運算以保護隱私的呼聲,目前以此作為方向還很難,不容易出成果。因為小數據缺乏類似深度學習領域CNN、LITM、GPT2等這樣通行的、公認的解決方案。
小數據目前只能用於有限領域,如 iOS 對用户自己的照片庫做歸納,或者醫院採集病人病歷,這當然不可能大規模採集,必須基於小數據集研究。
但相應的,這樣的小數據只能是個案分析(case by case)專門製作解法,不可複用;也就是隻能基於專門領域的知識,和已經高度格式化的數據,才能產出對人有意義的結果。
基於小數據的NLP如果需要研發更大範圍的通用算法,就必然涉及到對“常識”的預處理。從這個角度看,孫茂松團隊試圖製作的知識圖譜,長遠也會為擺脱運算對數據量的依賴起到幫助。