聚焦AI基礎技術 騰訊超50篇論文入選AI國際頂會
作者:授权
近日,自然語言處理(NLP) 頂級學術會議 ACL-IJCNLP2021 公佈論文入選名單。據不完全統計,本次大會騰訊有超過50篇論文入選,再次領跑業界。其中,騰訊 AI Lab 論文《基於單語翻譯記憶的神經網絡機器翻譯技術》被評為“傑出論文”,獲得高度認可。
本年度騰訊ACL-IJCNLP 2021入選論文中,有27篇來自騰訊AI Lab團隊,21篇來自微信AI團隊,騰訊雲AI、騰訊天衍實驗室、騰訊醫典AI、騰訊雲智能平台產品部等團隊也有多篇論文入選。這些論文的研究方向涵蓋文本理解、文本生成、智能對話、機器翻譯、信息抽取、信息檢索等多個NLP的子領域。
ACL-IJCNLP2021是自然語言處理領域最知名的學術會議之一,也是人工智能的重要研究陣地。數據顯示,今年大會共收到 3350 篇論文投稿,最終接收論文710篇,整體接收率僅為21.2%,並額外接收了14.7%的論文到Findings子刊。
傑出論文填補研究空白
經過多輪交叉評閲,本次大會共評選出6篇傑出論文。這些論文在一定程度上代表了目前NLP研究熱點和技術發展趨勢。
在機器翻譯領域,前沿研究團隊一直在都推進利用翻譯記憶 (Translation Memory) 技術提升機器翻譯效果,其中的一個重要方向是利用輸入端相似度的檢索方式從雙語語料中檢索數據,並將獲取的數據輸入到深度生成網絡中,提升翻譯效果。
來自騰訊AI Lab的獲獎論文,首次提出了利用單語翻譯記憶提升翻譯模型,並發現跨語言的檢索模型可以通過端到端的方式進行優化,該方法在低資源場景下取得了巨大的性能提升,並且可以實現一個模型適用於所有領域。
論文提出的新方法有別於傳統的採用雙語語料庫的搜索模式,開創了機器翻譯的新想象空間。據瞭解,該方法已經通過實驗室環境驗證,研究團隊正在嘗試將其上線到實際生產環境中。
無獨有偶,在今年6月線上舉辦的另一自然語言處理領域頂會NAACL 2021中,騰訊AI Lab與羅切斯特大學合作的論文《視頻輔助無監督語法歸納(Video-aided Unsupervised Grammar Induction)》也獲得最佳長論文的榮譽。
聚焦AI基礎技術,騰訊提供豐富應用場景
自然語言處理是人工智能的基礎技術,機器翻譯屬自然語言處理領域核心研究方向之一。近年來,騰訊不斷加大對自然語言處理等基礎AI技術的研究投入,旗下多個實驗室和研究團隊結合各自業務場景,打造了一系列業界領先的技術創新和應用,並持續通過學術論文、開源數據集、工具及API服務等方式對外分享成果。
在不久前的WMT2021國際機器翻譯大賽上,來自TencentMT Oteam的微信翻譯團隊、騰訊AI Lab和翻譯君在新聞賽道5個翻譯任務上獲得冠軍,展現了業界領先的技術實力。
此前,騰訊 AI Lab 還面向行業發佈了國內首個線上公開落地的交互翻譯系統TranSmart,提供輔助翻譯輸入法、約束解碼、翻譯記憶融合等亮點功能,不僅在騰訊各類產品中得到應用,還成功支持了聯合國文件署、Memsource、華泰證券、店小秘以及閲文集團等機構的翻譯業務。
另外,AI Lab 還發布了具有細粒度命名實體識別、語義聯想、深度語義表達等特色功能的文本理解系統 TexSmart 以及包含八百萬詞彙的中文詞向量開源數據集,受到業界廣泛關注。
微信AI關注語音識別與合成、自然語言處理、計算機視覺、工業級推薦系統等領域,應用微信智聆、微信智言等技術成果,服務微信翻譯、微信語音轉文字、微信視頻號、微信看一看、QQ音樂等業務,推出騰訊小微、微信對話開放平台等產品,與Harman-Kardon, 美的、惠普、Marshall等品牌深度合作。
在2020年初的微信公開課PRO版上,微信AI宣佈開放以硬件合作為核心的騰訊小微硬件開放平台、以對話開放能力為核心的微信對話開放平台和NLP基礎技術平台,全面開放各層次 NLP 能力,面向行業用户及開發者,開放微信前沿的NLP研究成果。
頂尖的產品背後離不開頂尖的技術。騰訊豐富的業務場景為前沿的AI研究成果提供了最佳的“訓練場”。在此基礎上,騰訊也將充分打磨的技術能力通過騰訊雲以產品和服務的形式面向金融、政務、醫療、交通、教育等各行業開放,為眾多客户和合作夥伴提供底層技術支撐。