陳根:人工智能翻譯不智障,還需技術精進_風聞
陈根-知名科技作家为你解读科技与生活的方方面面。2020-12-01 09:41
文/陳根
利用計算機把一種自然語言轉變成另一種自然語言的過程就是機器翻譯。
機器翻譯對於信息時代下海量信息的捕獲無疑具有重要作用,事實上,人們對於機器翻譯的需求也與日俱增。除了專業的出版水平的翻譯,機器翻譯還包括以瞭解信息或以交流信息為目的的機器翻譯。
多語言翻譯是機器翻譯需要面臨的一大技術現實。其中,一個理想的模型是一個****統一的具備多種語言能力的模型,在遇到新的語言時,臨時少量學習即可達到很流利的語言水平。
EMNLP 2020 最新的多語言翻譯新範式 multilingual Random Aligned Substitution Pre-training (mRASP)就成功實現了這一理想模型:mRASP通過預訓練技術再在具體語種上微調即可達到領先的翻譯效果,其在 32 個語種上預訓練出的統一模型在 47 個翻譯測試集上取得了全面顯著地提升。
不同於以往的翻譯模式,mRASP樹立了翻譯的預訓練和微調的成功路徑。mRASP中的關鍵思想就是一種新的隨機對齊子串技術,它使具有相似意義的單詞和短語更接近多種語言的表現空間。研究人員預先訓練了32種語言,對聯合的mrap模型建立公共數據集。模型就是這樣對下游語言對進行微調以獲得專門的機器翻譯模型。
研究人員在不同環境下對42個翻譯方向進行了廣泛的實驗,包括跨文化的異國語言等。實驗結果表明,與傳統的mRASP相比,mRASP對訓練目標具有顯著的性能改進。這也是其第一次驗證多個低資源語言對可以用來證明豐富的資源機器翻譯,甚至可以提高關於訓練前語料庫中從未出現過的外來語的翻譯質量。
mRASP 主要針對機器翻譯任務而設計,它有三個應用優勢:
一是打破了資源場景的限制,不論平行雙語資源高低都能有所提升。在資源豐富的語言,比如標準英法翻譯任務上已經有 4000 萬平行語句訓練情況下,使用 mRASP 依然能獲得顯著提升,達到了 44.3 的 BLEU 值。
**二是****打破了語種數量的限制。**任何語言的翻譯,無論是孟加拉語到古吉拉特語還是印地語到菲利賓語,只要是地球上的語言,mRASP 都可以直接拿來微調,並且效果可期。
三是****資源消耗低。相比於上百張卡的“軍備競賽”預訓練玩法,mRASP 更平民,僅需要 8 卡訓練一週就可以得到。
隨着計算機運算能力的提升和多語言信息資源的爆發式增長,機器翻譯技術日益精進,未來還將為普通用户提供更加實時便捷的翻譯服務。