餘亮:與谷歌翻譯小別勝新婚之後,看清中國人工智能到底和谷歌比什麼
上週我在虎嗅撰文致意吳恩達先生的離職,文中有兩處提到谷歌翻譯和百度翻譯的對比:一處是説百度領先谷歌一年上線基於NMT神經網絡的翻譯系統,一處是説百度翻譯的使用體驗不如谷歌方便。巧的是幾天後,3月29日,谷歌翻譯APP就重返中國大陸,引起一片歡騰。
此次谷歌優化了中國大陸地區的用(bú)户(yóng)體(fan)驗(qiáng),有網友一邊感嘆,一邊還順帶懷念了谷歌全家。同時中國各家翻譯軟件菊花一緊,紛紛被動或主動出來做對比。

遺憾,全是段子。
在段子手國度,此事很快演變成狂歡。人們拿出各種網絡用語虐各家翻譯軟件,對比結果。有人説,與谷歌翻譯比,中國的翻譯軟件都是垃圾,比如“你是豬啊”,百度、有道都看不懂,就谷歌明白:


也有反懟谷歌的。知乎上有人認為搜狗翻譯更能理解中文。連谷大白話老師也上陣笑侃,拿出“不明覺厲”、“活久見”,“朝陽羣眾”、“啪啪啪”調戲谷歌,結果顯示搜狗翻譯更走心。


我覺得,這種事,各方都能找出幾個例子來證明對方不行自己行,玩玩可以,別太當真。而且如果一味強調本地段子翻譯準,就好比問對方茴香豆的“茴”字有幾種説法,沒什麼實際價值。
翻譯就是一切
巴別塔的典故傳了不知道多少遍,可見翻譯應該是個普世的工作。相比段子,我更想把技術人的想法“翻譯”出來,談談國內各巨頭到底在和谷歌比拼什麼。
誇張點説,“翻譯”是人類信息文明的一切。
翻譯背後是語言,語言的本質是符號,符號是對信息的編碼。翻譯就是符號的“編碼”和“解碼”。從一種語言翻譯到另一種語言,就是對一種編碼進行解碼,再重新編碼為另一套體系。
人類文明萌芽於符號(語言),赫拉利老師在《人類簡史》中就強調,我們的智人祖先正是因為有了完備的語言,才能組織起來,擊敗身體強壯的尼安德特人。
現代文明無不基於符號的流通、利用。法國哲學家、符號學家鮑德里亞善於“翻譯”當代生活。比如《消費社會》一書就把消費行為當作一種語言行為——你消費任何商品都是在表達某種意思。以往經濟學家強調商品的使用價值和交換價值,鮑德里亞看到的是:
商品的物質“使用價值”不再重要,符號價值才重要。商品就是一種語言符號,消費成了一種言説。愛漂亮衣服,愛打折標籤,你是凡客。吃西少肉夾饃、騎摩拜單車,你是創業狗。
今天的人類生活更是進入了“過度”符號化的時代。
信息技術的發展可以描述為數據符號“侵襲”自然生活。正如最近訊飛輪值總裁胡鬱在演講中談到“自然宇宙”與“數字宇宙”的關係。想想,“宅男”、“二次元”的另一面就是“真實”生活退後,人們都生活在經過互聯網編碼後的世界裏。
在這種時代,依賴符號運作的機器反而如魚得水。因為它們的一切運行以符號(代碼、函數、數據、標籤)為基礎。追溯計算機的發明,無非是人類把自己的意圖翻譯成機器可以理解的語言,促成機器的行動。如今做feed流的公司,利用機器算法給每條資訊打上成百的屬性標籤,通過用户點擊行為反測用户的消費偏好,這難道不是鮑德里亞消費社會理論的機器化實現?
一切信息都是“語言”,一切語言傳遞都是編碼——解碼。所以,“翻譯”成了人工智能的關鍵。
觀察當下AI大企業,技術線路都有清晰的兩塊,一塊是圖像識別、語音識別方向,一塊是自然語言處理方向。從阿里的小黃圖牛皮蘚鑑別、訊飛的語音識別,甚至到百度的無人車,更多利用前者。從百度的搜索、翻譯、度秘到阿里的機器客服、搜狗的輸入法,更多基於後者。看AI人才也可分這兩類。吳恩達與酷炫的圖像識別(識貓)、無人車相關,王海峯、王小川則與低調的自然語言處理相關。
二者是並列的關係嗎?新任百度AI技術平台體系(AIG)負責人王海峯説過一段話:
相對於看、聽和行動的能力,語言是人類區別於其他生物最重要的特徵之一。視覺、聽覺和行為不僅是人特有的,動物也會有,甚至比人強,但是語言是人特有的。AlphaGo對於普通人來講是非常震撼的一件事情,我們也認為它是一個挺大的成績。但是我們也不能忽略,它的規則是明確的,空間是封閉的,為圍棋訓練出來的程序下象棋就不好用。基本來講是一個可解的問題,但是語言的很多問題是更難解的。
幾天前有文章《百度大清洗》談百度結構大調整,用了“王海峯的崛起”這樣的小標題。我以為應該從自然語言處理技術重要性來理解。
機器翻譯的進化
翻譯,是“自然語言處理”的最重要分支,也是比較難的一支。人工智能在早期就是符號智能,人把各種規則變成符號算式輸入機器,結果深挖下去發現規則比恆河沙粒還多,累死了自己。
最早的機器翻譯方法就是基於詞和語法規則。注意,人類並不瞭解大腦是如何工作的,但是依然工作得很好。反過來,人類自己語言熟練,不代表人能理解自己語言神經是怎麼運作的。這就導致依賴人工規則的翻譯軟件笑話百出。即便現在,谷歌、百度也無法避免下面這樣的翻譯錯誤:


(百度)
後來出現了“統計機器翻譯方法”(SMT),也就是通過對大量的平行語料進行統計分析,找出常見的詞彙組合規則,避免奇怪的組合。
SMT翻譯短語效果好,但是翻譯句子就一般。近幾年基於神經網絡的翻譯模型( NMT)崛起。 與AlphaGo的神經網絡原理類似,NMT模擬人腦神經的層級結構,具有多層芯片網絡,從基礎層開始,越是基礎的層級就越是隻處理局部的任務,把提煉出的局部模式傳遞給下一層。下一層再對上一層接收來的信息進行彙總和進一步抽象,自動識別出總體規則、模式。人不瞭解那些規則也沒關係,反正交給機器了,只要結果正確即可。這就是端到端的翻譯。
但是無論SMT還是NMT,前提是數據量要大。簡單的説,規則都是用函數表示的。假定給你一個未知函數f(x),我告訴你當x=5,f(x)=250,你能推導出函數式f(x)到底是什麼嗎?顯然不能,可是如果給你100個x的具體值,及其對應的f(x)的值,你就可以通過數學學科裏的逼近計算或者擬合函數推導出一個近似的函數f(x)。如果讓機器去做這個推導,那就叫做“機器學習”。吳恩達的著名項目機器識別貓,就是輸入了數百萬貓的照片(x),告訴機器輸出結果是貓這個語詞,機器自己找到了圖像形狀到“貓”這個詞之間的推導規則。

(從無數散點數據中近似地擬合出一條函數曲線)
在翻譯界的常識是:機器翻譯是突然爆發的,原因在於互聯網帶來的大數據。前谷歌工程師吳軍在《智能時代》裏説過,2005年,谷歌翻譯在美國翻譯界大賽上異軍突起,秒殺老牌翻譯公司,靠的就是更多的數據。因為谷歌有互聯網,有網上人類提供的海量翻譯例句。
十年後機器翻譯第二次爆發。百度和谷歌一前一後上線NMT神經網絡翻譯系統。相比SMT聚焦於局部信息(短語),NMT更擅長利用全局信息——在對整個句子的信息解碼、編碼後,才生成結果。所以無論是語音識別還是翻譯,你會發現句子長一點,機器識別和翻譯的效果就會更好一點。
比如,語序問題是“翻譯”頭疼的問題,中文會把所有的定語都放在中心詞前面,英文則會倒裝,以往機器常混淆這個順序。 NMT通過基於深度學習的神經網絡,向人類較好地學習到語序模式,長句翻譯比以往流暢多了。
在谷歌和騰訊都工作過的吳軍,卻認為在搜索、翻譯領域,排在前面的就是谷歌和百度,別人很難追上這倆。因為他們都是搜索引擎起家,先發優勢明顯。誰積累的數據多、算法訓練成熟,誰就贏者通吃。搜狗搜索技術不弱,且有微信搜索的優勢,但是搜索結果依然被人詬病(甚至被詬病的機會也比百度少得多),就是因為起步晚,吃了馬太效應的虧。
為了優化對人類語言世界的理解,谷歌和百度都構建了龐大的知識圖譜,知識點之間不斷生成的關係非後來者能追。

段子手的調侃也抓住了一些本質——由於長期被排除在中國市場之外,谷歌缺少中文數據。去年穀歌的“你畫我猜”遊戲風靡一時,我看那其實就是一種數據採集和訓練模式。你的每一次繪畫和判定都是在教育谷歌的圖像識別系統更精準。谷歌善於用喜聞樂見方式,既做到PR也做到技術提升。
谷歌翻譯進入大陸,以後用的人越多,它的段子也可能翻譯越準,所以比段子沒什麼好得意的。人類之間存在文化壁壘,但是對於沒文化的機器,一切壁壘都會擊穿,或者説一切文化它都能學會,從推特上的種族歧視言論到中國的神段子。真正要比拼的只有技術深度和產品體驗的積累。
很多人歡呼谷歌翻譯歸來,不一定是關心技術,那意思“翻譯”出來就是:谷歌終於回來了,我當年的香沒有白燒。
僅從技術角度來講,我説一切都是翻譯。語音識別也是一種翻譯(從聲音信號翻譯到文字符號,或者從一種發音翻譯到另一種發音)。機器人的文藝世界也離不開翻譯。英特爾、百度等公司都推出過機器寫詩遊戲,經常真假難辨。試分辨下面兩首詩哪一首是人寫的:

(答案在文章最後)
聽王海峯介紹過機器寫詩的原理。出乎很多人的意料,這個寫詩系統正是用翻譯模型來做的。在系統看來,當已經有了第一句詩,那麼寫作第二句詩的過程就是一個翻譯過程——根據第一句尋找合適的對應語句:
首先根據用户 Query(詩歌題目)對要生成詩歌的內容進行規劃,預測得到每一句詩的子主題,每一個子主題用一個單詞來表示。這個過程和人類創作詩歌比較相似,詩人在創作之前往往會列出提綱,規劃出每一句詩要描寫的核心內容,然後再進行每句詩的創作。主題規劃模型在生成每一句詩的時候,同時把上文生成的詩句和主題詞一起輸入來生成下一句詩。在這裏,主題詞的引入可以讓生成的詩句不偏離主題,從而使整首詩都做到主題明確,邏輯順暢。
基於主題規劃的詩歌生成框架(寫詩 2.0 版本)如圖所示:
圖:寫詩 2.0 框架(來源於論文 Wang et al. 2016),有興趣讀者可以參考“機器之心”上這篇有趣文章 ,另外我不同意詩人寫詩是先給每一句列提綱的。
翻譯技術無處不在,這樣我們才能從技術角度理解為什麼亞馬遜、谷歌、百度都無比重視智慧音箱產品,那就是一個人機對話系統,在人與機器世界之間充當翻譯官角色。
還有“實物翻譯”和“拍照翻譯”功能,目前谷歌和百度在做。實物翻譯主要是圖像識別技術,拍照識別物體是什麼並提供相關資料。拍照翻譯,谷歌的產品體驗看似很好,拍照時候翻譯結果直接融入實物,有種虛擬現實的效果。界面極簡,初見時效果很驚豔。下圖是我用谷歌翻譯APP拍攝一本雜誌的截圖,封面上部分中文被“變成”了英文。

據傳,百度翻譯原本也打算這樣做,但最終選擇了更復雜的交互方式——拍照後,需要用户用手指塗抹照片相應部位才會出現翻譯效果。效果不夠酷炫,不過注意,在對谷歌最初的新鮮感過去之後你會發現,谷歌拍照翻譯在目前狀態下無法令畫面靜止下來,無法按下拍照按鈕。畫面動個不停,只能即時查看。百度翻譯則能獲得穩定、可保存(截圖)的效果。
除了技術,產品體驗是一個重要競爭場所。

(百度工程師話不多,但是翻譯的界面有點話多。谷歌界面則極簡)
善解人意,是翻譯要求的品質,也是用户體驗要求的品質。國內的技術型科技企業似乎都有產品體驗弱的問題。比如訊飛的語音輸入技術很強,但是輸入法產品設計上就差了點,全鍵盤首屏缺少一些常用標點符號,也沒有百度輸入法和搜狗輸入法那樣方便調出的多重記錄剪貼板。

訊飛手機輸入法截圖
我給雙方都提過產品建議,誰會更快修改呢?(哥其實特別想做一個產品經理,迫不得已做了研究人員)
谷歌翻譯APP重返大陸,想必會給國內企業帶來衝擊,對於改善用户體驗是大好事。有競爭才有進步。
技術論劍
產品體驗容易學,技術積累更是苦功夫。我相信技術人自己是絕不會只為段子翻譯傳神而沾沾自喜的。在自然語言處理方面,各家巨頭都在比拼。
谷歌自不用説,2016年,谷歌人在《Nature》、《PNAS》、《JAMA》三大頂級科學期刊驚人地發表了218篇論文,絕大多數都關於人工智能領域。簡直就是要爭創“雙一流”。
去年微軟亞洲研究院的秦濤和他的團隊,在機器翻譯領域提出“對偶學習法”,聽起來很有創意。目的是:利用沒有標註的數據。要知道,一般機器學習需要人類標註過的數據。比如一張貓的圖片需要人工打上“cat”文字標籤,然後拿去訓練機器。但是人工標註成本高,探求如何讓機器自主學習就成了未來發展方向。
秦濤團隊認為:很多人工智能的應用涉及兩個互為對偶的任務,例如從中文到英文翻譯和從英文到中文的翻譯互為對偶、語音識別和語音合成互為對偶、基於圖像生成文本和基於文本生成圖像互為對偶、搜索引擎中給檢索詞查找相關的網頁和給網頁生成關鍵詞互為對偶等等。這些互為對偶的任務可以形成一個閉環,使從沒有標註的數據中進行學習成為可能。通過設定一個精巧的原始任務模型,對偶任務可以自反饋自學習。(有興趣讀者可以參考微軟亞洲研究院主頁上的這篇文章)
在自然語言的自主學習領域,最近百度也搞了個大新聞。餘昊男、張海超、徐偉發表了一篇論文,提出了一個新的框架,把視覺識別和自然語言處理技術結合起來,讓AI機器人在沒有先驗知識的情況下,自己學會理解人的命令並在迷宮中導航並定位物體。

他們把初始機器人稱做嬰兒智能體,用無數回合來迭代訓練。在每個回合,只給出極少的像素和語言指令,通過梯度下降,端到端地從零開始訓練,讓AI在實驗中自主學習環境的視覺表示,語言的句法和語義,以及如何在環境中給自己導航。比如要求智能體能夠推廣解釋從未見過的命令和詞彙。
我認為這是一項了不起的探索。為什麼?前面我説人類進入了過度符號化世界,其實略有遺憾。過度符號化意味着脱離現實和實踐。而這篇論文A Deep Compositional Framework for Human-like Language Acquisition in Virtual Environment旨在把AI從符號世界放入物理世界,認為只有物理世界的反饋才能讓AI真正智能。研究團隊認為:
有必要重温吳恩達的話:人工智能領域,很多創新都是中國人搞出來的。
那麼中國企業還缺什麼?古人云,做人要“世事洞明,人情練達”,改一下就可以送給中國AI企業:“技術洞明,產品練達”。技術好,還要轉化為產品的體貼和話語的高度。當然,中國人總是與最好的比,要求很高,動力很足。
我聽到百度基層的工程師朋友誇谷歌翻譯好,我覺得,這是正確的態度。“翻譯”乃國之重器,文明重器。想想嚴復當年對進化論的曲解翻譯是如何影響中國救亡運動的?技術人或許也需要這樣的高度。
附詩詞對比答案:左邊為百度寫詩機器人的作品,右邊為宋代詩人葛紹體所作

(文章原載於虎嗅網,經作者修改並授權觀察者網刊發)