此行向遠:他們為人工智能雕刻靈魂_風聞
观察者网用户_243785-2021-01-11 15:24

此行向遠:他們為人工智能雕刻靈魂
文 | 史中
歷史的穹隆上,總是閃爍着孤星。
孩子坐在田埂旁,一顆星一顆星地數着,也就看到了銀河。
(一)歷史的星河
1942年夏,煙波浩渺的太平洋上,在目睹了四艘日軍航母沉沒後,約克城號背靠它的母港中途島,緩緩傾覆在晨曦中。
與此同時,倫敦遠郊的布萊切利園正值黃昏,日後被尊為計算機之父的阿蘭·圖靈正站在一羣數學家、填字遊戲高手和密碼大師中間,眉頭緊鎖。一排排“炸彈機”正在他們身後全速破解德軍密碼,發出織布機般鏗鏘的鳴響。
而在萬里之外的佛羅里達,空氣里正瀰漫着香甜。
神經科學家唐納德·赫布帶着妻兒來到世外桃源般的橙子公園(Orange Park)。為了幫助耶魯大學探究大腦的秘密,他開始了與黑猩猩、海豚為伍的生活,還親手養了一羣會走迷宮的老鼠。

赫布和妻子孩子在林間小屋
他的筆尖在暗啞的紙面上沙沙響動,一個驚天發現正噴薄而出:特定的刺激,會加強兩個神經元之間的聯繫,而億萬個神經元之間聯繫實時而微妙的改變,難道就是人類智慧的究極奧義?

隔着厚厚的鏡片,赫布雙眼望穿,恨自己尚不能瞭然大腦的全部秘密。但是這張草圖卻像一枚定時炸彈,十多年後,在千里之外的“人工智能”領域陡然掀起巨浪。
1958年的一天,康奈爾大學心理學教授羅森布拉特原地跳起來。他和同事們用400個光電單元模擬人類的神經元運作,用50組“左”“右”箭頭的圖片,竟然教會了計算機自己判斷方向。

羅森布拉特(右)和他的感知機
羅森布拉特把這個寶貝稱為“感知機”。感知機也在日後被人們追認為“人工神經網絡”的 1.0 形態。

紐約時報上,巨幅評論熱情洋溢:“這是一個能夠行走、擁有視覺、能夠寫作、能自我複製,且有自我意識的電子計算機的雛形。”
美國記者們豪情萬丈,睥睨羣山。他們也許猜不到,當時意氣風發的人工神經網絡,即將在未來經歷兩度低谷,在人們心中與鍊金術和騙子為伍;他們更猜不到,就在他們視野之外,一個強大的玩家正在悄然登場,六十多年後,無數繁星將在大洋彼岸閃耀。
1956年,五十三歲的陳光熙教授受哈爾濱工業大學校長李昌的邀請,揮別首都,千里赴冰城,創建了哈工大計算機系。
就在羅森布拉特發明感知機的那一年,哈工大依靠自己的力量研製出了中俄互譯的機器翻譯系統。雖然現在看起來這套系統很幼稚,但在當時它翻譯的外文資料,卻化成火箭的尾焰,把衞星託舉上天;化成潛艇的螺旋槳,把堤岸守衞在身後。

陳光熙
在隨後的幾十年,中國第一台並行數據庫機、第一台並行推理機、第一台會下棋的數字計算機、第一台容錯計算機,都誕生在這片校園。
在101大樓的報告廳裏,系主任李仲榮深情地對每批新生回憶他那一輩計算機學者為了打破帝國主義封鎖青絲白髮的光榮故事,成了同學們畢業幾十年都難以磨滅的共同記憶。
1994年,搖搖晃晃北上的綠皮列車上,“花生瓜子礦泉水”的吆喝聲裏,一個年輕人看着遠處,腦海裏如數家珍地回憶着那些面孔,熱血難涼。
他就是哈工大計算機系學生王海峯。
在他身邊放着一個幾十斤重的揹包,裏面都是寶貝——受他的老師李生囑託從北京圖書館、清華大學、北京語言大學花了上千塊錢復印的最新外文期刊資料。
資料都是“食糧”,他和同學們要靠這些把機房裏那些“帶屏幕的鐵皮兒盒子”喂得更聰明一些,讓它們把人類的語言翻譯得更明白一些。
這一階段,人工智能翻譯技術恰好遇到了瓶頸。靠着揹包裏這幾十斤的資料,未來究竟能把翻譯做到什麼程度,研究生王海峯當然不敢下結論。但是和很多哈工大人一樣,他至少可以確信一點:只要堅持往前走,自己總有一天可以找到突破點。
他去車廂接縫處洗了把臉,轉頭望向窗外,沃野千里,稻麥縱橫,這片土地似有萬語千言。火車就這樣不疾不徐地搖向遠方,把昔日的景色也一併帶進泛黃的照片。
多年後,王海峯也經歷了屬於自己的故事。

1995年,王海峯在哈工大機器翻譯實驗室。
(二)等風來
人工智能的演化史,像極了生物大腦的演化史。
從羅森布拉特連接了400個節點開始,幾十年間隨着計算機芯片的進步,神經網絡中的“節點”增加到幾萬個,到後來增加到數億個。這才有了今天你所用到的各種人工智能應用。

卡斯帕羅夫輸給“深藍”
如果説人工智能科學是一座城堡,那麼每個應用方向都是一個房間。這些房間有:語音識別、圖像識別、自然語言處理、知識圖譜等等等等。。。

王海峯當年心心念念做的“翻譯”,其實屬於“自然語言處理”這個房間,它的英文簡稱叫做 NLP(Natural Language Processing)。
用通俗的語言説,NLP 乾的事情就是兩樣:1、讓機器聽懂人話;2、讓機器用人話表達。
説到這,你腦海裏肯定會出現那些科幻電影中的機器人,例如《2001漫遊太空》裏的 HAL 9000,或者《終結者》裏的 T-800,或者《星球大戰》裏的 3PO 和 R2D2。沒錯,這些鋼鐵和硅片拼成的機器人之所以能夠跟人類對答如流,甚至擁有情感,就是因為背後有 NLP 技術加持。

你看,在科幻電影裏都堪稱“扛把子技術”,NLP 的難度有多大,可想而知。實際上,自然語言處理被公認為人工智能最難的分支沒有之一,也被稱為人工智能皇冠上的明珠。
隨便抓來一個 NLP 領域的科學家,Ta 一定會告訴你,自己擁有兩個終極夢想:
第一,讓不同語言的人無障礙地交流,也就是**“機器翻譯”**;
第二,讓人和機器能夠無障礙地交流,也就是**“人機對話”**。
站在2020年的世界,看上去這兩個夢想也沒那麼遙不可及。可是在上世紀末,NLP 可謂是有一顆藏獒的心,卻配了一個泰迪的身:
大規模的神經網絡需要搭配大量的計算力和數據才能擁有智能。可是你想想,那時候“486”、“586”的電腦才剛剛問世,什麼雲計算根本就是天方夜譚。
結果就是:很多學術算法看上去很有潛力,可是如果放在當時的計算機上就得跑幾十億年,就算好使也得搭配長生不老藥使用。。。
這裏不妨插播一個故事。1980年代,國力扶搖直上的日本不信邪,嘗試獨立開發出性能爆棚的“第五代計算機”用以支持人工智能,進而可以對美國説“不”。

結果,由於目標設定得太猛,超越人類科技能力,第五代計算機最終宣告失敗,日本繼續對美國説“爸爸”。
有了這些前車之鑑,90年代中國人工智能研究也轉入低潮。如果那時計算機專業的人跟別人説我的理想是“人機對話”,對方看你的關愛眼神就跟看一個誤入傳銷組織的無知青年別無二致。技術突破希望渺茫,科研機構的經費也被迫削減。那時節,很多學校裏研究了十幾年人工智能的老教授,有的轉崗,有的下海經商,有的甚至被派去看機房。。。
王海峯並不準備轉行。他的直覺告訴自己:“這東西對國家有用。既然是對國家有用的東西,總要有人繼續堅持。”
正如六百年前生在繁華港口熱那亞,從小就浸染在對馬可波羅筆下“華貴天城”杭州的憧憬裏的哥倫布,滔天巨浪也不能讓他放棄航海夢;一個畢業於校歌中唱着“民主和科學是我們的追求,忠誠和報效是我們的選擇”的哈工大,目睹了前輩們為了祖國科學付出韶華的王海峯,字典裏恐怕也難尋“退卻”二字。
哥倫布用漫長的青春遊説各國國王支持他的遠航,每天在海岸邊研習水文星象,等待有一天浪潮來了自己要第一個衝進大海;畢業后王海峯輾轉十年在微軟研究院、東芝研究院這樣的研究機構中,如達摩面壁一般每日精進着研究,向學術組織一篇一篇地投遞論文。
時光的河流映照着斗轉星移,2009年,王海峯已經成為了 NLP 學界鼎鼎大名的大牛。那時節,哪怕是最謹慎的人,也會判斷王海峯的餘生是板上釘釘的衣食無憂、眾星捧月,可以坐享人生了。但王海峯並不這樣想,眼前的一切成績都只是他夢想的前奏:“十年面壁圖破壁,實業報國方英雄。”
上天眷顧,在港口張望多年的船長終於等來了浪潮。
這個浪潮名叫互聯網。
嚴格來説,互聯網浪潮在2000年左右就已經在中國掀起,可那時大多數互聯網企業為了跑馬圈地,關心的是“流量”、“轉化”這些詞彙,別説和人工智能,甚至和“技術”都沒那麼貼邊。
2009年8月18日的百度世界大會上,王海峯聽到百度創始人李彥宏説出了一個驚豔的詞:“框計算”。
他被吸引了。
根據李彥宏的介紹,未來你不用在搜索框裏輸入準確的關鍵詞,而是輸入一句話,一個短語,或者隨便什麼要求,百度都可以經過理解,努力給出你想要的結果或者服務,這就是“框計算”的涵義。

當時有關“框計算”的報道
王海峯的腦海裏瞬間閃過三件事:
第一件:原來搜索引擎還能做成這樣!
第二件:如果真想把框計算做深,沒有 NLP 的加持是不可能的。
第三件:NLP 這件事兒我做了十幾年,我有信心做好。
這件小事,讓王海峯和百度即將超越普通用户的關係,發生事業上的“親密接觸”。
故事講到這裏,我們不妨先讓王海峯的故事定格,調轉鏡頭,看看在北京西北角的百度大廈裏發生着什麼。
我們把時間倒卷幾年。2006年,一位叫做吳甜的浙大畢業生提着行李來到北京。讓一個女生放棄咖啡江景落地窗的外企,下定決心俯衝進這座浩瀚的北方城市的理由,居然只是一張招聘海報。
海報上有一句話:是做一條舒服的蟲,還是驕傲的龍?

百度2006年的招聘海報
她堅信,自己讀懂了百度傳達的“暗號”。
如果回到那個歷史現場,百度其實正處在“戰爭狀態”。
就在一年前,李開復就任谷歌大中華區總裁,鼓足風帆,殺氣側漏,直奔百度而來。李彥宏發起“閃電戰”全力反擊。
當時,百度採取的策略是一艘航母加無數艘驅逐艦的戰法:
“航母”就是搜索產品,內部稱為 PS 業務;
“驅逐艦”就是百度知道、百度貼吧、百度百科、百度MP3、百度地圖這些產品,內部稱為 NS 業務。
當時百度同學肩扛手提,一夜之間在機房裏上線了幾十台服務器,百度搜索的索引量逐漸超過 Google,而有了“知道”“百科”這些產品護航,中文信息質量一下子變得更高更豐富,當時就連 Google 搜出來的結果都是百度知道的內容。
在這樣一支艦隊上,所有的技術人都如同戰士,扛着代碼的鋼槍,享受着他人發自內心的尊敬。吳甜分明感覺到自己的每一行代碼都閃着光,無數像她一樣的人,正在把這個艦隊裝點得雄姿勃發。
她愛這種感覺。

2007年的百度之星程序設計大賽
哦忘記介紹了,吳甜的研究生專業正是人工智能。在當時的百度,有人工智能專業背景的人鳳毛麟角。
一日,人們一大早過來,發現坐在角落裏的吳甜正在嘿嘿傻笑。
原來,她“擅自”在百度知道里加入了一個“NLP 模塊”。這個模塊的工作原理是醬的:
1)先為所有的問題回答者打上標籤——例如有的人善於股票問題,有的人善於美食問題;
2)然後再為提問者的問題打上標籤——有的是在問股票,有的是在問做飯;
3)最後把這些問題和答案智能匹配,把適合的問題推薦給適合的答者。
那天早晨,吳甜打開後台日誌,發現在這個推薦模塊的加持下,人們使用百度知道的記錄像瀑布一樣奔湧而出,飛流直下,銀河九天。
自己的技術通過一根根網線,同時觸摸到了幾千萬活生生的人,那種感覺真的太開心了。
吳甜對我回憶。

吳甜
那一刻的感覺像打開窗迎面而來的沁人花香,直到今天還讓吳甜沉醉其中。幾年間,吳甜輾轉了幾個崗位,都試着把人工智能的技術像奶油一樣裝點在各個產品的”蛋糕“上,效果奇佳。
當然,吳甜不是孤例。當時在搜索、地圖、MP3等等部門,其他幾位有人工智能專業背景的同學也在各自的崗位上進行着探索。
每一次微小的技術改進,都像一枚重炮,呼嘯着奔向敵軍的甲板。
27歲的吳甜沉浸在一場場戰鬥中,暫未認真思考終局。她並不知道,自己的職業生涯將會像一顆行星,即將遇到巨大的“技術引力場”而改變軌道。

(三)新大陸上的據點
2009年,百度在中文搜索領域完成絕殺,市場份額暴漲至谷歌的三倍多,股價從100塊飆到了將近400塊,李開復宣佈辭任谷歌大中華區總裁,在歷史的刻度盤上,此時距離谷歌退出中國僅剩幾個月的時間了。
百度宜將剩勇追窮寇,形勢好得不能再好。李彥宏也像明星一般,所到之處是鮮花、粉絲、尖叫、熒光牌。

李彥宏
可是他心裏卻隱約覺得不安穩。
這種感覺總結成一句話就是:百度的技術護城河還不夠高。
就像越強壯的人越會去健身,越仰仗技術的公司越覺得技術還有提升的空間。在百度的理想中,自家的搜索引擎必須能夠讓用户“哇”地一聲叫出來——這樣才能讓黑暗中蟄伏的對手知難而退。
於是,百度開始鼓勵各個業務部門——也就是吳甜他們——加大力度在人工智能技術上投入。
不過問題很快出現了:人工智能如果作為蛋糕上的裱花奶油,大家都能玩轉,但要真刀真槍成為生產力時,各個部門立刻顯出了疲軟,由於缺乏理論指導,東一榔頭西一棒槌,收效不好。
領導層意識到,為了迎接“框計算”的時代到來,百度需要找到一位能在人工智能領域統領全局的將領。
2009年的百度世界大會不久,王海峯與百度人相見了。簡短溝通,他就確定了加入百度的意向。
“當時你有沒有其他選擇?”我問王海峯。
“那時的產業界,能有人提出來人工智能就很好啦!百度提出來,我第一個就來了。”王海峯説。
“你有沒有擔心過,人工智能這件事兒,百度可能只是説説而已?”我問王海峯。
“這其實不重要。只要我用行動把它做出來,就不是説説而已了嘛。”王海峯笑。
1492年,西班牙女王贈送給哥倫布三條船,哥倫布還給了西班牙一個美洲;2010年,李彥宏把信任給了王海峯,在未來,他將還給百度比這份信任更超值的回報。
早晨七點半,一個筆直的背影坐在電腦前,襯衣繫到第一個扣。
一些未曾謀面的同事經過,都上來搭訕:“你就是新來的王海峯老師吧?”“你怎麼知道?”王海峯詫異地問。“一猜就知道,我們一般。。。不這樣穿衣服。。。”對方説罷,趿拉着拖鞋走了。
説實話,最開始我們確實看上去不太一樣,但是和同事合作之後我就確信,我們都是尊重技術,信仰技術的人,本質上是相同的。至於衣着,很快我們就一樣了,你看我現在,跟別人有區別嗎?
王海峯笑着對我説。

王海峯
按照之前的計劃,王海峯會組建一個 NLP 部門,把散落在各個業務中的人工智能人才都攏在一起,兵合一處,統一為百度所有的業務提供彈藥(當然,主要是為“航母”搜索提供彈藥)。
那年春節後上班的第一天,吳甜的主管找到她:“百度新組建了NLP部門,你要不要轉過去?”
“我思考了兩點。第一點:當時我特意看了海峯老師的履歷,他的專業背景很強,而且有無數成就。那時候我才畢業三年,懵懵懂懂,我覺得需要一個能帶領我向前走的導師。第二點:那時候公司經常組織一些技術交流活動,我都會參加,我明顯感覺到人工智能會是公司未來發展的重要方向。”
即使是回憶往昔,吳甜也用這種“小標題”模式,滿滿的工程師風格。但不得不承認,畢業三年就能看清這兩點,她的遠見已經是碾壓式的了。
就這樣,吳甜幾乎沒有猶豫就加入了王海峯的隊伍。彼時散落在各個業務的田浩等一批技術信徒也選擇加入。
就在前後腳,還有另一個重磅人物加入了百度 NLP 團隊,她就是吳華。吳華和王海峯是老相識了,在東芝(中國)研發中心的時候,吳華就是王海峯團隊的一員。
要我説,吳華是一個有着少女心的學霸,科學就是她最大的浪漫。年少上學的時候,她只喜歡一件事兒——躲在角落裏推理數學題,看着那些線段拼成的幾何圖案,心裏就能感覺到寧靜和美麗。。。
別笑,這世界上真有這樣的人。

吳華
學院派的吳華加入百度,當然有一半原因是王海峯。另一半原因,是李彥宏。
來之前,我看過李彥宏的採訪,也看過他跳舞,跳得還挺好。他説話很客觀,很冷靜,不煽動,既不熱情,也不冷漠,帶有一種技術人的單純。。。不過這在我看來都是靠譜的特徵。
吳華笑。
有了三五杆槍,隊伍算是基本成型了。這時,王海峯又想起了學術界的朋友們。
他先給各個大學教授挨個打電話,鼓勵他們推薦學生來百度,再給自己十年來一起共事過覺得不錯的年輕人打電話。在黑暗裏舉起火把,自然有同路人循光而來。王海峯並沒有費很大的力氣,就組建起了一支精悍的 NLP 團隊。
“你邀請他們的時候,用不用請他們吃個飯?”我問。
“印象中還真沒有。”王海峯説。
“就打個電話?”我問。
“就打電話。”他確定。
根據吳甜的回憶,比自己大十歲的王海峯剛剛帶隊的時候,有一種大叔的萌氣,連最基礎的網絡用語,像“蘿莉”、“正太”、“盧瑟”這些都不知道。
不過,這完全不影響團隊被王海峯的引力場所折服。在團隊組建早期的一次全體會議上,王海峯講了一套 PPT,裏面滿是他對團隊未來的想象和周密的計劃。


我截了兩張圖,你感受一下。
而吳甜的印象中,有一次王海峯給他們開季度會,標題就是:仰望星空與腳踏實地。回到當時,團隊恐怕並沒人深究這句話的意涵。而如今,當這羣人回望來路,發現自己竟然用了十年時間踐行了句話,才愈發感覺到這幾個字的炙熱和濃烈。

這張幻燈片也被找到了。
吳華記得,當時最難的就是給別人介紹自己的工作。
“我説我們是搞人工智能的,人家問什麼是人工智能?我就説我們是搞 NLP 的,人家問什麼是 NLP?我就説我們是搜索團隊的創新小組。人家才似懂非懂地走了。”吳華笑。
不過,這種格格不入反而成為了一種兇猛。像星火燎原。
沒過很久,人們就意識到百度搜索發生了變化。
2010年,百度上線了“即搜即用”。在搜索框裏搜索一些應用或者遊戲的名字,不用下載到電腦就可以直接在網頁版上運行。例如搜索“植物大戰殭屍”,就可以在網站上玩這個遊戲。
2011年,百度上線了新首頁。就是每個人在百度上搜索,看到的信息是給這個人量身定製的。後來通俗的説法把這種技術叫做“千人千面”。
一片“人工智能”的新大陸,隱隱然出現在這些水手面前。
但是,“新大陸”上僅有“NLP”這一個據點,王海峯還覺得遠遠不夠。他專門跑到李彥宏辦公室去做彙報,講的不是 NLP,而是人工智能的另一個方向:語音識別。他的理由是:這些年語音識別的準確率一直在攀升,馬上就要到產業化的臨界點,一旦突破很快就會大規模商用,此時佈局,才能佔盡先機。
李彥宏憑藉自己對技術的信仰和判斷,決定再次支持王海峯。
依靠這樣的邏輯,王海峯陸續建立了與“NLP 部門”平行的“語音識別部門”和“圖像識別部門”(當時叫多媒體部)、“知識圖譜部門”(當時叫互聯網數據研發部)。
講真,當時王海峯的這波操作,把很多百度同學看得一愣一愣的:“這些技術和百度現在的產品也沒關係啊,一股腦創建這麼多部門,是攢着過年嗎?”
不過,當幾年以後百度陸續進入“自動駕駛”,推出“小度機器人”,進軍“產業智能化”的時候,這些答案也就順次揭曉了。此乃後話,略去不表。
我們還是回到 NLP 部門。
除了用 NLP 技術改善搜索體驗,王海峯和團隊同學心裏還有一個亟待實現的小夢想,那就是心心念唸了十幾年,NLP 學者的終極理想之一——“機器翻譯”。
不得不承認,在機器翻譯這件事兒上,百度的老對手谷歌可是佔了先機的,早在2006年就推出了谷歌翻譯,並支持中文。當時正準備畢業的吳甜還饒有興趣地體驗了一把,輸入了“蚍蜉撼大樹”這種“送命題”來難為谷歌翻譯。當然,受限於數據和技術,當時的翻譯結果並不好。
不過,有吳華、王海峯這樣做了幾十年機器翻譯的國際大咖坐鎮,後期直追並不難。

十年前的翻譯結果沒有圖了,我找來2020年穀歌翻譯的結果。
2010年底,這羣中國人終於要做屬於自己的“百度翻譯”了。
王海峯發現,在百度做翻譯和之前做翻譯,有兩點很大的不同。
第一,百度翻譯可依靠的數據空前廣闊,凡是搜索引擎能抓到的中外文對照頁面,都可以成為驅動翻譯引擎的石油。
第二,因為這些網頁都不是為了你做翻譯引擎而準備的,所以這些“石油”的質量其實參差不一,需要先用技術“精煉”一下才可以使用。
在石油產業中,石油精煉的技術含量遠比開採原油要大;同理,把海量的數據進行“精煉”的技術才是最有挑戰的地方。講真,當時的中國還沒有人踏足過這個技術領域,原因也很簡單——除了百度,別人沒有這麼多數據。這就等於 NLP 團隊擁有了對這片處女地的“獨家開採權”,這更讓他們心潮澎湃。
在研發的過程中,王海峯不斷親手測試百度翻譯的效果,越測越激動。説到當時的感受,他的原話是:“可以用驚豔來形容。”
“2011年6月30日,百度翻譯上線。”
王海峯坐在我對面,這個時間幾乎是脱口而出。對於普通用户來説,這只是百度的一個產品。對於王海峯來説,這是他的一個夢。
在百度翻譯剛上線的階段,王海峯一遍遍地刷着後台的使用數據,無數用户湧進來,翻譯着五花八門的句子——那些用户無比真實的細節堆疊躍遷為浪潮湧動,如遷徙的角馬羣一樣掀起隱天蔽日的塵土。
一貫冷靜的王海峯此時卻抑制不住興奮,高興得像個手握嶄新的變形金剛的孩子。
而吳甜也輸入了“蚍蜉撼大樹”來難為百度翻譯。得到的結果讓她很滿意。用更廣闊的中文語料訓練出來的翻譯系統,果然可以更準確地翻譯出這個民族的文化內涵。

這是我在2020年截的百度翻譯的結果。
在團隊慶祝的宴席上,已經在機器翻譯領域摸爬滾打了十八年的王海峯舉起酒杯:“過去一個禮拜,用到我們翻譯技術的人,比過去十八年的總和都多!”
短短一句話,卻讓十八年的歲月如狂風掃過曠野。在這六千多個日夜裏默默雕刻一個夢想,其間會遭遇多少內心的困境,一次次把自己從荊棘裏拽出來繼續向前,身上會留下多少傷疤,這些恐怕王海峯永遠不會與人訴説。
2015年,王海峯牽頭的“基於互聯網大數據的機器翻譯核心技術及產業化”獲得了國家科技進步二等獎,和京滬高鐵、油田勘探技術同台領獎。這個榮譽,被王海峯小心地放在記憶裏。在他講述的時候,我依然能感覺到滿滿的虔誠。

這是當時在人民大會堂領獎的留念。
短短三四年間,NLP 團隊為百度貢獻了很多果實。但是,百度這條“大船”也教會了 NLP 團隊很多東西。
為了讓百度翻譯能吸引更多用户使用,NLP 團隊不斷向其他老百度團隊學習——什麼是用户需求;什麼是迭代升級;什麼是龐大的人口之下複雜而真實的中國;什麼是在互聯網這個叢林裏躬身入局所要承擔的風險和代價。
在百度的積累和成長,在那個深夜,幫王海峯做出了一個重大的決定。
(四)上前線
2012年8月15日,360 低調上線綜合搜索。百度心裏清楚,懷揣十年搜索夢的“顛覆者”周鴻禕很可能比當年温文爾雅的“外來和尚”李開復更難對付。
果然,360 來勢洶洶,一週就砍下全中國搜索份額的10%。8月28日雙方短兵相接,上演了“3百大戰”,而後雙方轉入拉鋸戰。
沒想到,在持久戰中360依然表現頑強,在未來的一年半,人們將會見證它的股票狂飆近十倍。雖然彼時市場份額還相差懸殊,但已經有一羣賭徒在球場邊瘋狂地押注落後一方逆風翻盤的可能性。
2014年1月,春節將至。李彥宏邀請公司管理層到家裏聚餐,日常每天七點半出現在辦公室裏的王海峯,那天也發揮穩定——是第一個到的。
等待其他人的過程中,李彥宏把當時百度搜索遇到的具體問題都和王海峯講了。説者也許無意,但聽者卻走了心。
當天回家的路上,王海峯心緒難平,他意識到百度搜索可能面臨的危機,而與這個危機相關的無數種可能性在他心裏反覆推演,暗潮湧動。
那天晚上,他決定“主動請纓”。
在王海峯建立的幾個團隊中,只有和搜索貼合最緊的“NLP 團隊”和“知識圖譜團隊”跟隨他一起進入了搜索業務部,吳甜和吳華她們均在此列。
春節回來,NLP 核心團隊就集體上陣,他們對搜索的全面改造主要從兩個方面下手:
1、搜索的結果
當時各家的網頁搜索,都會有一個右側邊欄,會根據你的搜索關鍵詞聯想一些相關的問題。但是在這方面,百度做得優勢並不明顯。

這個右側的“相關電影”就是基於人工智能的推薦。
技術上,根據已有的信息做聯想,其實非常考驗“知識圖譜”的能力。
通俗來説,知識圖譜是知識的集合,包括常識——打雷要下雨,天冷穿棉襖,劉德華的老婆叫朱麗倩,成龍的兒子叫房祖名。從天文地理到娛樂八卦,都是知識圖譜的範疇。
由於之前知識圖譜團隊和搜索團隊分屬兩個不同的部門,所以搜索對於知識圖譜的利用並不好,這下,知識圖譜終於有了施展的舞台。
知識圖譜當時的負責人是現任百度CIO李瑩,吳華也作為成員參與和見證了知識圖譜的研發攻堅。
這裏科普一下,知識圖譜的生成,不是你想的那樣要靠人來一條條寫,而仍然是需要從全世界五花八門的網頁集合裏提取的。只要是從互聯網的內容裏提取,就難免會收錄奇葩的錯誤。就好像當年微軟用 Twitter 上的數據訓練的機器人 Tay 一樣,上線一天就學會了罵人,甚至滿嘴陰謀論。
於是,吳華他們絞盡腦汁改進算法,剔除錯誤的圖譜。
後來他們還想到了一個好辦法,用用户的請求來做“交叉驗證”。舉個例子,假如自動生成的知識圖譜認為巴西的首都是里約熱內盧,但是用户經常會把“巴西首都”和“巴西利亞”放在一起搜索,這時就會觸發機制,第一時間修正知識圖譜。

知識圖譜示意圖
2、搜索的速度。
很少有人意識到搜索速度的重要性。但從指標上看,搜索結果每快0.1秒,都會大幅增加人們對於搜索引擎的好感度。
而為了增加搜索速度,需要對搜索引擎底層架構進行重寫。這套架構的重寫,雖然不是 NLP 團隊的任務,但是新架構卻給了 NLP 技術更大的舞台。
例如,後來百度上線了一個“搜索預測”的功能,就是你還沒輸完關鍵詞,它就預測出你想搜什麼,你就可以直接點選,不用費事輸完,這同樣提高了搜索速度。而要做到這一點,就必須依靠新的架構。

搜索預測大概就是這樣
那時候搜索團隊像打仗一樣,每兩週就要開一次全體會議校正航向,每週都會根據指標來改進搜索技術,而王海峯更是每天盯着搜索結果,站在一線指揮戰鬥。
搜索的體驗其實是很細節的。例如,某個新詞剛開始流行的時候,會有大量的人開始搜索。這時,百度就必須第一時間感知到這是個新詞,並且為這個詞專門優化搜索結果。這個過程越快,識別得越準確,用户的體驗就會越好。
吳華説。
而讓吳甜驚訝的是,那段時間,王海峯莫名學會了很多最新的網絡流行詞。“有很多新詞我沒聽過,他卻能順口説出來。後來我知道,他是天天研究搜索後台的 Badcase,學會了。”吳甜笑。
一頓操作,成績究竟如何?
到2014年3月6日,在王海峯出征一個多月的時間裏,百度搜索右側推薦的體驗和覆蓋率已大幅提升,反超競品。有趣而巧合的是,這一天,不偏不倚正好是360在美股的市值巔峯,之後便一路下滑,它對於百度搜索地位的挑戰,就此畫上了長長的休止符。
經此一役,百度在搜索領域又擊退了一波進攻。王海峯鎮守搜索技術邊疆,和平維持了相當長的時間。
然而,在技術護城河的加持下,廣告收入像黃金河流一樣流入百度的城池。正如五百年前美洲的黃金流入西班牙一樣。
也許金錢是詛咒。眾所周知的問題,正在前方等待着百度的每一個人。

(五)荒野求生
後來百度的一系列危機,坊間各路傳聞和評價歷歷在目。不過,這個世界上,逃離戰火永遠是最簡單的選擇。而站在此地,讓腳下的土地鮮花重新盛開,才是勇敢者的遊戲。
正如哥倫布的那次探險,在所有船員都乾渴無助“逼宮”要求返航的時候,他仍然鼓足風帆,在看不到希望的情況下星夜兼程,才終於在最後一個清晨抵達美洲。人工智能的征程,才剛剛上路,星辰大海在前,返航不可能成為選項。
那幾年,百度有人走了。但王海峯沒有走,吳華沒有走,吳甜沒有走,NLP 團隊沒有走。還有千千萬萬的老百度人沒有走。
於是,在凌亂和迷茫的秩序下,湧動着一場盛大的“荒野求生”。
在 NLP 團隊的視野裏,這場荒野求生有兩個重大的節點。一個是小度助手的出生,一個是信息流業務的創建。
先説小度助手。
不知你還記不記得,前面我們説過,NLP 研究者有兩個夙願:1)機器翻譯;2)通用對話機器人。
早在2011年,在這羣 NLP 瘋子的努力下,百度翻譯已經面世。可對話機器人卻遲遲沒能降生人間。

這裏面至少有兩個原因:
1)技術不到家,做出來的通用對話機器人智障得厲害,拿不出手。
2)場景不明確,不知道做出來給誰用,怎麼用。
當然,不僅是中國,全世界都面臨同樣的問題。這兩個問題必須一個個解。
先説技術不到家的問題。
其實,今天之所以人工智能這麼火熱,街邊隨便一個大爺都能上來點評兩句,是因為在2014-2016年間,人工智能技術領域“天降猛男”,這位猛男就是“深度學習技術”。記住這個名字,今天我們用到的絕大多數人工智能,都要拜深度學習的成熟所賜。
你還記得羅森布拉特的“感知機”嗎?感知機的神經網絡,就可以稱為淺層神經網絡。通俗理解,把淺層神經網絡用特定的形式堆疊起來,就是更像人類大腦的“深度神經網絡”,用深度神經網絡做人工智能的方法就叫做“深度學習”。
在數據充足的情況下,深度學習相比傳統神經網絡的優勢,就像是坦克碾壓戰馬。

其實深度學習模型早在1980年代就被提出來了,但由於之前反覆説到的“計算力不足”和“數據量不夠”這兩個鋼鐵天花板,深度學習技術一直像醜小鴨一樣備受排擠,沒看出來多厲害。
但是到了百度,突然轉角遇到愛。取之不盡的數據,用之不竭的計算力,讓王海峯長期技術積累鍛煉出來的直覺一下子被觸動,很快就看出來深度學習的優勢巨大,於是在2013年他就力薦李彥宏建立了百度深度學習研究院(IDL)。在深度學習的研究上,百度並不比公認的人工智能巨頭谷歌晚。
當然,深度學習也並沒有神到“讓機器人瞬間就能出口成章”的那種程度。NLP 團隊決定,先把自己的夢想縮小——之前他們一直“妄圖”要做一個上知天文下知地理對答如流的“通用對話機器人”,後來他們現實了一些,主要讓機器人從做“任務執行”和“資訊檢索”這類簡單事情開始。

深度神經網絡示意圖,通過一系列神經卷積,識別這個圖像是數字“7”。
再説場景不明確的問題。
其實早在王海峯負責搜索之前,就已經帶領語音和NLP的創新團隊做出了這個機器人的雛形,分別是“音箱”和“藍牙耳機”的形態。可以直接問這個音箱:“中國有多大?”雲端的人工智能就會通過語音回答你:“960萬平方公里。”
只不過,那時候王海峯主動請纓進入搜索,沒辦法把這個部門也帶進搜索,於是慢慢擱置了。
直到2014年9月16日的江蘇衞視《芝麻開門》節目上,百度冷不丁帶來了一個很厲害的機器人,在知識問答上碾壓一眾選手。沒錯,這個機器人就是王海峯在搜索團隊內部重新孵化的,採用深度學習技術做出的“小度機器人”。
當時各大媒體爭相追捧,把背後的百度技術人當成明星一樣崇拜。

小度機器人
可是亮相之後怎麼辦呢?小度到底能幹什麼?
當時百度搜索的產品總架構師景鯤,絞盡腦汁要把小度派出去“打工”,先是把小度放在PC搜索框旁邊,鼓勵人們通過語音搜索;後來又放到手機百度裏,讓人們通過它訂餐訂服務;後來又放到合作伙伴生產的冰箱、電視裏;直到最後,才輾轉做回了智能音箱的形態——“小度音箱”。
那小度音箱是用在什麼場景的呢?它被百度認為是每個人的“秘書”,坐鎮每個人的客廳和卧室,主要工作恰恰就是剛剛所説的“任務執行”和“資訊檢索”。
這裏還有一個有趣的插曲。
2014年王海峯帶着景鯤他們去黑龍江雪鄉開會,探討未來搜索應該朝哪個方向發展。大家一致認為未來搜索的下一個形態就是“秘書”。景鯤開玩笑説:“未來的搜索就是姬然。”姬然就是當時王海峯的秘書。
既然“秘書”是搜索的下一代產品,那小度音箱可就是百度搜索的繼承人啊,分量不言自明。
我們從來沒有這麼多人壓上去做一個技術。在做小度助手的時候,NLP團隊的一半人都去了,知識圖譜也有一半人去了。
吳華回憶。
那之後,小度經歷了悠長的暗夜,直到2018年才異軍突起,此乃後話。(小度的故事,我寫在了另一個萬字長文裏,感興趣的淺友可以去看看:《吾兒,小度》)
在小度獨自探索的日子裏,另一場荒野求生也在緊鑼密鼓地進行。

景鯤和蔡康永,在小度音箱的發佈會上。
接下來就説“信息流”。
2016年,李彥宏親自掛帥,秘密研發了百度的新產品——信息流。
現在你打開手機百度 App,可以看到搜索框下面像瀑布一樣向下排列的文章,這就是信息流。在外界看來,這個產品既是百度對標今日頭條的產品,又是百度在搜索之外開闢的第二個盈利戰場。
吳甜告訴我,信息流產品的核心技術正是 NLP,主要包括兩大方面:
第一,是對文章的理解。通過 NLP 技術,好像做一次“閲讀理解”,把這篇文章的領域、主旨、關鍵詞、觀點、情緒分別提取出來。
第二,是對人的理解。通過 NLP 技術對人的搜索關鍵詞、對於文章的觀看和滑動行為來判斷ta的品味、性格、觀點和關注領域。
有了對文章的理解和對人的理解,只要把特定的文章推薦給特定的人,就完成了。(當然推薦的時候,不會使用“你喜歡什麼就只給你推什麼”這麼傻的策略,百度和今日頭條都不會。這裏面涉及更復雜的知識,此處就不詳細説了。)

其實,當時百度高層“要做信息流產品”這個決定一下來,推進執行非常快。整個信息流產品從研發到上線,只用了25天。
項目組第一時間找到 NLP 團隊做技術支持時,沒想到,NLP直接把信息流所需要的核心技術“對人的理解”和“對文章的理解”拿了出來。原來,NLP 團隊早就在內部把這些技術做了預研,沒什麼原因,就是覺得將來肯定有產品能用到。
站在今天回望,在搖搖欲墜的艱難時刻,真正幫百度穩住陣腳的,恰恰是“小度音箱”和“信息流”這兩款產品——小度音箱貢獻了搜索之後人們對於百度產品的想象空間;而信息流業務則幫助搜索業務撐住了營收。
而在這兩個產品背後,NLP 團隊的兇猛和遠見功不可沒。
然而,僅僅穩住陣腳還遠遠不夠。
在絕大多數人眼中,BAT 是一個存於底層記憶的詞彙,在人們的腦海裏,BAT 這三家互聯網“開國先賢”應該而且必須永遠是那個沒有道德瑕疵的,遇事冷靜遊刃有餘的,能夠把互聯網以及中國科技帶向公平和開放的神。
每一句嬉笑怒罵,每一次冷嘲熱諷,從本質上都是億萬國民對百度的鞭策,百度不僅無權爭辯,而且需百倍努力。
荒野尚在,求生未止。

這是2010年時 NLP 團隊同學們的合影。
(六)實業報國
幾千年的榮辱浮沉,讓中國士人總結出了真言:窮則獨善其身,達則兼濟天下。
2018年後,百度是否走出了泥潭,每個人都有自己的判斷,但百度對自己的的判斷是:他們必須刻不容緩地離開獨善其身的自救思維,強行走上兼濟天下的道路,用人工智能為全社會服務。
這就是百度的人工智能產業化戰略。
這是救贖,也是新生。
雖然從歷史的星河俯瞰,人工智能技術尚處在襁褓中,但不管了:進一步,有進一步的歡喜。
2017年,百度邁出兼濟天下的第一步:宣佈整合包括NLP、KG、IDL、Speech、Big Data 等在內的百度核心技術,組成百度人工智能技術平台體系——AIG。
王海峯也終於告別了搜索這個給了他們三年濃重記憶的榮耀與紛爭之地,出任 AIG 負責人。
而後的2018年,百度的基礎體系 TG 歸於王海峯統領,一年之後的2019年,百度智能雲事業羣 ACG 也歸於王海峯統領。同年,王海峯出任百度 CTO。
這意味着,從人工智能所需要的基礎計算力,到人工智能技術本身,到人工智能對這個國家服務的出口雲計算,形成了統一的集團軍。
從1994年的綠皮火車,到2010年“仰望星空,腳踏實地”的演講,到2015年人民大會堂的獎狀,到2018年的小度音箱,到2019年的人工智能產業化,王海峯的夢想始終沒變,變的是他手中越來越強大的武器。
據此,百度開始馬不停蹄地把人工智能送進各行各業,而在這個過程中,NLP 技術仍然佔據着重要的地位。
在人民日報,百度的 NLP 閲讀理解能力幫助記者整理熱點信息,尋找錯別字,把記者寶貴的時間用來集中在純粹的創作上。
在北京平谷馬坊社區,NLP 可以學習經驗豐富醫生填寫的病例,成為一套診療系統,為基層衞生站的醫生提供最專業的診療輔助。

在中國聯通,百度 NLP 技術支持的客服機器人為用户提供服務,把用户等待的時間節省了70%以上,人員成本也降低了10%。
在浦發銀行,在百度的幫助下推出了“數字人”客服機器人,這個客服機器人以一個人類形象示人,可以幫助用户來辦理業務,答疑解惑。

到了2020年,新冠疫情突然襲擊全世界。在這個緊急的場景中,NLP 技術也發揮了巨大的作用。
由於疫情,百度地圖上顯示的很多商户採取了臨時關門的措施,很多顧客都吃了閉門羹。百度地圖緊急調用 NLP 技術支持的客服機器人,用語音電話的方式向所有商户查詢最新的營業時間調整情況,更新到了地圖上。
而在中國疫情最嚴重的時候,國家疾控中心火速上線了疫情問答系統,全國很多人都會登錄這個官方諮詢系統去諮詢防護知識,人工客服回答不過來。這時百度就用 NLP 技術做了一個疫情問答機器人,不僅分擔了很多人類客服的工作,還讓無數焦急的人得到了科學的答案。
而在疫情防控中,中國醫生的表現驚豔全世界。很多國外官方機構都在向中國尋求標準的治療流程手冊。而這些如果純粹依靠人類翻譯,會需要幾個星期時間,患者的救治就會被耽誤,百度翻譯提供了醫學領域的翻譯模型,免費提供給翻譯志願者,讓翻譯的進程大大加快,只用了不到一週就翻譯成世界各國語言。

現在在百度翻譯上,還有生物醫藥的專用詞庫。
這樣的例子還有很多。人工智能和 NLP 正在走出孕育他們的互聯網大公司,化成涓涓細流進入各個傳統產業的海洋。
在時光的河流岸邊,王海峯心心念念將近30年的實業報國,彷彿初見端倪。
而作為一羣理想主義者科學家,百度 NLP 團隊也會用另一種方式報國——把自己的發現和全球學術界共享。
2015年,國際計算語言學協會 ACL(The Association for Computational Linguistics)年會上,百度發表了探討用NMT技術(基於神經網絡的翻譯方法)解決多語言翻譯及語料稀疏的問題的論文《Multi-Task Learning for Multiple Language Translation》,受到業內的極大關注。Google 和 Bengio 的研究團隊都在此論文的基礎上進一步擴展了研究。
而這些只是百度在國際頂級學術會議上的高光時刻之一。早在2013年,王海峯就出任了國際計算語言學協會 ACL的主席,這是 ACL 歷史上首任華人主席。2014年,吳華出任ACL 2014程序委員會主席。

2013年,保加利亞首都索菲亞,ACL 的年會上,王海峯出任ACL主席。
這些榮譽和名頭似乎對普通人來説有點陌生,但是它們卻是一支科技隊伍需要十年如一日的默默前行才能得來的,它們代表了中國在 NLP 領域已經開始領導世界。
在王海峯之前,有一任 ACL 主席曾經半開玩笑地説過:“再過50年,也許所有 NLP 領域的論文都會是用中文寫的。”
無論是 CTO 王海峯,還是百度研究院科學家 Ken Church、技術委員會主席吳華、集團副總裁吳甜、人工智能技術委員會主席何中軍……他們如今都在學術界、產業界獲得了很高的認可,但他們身上卻散發着一種謙卑而淡定的氣息。
我猜,也許正是這些氣質護佑着他們穿越時光。
他們身處一個巨大的戰局,卻更關心每一場微小的戰役,甚至關心每一個據點的建立,每一片高地的奪取,每一顆子彈的方向。
他們在漫長的戰爭中時刻警醒,靠着專業自信預判技術的走向,讓每一次機會來臨時,做出的選擇都足以讓天平傾向自己一點點,讓微小的勝利成為歡喜,再讓歡喜帶來更多的勝利。
今天,NLP 團隊都只有一兩百人,可謂精兵強將。而遙想當年,做出百度翻譯的,只有王海峯、吳華等四個人,做出知識圖譜的,也只有幾個人。
他們在順風的時候,並未賭上全部糧草殺伐四方;他們在逆風的歲月安住自己,但並未停止腳步。他們用盡全力影響着百度的一個個真實的人,使他們安住在合適的位置,讓百度的技術火種在風雨飄搖中依然如心臟跳動。
他們終於等來了春天。
每個人都有不同的信條,每個人都要走好自己的路。我們這代人,從小接受的教育就是要當科學家,我們相信的哲學是“科技是第一生產力”。我的家國情懷也許就是這樣慢慢生長的。我希望我不只是做了一件事兒,而是這件事兒能夠對國家有貢獻。這一直沒有變,也不會變。
王海峯説。
從1956年達特茅斯會議至今,人工智能從科幻電影裏一點點降落凡塵。
如今它可以讓老人也可以通過語音控制播放相聲、戲曲,扔掉那些用了幾十年的磁帶。
如今它可以讓英語不好的普通人也能無障礙閲讀世界的消息,讓知識不再是少數人的特權。
如今它可以清楚地辨別每個人臉的輪廓,只要一秒鐘,就可以證明“我是我”。
如今它可以穿梭於氣候惡劣的荒原、沙漠、無人區,用火眼金睛輔助人類巡檢輸電塔的工作狀態。
而它前面的路,還有億萬年。
人工智能是第四次工業革命的核心驅動力量,你如果要把它放到歷史長河裏,上升到一次工業革命的高度,它的發展至少是幾十年、上百年的,現在只能説還處在早期。每個人都會有危機感,但我通常不會去思考自己走到了那個階段。這麼多年的困難教會了我,遇到問題,解決問題,也就是了。
王海峯説。
告別王海峯和 NLP 團隊,我腦海裏突然冒出一個有趣的問題:
如果沒有哥倫布和那艘聖瑪利亞號,歐洲人還能否發現新大陸?如果沒有這羣堅定的科學家,百度又是不是今天的百度?我沒有得出答案。但我知道的是,在風起雲湧的歷史中,總要有人第一個踏上美洲,用血肉之軀去獨自面對未知、艱險和隨之到來的一切結局。
我腦海裏浮現出哥倫布的一句話:
發現只孕育在勇往直前的堅持之中。我想,它大概與懦夫永遠無緣。
