四個專家大戰耳機,為啥會有這麼“魔幻”的對決?_風聞
差评XPIN-差评官方账号-用知识和观点Debug the world!1小时前
AI 迅猛進步的時代,“ 替代焦慮 ” 成了新關鍵詞。
甭管啥領域,反正你今天辛辛苦苦學習,明天分分鐘 AI 就代替你。。。
只是這些觀點,很多時候有些 “ 一家之談 ” ,以觀點為主,少有實操和對比,但要搞清楚AI與人類能力的現狀,最好的方式,恐怕還是一場直接對決。
所以,去年咱們就在中國傳媒大學擺下擂台,搞了場 “ 人機大戰 ”,北京各大高校同傳專業的優秀學生守擂,AI 翻譯的優秀代表時空壺攻擂。
去年比賽現場

在各種劍拔弩張中,AI 差一點點就翻車了。。。
網絡不好,沒有拉來運營商的專線,直接用的手機 5G 網絡,網絡丟包導致第一輪就漏譯了兩句。到第二輪日語比拼的時候,AI 又聽岔了一個同音詞。
好在後面 AI 逐漸進入狀態,最後以小優勢獲勝。
可能有個別差友還不熟悉時空壺,咱們也再簡單介紹下。
時空壺是專門搞人工智能翻譯設備的,也算是咱老朋友了,主攻 AI 翻譯產品,在海外賣得非常火爆。
今年 3 月,時空壺就靠一手硬科技,火到了《新聞聯播》上,《新聞聯播》平時也就 30 分鐘,這次報道他們報道了近四分鐘。。。

報道主要聊了兩點,就是時空壺把 “ 聽得清 ” 和 “ 翻得準 ” 這兩件事兒,又往前推了一大步。
翻譯本質上就是「 交流 」,它不只發生在安靜的會議室裏,也發生在商場或展會,很多時候翻譯耳機出問題,不是翻譯太爛,而是沒聽清楚,或者被雜音干擾。
為了解決這個問題,時空壺搗鼓出了矢量降噪技術,通過算法鎖定佩戴者的方向和距離,確保只錄入他的聲音,再對那些惱人的雜音進行降噪。
當然,語音交流的複雜性遠不止這些,比如,五花八門的口音和方言,讀音相似的字詞,以及各種專業術語。
以往的翻譯都是詞對詞的 “ 直譯 ” ,你説句手衝,翻譯蹦個 hand-washing ,全然不管你前面在點咖啡。。。
為了實現 “ 直譯 ” 到 “ 意譯 ” ,時空壺開發了全新的 AI 同傳大模型,它能像人一樣,根據對話主題,聯繫上下文,做到精準表意。

今年,時空壺拉上了同傳領域的專家學者們,研究起了 AI 翻譯技術分級,並且高調宣佈自己已達到 L3 級別,語音同聲傳譯。
一邊呢,是 AI 翻譯迅猛進步,另一邊,去年比賽,像咱們英語評委沈洲榕老師就提出 “ 一個成熟的產品跟一個尚未成熟的人類譯員相比,我覺得這不是一個公平的競爭 ”。
乾脆,我們決定今年在深圳舉辦了一場更激烈的決鬥,人機大戰 2.0。
這次時空壺從客場換到了主場**,所派出的選手,也是最新一代的 W4ProAI同傳耳機。**

而人類翻譯隊呢,邀請也都是從業多年,經驗豐富的高級譯員。
其中有人擔任過三菱化學、廣汽豐田、川崎摩托等多個大型企業的翻譯,有人給國家級政要擔任過翻譯。
老實説,我要是 AI 的話,看到這陣容直接汗流浹背了,這也算是賽博時代的 “ 舌戰羣儒 ” 了吧。。。

在雙方選手都有升級的情況下,就讓我們看看這一次對決,孰強孰弱~
為了確保公平公正,同時也讓大家能瞭解到點真東西,我們邀請了語言學專家、AI領域專家以及對應的外語評委等多人評分,評分圍繞準確性、流暢度、專業領域適配、文化適配多維度展開。
既然搞事,那就不嫌事大,為了保證玩的都是真的,咱們也對這場比賽進行了直播。
看評論你就知道了,這次的強強 PK ,有多讓觀眾們上頭。

第一個環節是基礎翻譯比拼,由 4 名外國人分別念一段對應自己母語的文本,主題跨度從世界文化遺產到城市旅遊,涉及到許多專業名詞、文化性詞彙。
在正式比賽前三天,我們公佈了題庫的類目,題庫涵蓋了城市旅遊、信息技術、醫療健康等,以便雙方準備,但是具體會考到哪一道題,咱們是在現場抽取,雙方事前都是不知道的。
這些文本有多難呢?現場聽着,感覺有些外國人自己念起來都有點磕絆。。。
以日語比拼的內容,城市旅遊為例,裏面既有俗語,“ 西安有個鐘鼓樓,半截插在天裏頭 ”,又有各種專業名詞,明神宗萬曆十年,巡撫,碑文,非常需要文化底藴。

就結果而言,雙方水平都很高。
但在表述精準性這塊,尤其長難句的翻譯表現上,AI表現確實是有些驚豔。
比如,AI 完整的翻譯出了 “ 位於西安東南西北四條大街交匯處的鐘樓”,而人類譯員譯文是 “ 東南西北,處於這四條路中心的鐘樓 ”。
同時,遇到信息量大,或者信息太生僻的情況,人類譯員出現少量漏詞,而 AI 基本上都能抓住。像這輪比拼中的 “ 碑文記載 ”,雙方的表現也出現了差異。
這事其實不難理解,在同傳翻譯上,人類的 “ 數據庫 ” 往往是個體的經驗,而 AI 可以聯網學習,匯聚了無數個體的經驗。
不過,有那麼點兒成也數據,敗也數據的味。。。
這輪比拼中,AI 出現了一個人類幾乎不可能會犯的錯誤,把 “ 位於西大街的迎祥觀 ” 中的迎祥觀翻譯成了迎賓館。
北大教授、AI 領域專家鄒月嫺解釋道,“ 之所以會出現這樣的問題,是因為訓練人工智能的數據裏,有很多位於大街上的迎賓館,這個詞權重很高,AI 是按照概率輸出的,缺少知識驅動 ”。
這一輪以 249 VS 243 的比分,人類微落後於 AI 。
而到了法語比拼環節,可能是故意想上點難度吧,邀請了一位來自摩洛哥的小哥來朗讀。
摩洛哥的語言環境非常複雜,第一官方語言是阿拉伯語,法語只是第二官方語言,朗讀者的口音、語速和表達會對譯員產生影響。

這輪比拼完,我有這樣兩個感受。
一來,連續幾輪比下來,能明顯的感受到,人類譯員和機器各有優勢。
人類同傳給人的聽感和交流感是 AI 目前很難比擬的。
**人類輸出給人的感覺是流暢,輸出均勻而且及時,而AI的輸出,間隔時間比較長,會有 4-5 秒的延遲,**這種延遲有時候會讓人懵一下,“ 哎,還沒開始嘛 ”?
在剛開始處理信息,以及需要處理語速快,信息密的信息時,這種延遲更明顯。
鄒教授對此也做了進一步解釋,“ AI 強在翻譯時,能通過上下文,生成準確的內容出來,但最開始的時候,它沒有上下文能看,所以它要讀完第一句才開始,當它開始輸出後就會非常流暢 ”。
但與此同時,口音、聽感、比賽都會影響人類聽感,造成壓力,這輪選手明顯是有點緊張,信息遺漏了幾個,這就不如 AI 來得穩定了。。。
這兩點在西語比拼中也出現了。
西語評委靳笛給出了非常中肯且犀利的點評:“ 人類譯員其實已經非常專業了,但確實在翻譯的過程中,可能句子結構中有一個詞沒有理解,就會導致意思有一定的偏差 ”。

“ 如果我們考慮到翻譯的語速的話,同聲傳譯是跟着講者去翻譯,不僅是表達意思,也體現出了講者當時的語氣和情感,如果我們翻譯內容跟原文相差太多,這個信息就沒法傳達了,或者講者已經説完了,但翻譯還有內容再出,就會影響到後面的講話”。
第一環節的情況差不多是這樣,咱們也就不一一列舉了。
儘管在延時上還有一些優化的空間。但是憑藉更精準且全面的翻譯表現,W4Pro AI 同傳耳機還是在一眾同傳老司機中殺出了重圍,拿下了 1020 分,領先於高級譯員隊的 912 分。
而第二環節,則是關鍵詞提取大比拼,有點類似於聽力題,雙方選手根據聽到的內容搶答。

對於 AI 翻譯隊來説,這個環節是有點小劣勢。因為 AI 隊需要基於中文翻譯的結果,再根據中文譯文選擇答案,轉換耗時更久。
這個環節的比分非常焦灼,最後是 150 VS 150,第二輪打平手。

但當硝煙散盡,這場人機對決的勝負,其實沒有那麼重要。
它更像是一面鏡子,映照出了當前階段AI與人類譯員各自的核心價值。
作為這場對決 AI 的唯一代表,時空壺W4 Pro 無疑貢獻了諸多高光時刻,從對文化性詞彙的把握到專業術語的翻譯,都從容駕馭,代表了現階段 AI 同傳技術的頂尖水平。
也讓很多觀眾得以直觀感受,AI 翻譯已經從 “ 生硬直譯 ” 的初級工具,來到了能精準表意、同聲傳譯的 L3。
當然,這面 “ 鏡子 ” 也映照出了未來發展方向:更快,向無延遲的自然交流前進;更懂,洞悉文化內涵。

對於人類來説,這次對決也是非常寶貴的經驗。
參加這次比賽的日語選手,也向我們透露了些感受:“ 我原來以為 AI 翻譯速度會比我快一點,但是我發現我會比它快,可準確度它會比我高,詞庫比我更全,我可能某些詞收集不到,收穫還蠻大的 ”。
當我們問到,作為人類譯員,現在有沒有在使用 AI 翻譯工具時,她表示:“ 我也有在感受 AI ,會讓 AI 同步給我出翻譯結果,看誰的更好,能幫助我快速學習很多不會的單詞,但是 AI 可以教你,但是最終結果對不對,需要人類再核驗 ”。
怎麼説呢,讓我想起了這張圖。。。

包括翻譯界資深學者趙晨威也提到了,有些能力是 AI 短期內無法複製的,“ 有些溝通我們是希望傳達信息,有些溝通我們是希望建立信任,前者看重效率,而對於後者温度肯定是最重要的 ”。
退一步説,交流不僅僅是語言,也可能是見面時的那一個擁抱。。。

至於未來?
趙老師也給出了一段總結,説得很好,“ 翻譯一直都是一個很有價值的職業,幫助不同文化、語言的人實現交流,所以譯員們千萬不要放棄,但是千萬不要當鴕鳥,忽視面前的變化,AI 絕對徹底顛覆這個行業 ”。
我在想,在未來,溝通的邊界,一定是被人類和 AI 一同消融的。
比如現在很多書籍、信息因為人力限制無法被翻譯,未來咱們就派 AI 幹苦力,人類做最後的優化和核查,既能保證翻譯速度也能保證翻譯質量。
説不好同聲傳譯也可以這樣,把費勁的丟給 AI ,自己做審查和跨文化溝通顧問~

甚至,咱們可以增加一個人機協同的隊伍,把人類的智慧跟 AI 的效率揉到一起,説不定能碰撞出更多啓發和創意~
也許,未來我們還會舉辦人機大戰 3.0,不知道到那個時候,AI 翻譯又會進展到什麼程度呢。。。
圖片、資料來源:
新聞聯播
