中國的“AI主播”上崗,國外開始了嘲諷!_風聞
观察者网用户_244308-2018-11-12 15:11
全球關注的AI主播
最近幾天,科技屆的大事莫過於在烏鎮舉辦的第五屆世界互聯網大會。
就在大會開幕當天。由搜狗公司和新華社合作的全球第一個“AI合成主播”正式亮相。
對比“真人”主播一天工作8小時,就如視頻中“AI主播”自己説的那樣,他能夠不知疲倦地工作24小時!
很多時候,國內的產品發佈就會找一些“不入流”的外文網站出稿,假裝獲得了“全球媒體”關注。
但這次的“AI主播”可不是這樣。CNN、BBC、The Verge、CNET、南華早報等都在主要的版面給了這兩位“主播”一席之地。
這倒並不是因為新華社版“AI主播”在技術上有多先進,而更多是因為,一個國家級主流媒體運用虛擬主播技術,這項舉動本身具有強烈的象徵性意義。
不過,爭議也隨之而來。外國網友就針對這款產品發表了自己的看法:
英國BBC資深記者西蒙麥考伊也對這款“AI主播”進行了冷嘲熱諷。稱其不過是“一個新聞閲讀器”而已。
AI主播並非原創
説到AI主播,新華社雖然標榜是全球首個,但其實去年11月,日本一個被玩家愛稱為“人工智障愛醬”的虛擬主播便在Youtube上開始流傳開來。
這個名叫“Kizuna AI”的3D萌妹是個神經粗線條,偶爾又有些腹黑的人物。在視頻鏡頭裏,她時而惡意賣萌地説一些不着邊際的話,時而顏藝豐富地自我吐槽,一下子就吸引了眾多宅男的目光。
並且,在這之後,日本放送協會(NHK)也宣佈,從今年4月開始在節目中使用人工智能(AI)主播Yomiko。
這位“新聞主播Yomiko”是通過CG技術製作而成的,“她”在工作日晚間11時10分播出的“NEWS CHECK 11”節目中登場,模擬真人主播的聲音播報記者寫成的新聞稿件,每週播報一次約5分鐘的新聞。
為了讓新聞播報的更加準確生動,在此之前,技術人員會請NHK旗下的主播閲讀大量新聞稿件並錄音,然後將這些語音數據分解為10萬個音素,還讓Yomiko事先記住日本全國的地名、專有名詞、口音等。
這次新華社和搜狗合作展示的“AI合成主播”是運用最新人工智能技術,“搜狗分身”,“克隆”出與真人主播擁有同樣播報能力的“分身”。
搜狗人工智能的核心技術“搜狗分身”能通過人臉關鍵點檢測、人臉特徵提取、人臉重構、唇語識別、情感遷移等多項前沿技術,並結合語音、圖像等多模態信息進行聯合建模訓練後,生成與真人無異的AI分身模型。這項技術讓機器首次做到逼真的模擬人類説話時的聲音、嘴唇動作和表情,並且將三者自然匹配,與真人幾乎一致。
簡單來説,只需要提供文字,“AI合成主播”就能準確無誤的像真人主播一樣聲情並茂的播出新聞。AI主播可以逼真的模擬人類説話時的聲音、嘴唇動作和表情,並且將三者自然匹配,達到與真人幾乎一致的效果。從最終的呈現方式來看,”AI合成主播“相當於是真實新聞主播一個“分身”。
有了這項技術之後,“AI合成主播”就像開了“外掛”!
對比“真人”主播一天工作8小時,“分身”能夠不知疲倦地工作24小時!只要編輯將文本輸入系統,TA們就能隨時工作,並且一直工作下去……
這不僅在全球AI合成領域實現了技術創新和突破,更是在新聞領域開創了實時音視頻與AI真人形象合成的先河。
搜狗公司CEO王小川表示,AI合成主播的誕生,將為媒體生產端帶來無限想象空間,是智能時代大幅提升新聞生產、傳播效率、新聞價值的有效手段。
並不稀奇的“分身”技術
“搜狗分身”技術是搜狗人工智能的核心技術之一,誕生於搜狗“自然交互+知識計算”這一人工智能理念之下。這項技術可以讓機器以更逼真自然的形象呈現在用户面前,而不是冷冰冰的“機器人”。
“搜狗分身”技術可以通過人臉關鍵點檢測、人臉特徵提取、人臉重構、人臉建模、唇語識別、情感遷移等多項前沿技術,結合語音、圖像等多模態信息進行聯合建模訓練後,生成與真人無異的AI分身模型。
説起來看似比較複雜,其實人臉識別和人臉建模等這些技術根本已經不是什麼難題。
早在大概2013-14年,使用機械聲音味道很濃重的合成語音,加上明顯不像是真人的卡通形象,替代人類去做一些資訊播報的做法,已經在普通的電腦和手機用户中普及氾濫。
我們看到現在的新華社虛擬主播,其所應用的技術在很早之前就已經開始研究,只是在目前的情況下藉助技術和算法的突破,採用真實人臉模式,讓虛擬人物更加鮮活有生命,而不再只是一個語言和表情都很僵硬的機器存在而已。
説到面部捕捉技術,其實無論是習慣看國外直播平台還是國內直播平台的觀眾,都會在2015年開始發現有些房間的主播界面是一隻可愛的動物。可能是貓可能是狗還有可能是一隻浣熊,這些動物主播的腦袋伴隨着主播的播出節奏在搖頭晃腦、做出奇特的表情。

這項技術的實現歸功於一款叫做Facerig的應用,經常看遊戲直播的讀者想必都聽説過這個名號。
而應用於電影製作的人臉識別技術也不是什麼新鮮事物。早在《指環王》《加勒比海盜》《阿凡達》和《猩球崛起》的時代,好萊塢就已經擁有成熟的人臉識別套路了。


所以,其實這一次搜狗的“AI主播”在技術上並不具備多大的突破,無非是動作捕捉等技術在媒體領域的一次實際應用而已。難怪外國人會在那裏冷嘲熱諷。
的確是有趣,但沒有必要過分誇大。
不過這並不代表沒有意義,從實用的角度來講,這種操作方式是可以極大減少新聞媒體在後期製作的各項成本,能讓新聞視頻的製作效率有極大的提高。
而且,在中國任何一家電視台來説,培養主持人,特別是一個品牌欄目主持人來説,是相當的有難度的。就拿新聞主播來説,能坐上中央電視台新聞主播的位置沒有基層的歷練是不可能的。
當然,全球媒體報道新華社率先上崗“AI主播”的時候,雖然有各種各樣的擔憂,但都肯定了一點,官方媒體率先垂範採用這類仿真技術,有助於自上而下地對抗“假新聞”。
從這個角度上來説,像新華社這樣正規的官方媒體,先行一步採用機器人朗讀方式,就可以在突發事件傳播中佔得先機,搶在“謠言”的前面到達社會公眾。
“恐怖谷”
當前很多類人形象的擬真度可以達到90%左右,但尚未能夠100%以假亂真的情況之下,會產生一種不自然的機械感,甚至會令人毛骨悚然。
也就是説,如果想要儘可能的模擬真人,無可避免的會涉及穿越“恐怖谷”(Uncanny Valley)的問題。
“恐怖谷”一詞用以形容人類對跟他們相似到特定程度之機器人的排斥反應。
而“谷”就是指在研究裏“好感度對相似度”的關係圖中,在相似度臨近100%前,好感度突然墜至反感水平,回升至好感前的那段範圍。即當仿真度達到一定程度,但又不百分之百的像人的時候,就會造成一種看恐怖片一樣的感覺——波士頓動力的機器人很瘮人也是這個原因。
這幾天很多媒體都在炒作:“AI主播的出現意味着新聞媒體行業可以以人工智能代替人力,傳統主播等媒體人會減輕工作量,但也有可能面臨着失業。”
這其實還是一個老生常談的“人工智能取代人類”的焦慮問題。
很多人從受眾的角度來分析,AI合成主播可以滿足最基本的信息告知功能,但是在情感需求的滿足層面,高度智能的AI遠遠不如有血有肉的人類新聞主播。
也就是説,現在的機器人想要翻越“恐怖谷”似乎還有很長的一段距離要走。
説起來這一次“AI主播”的設計還是比較接地氣的,它並沒有憑空地製造出一個高科技意義上的角色美男子主播,還是脱胎於我們身邊的真人。就像“AI合成主播” 自己介紹的一樣,其外形和聲音來源與新華社主播邱浩。
不過,即便它怎麼“來源”與邱浩,與其多麼的相似,弊端也是暴漏無疑。聲音沒有人的感情、面部表情還稍顯生硬,就是缺乏人與人之間的那種真實性的信息傳達。
另外,AI合成主播目前停留在播報階段,在獨立進行深度思考方面有所欠缺,而人類新聞主播憑藉人類的智能邏輯可以在直播過程中對新聞稿件進行隨機應變的靈活處理,這一點也是人類新聞主播不可替代的部分。
而且,這一次的展示過程中,還是不可避免地出現了比較低級的失誤:將阿里巴巴創始人馬雲的名字“Jack Ma”誤讀成了“Jack Massachusetts”,這是因為語音合成系統讀到這部分文字稿的時候,判斷“MA”兩個字母是美國馬薩諸塞州的縮寫。
在很多情況下,需要讀到美國某個小地方地名的時候,就需要把“MA”理解為“馬薩諸塞州”。
不過,顯然這並不是什麼大問題。預防此類問題,完全可以通過將“Jack Ma”一詞特殊化處理,也可以通過將美國地方地名特殊化處理的方法來化解。
而且,雖然現在的主播仍然呈現動作僵硬,語音語調不協調等問題,但任何一個報道這件事情的國內外媒體似乎都認為,這是AI向真人進攻路上的一個里程碑或標誌性事件,這絕對不是一場努力的終點,而在未來還將會以更快的速度進化。現在這些小問題將會逐漸被攻克,直到“翻越恐怖谷”,直到屏幕上主播的表現和真人沒有什麼區別,直到完成“人工智能的進化”。
但是,這些其實還是肉眼可見的進化。僅僅停留在了“工具層面”。
對於AI主播,哪怕它真的跨越了“恐怖谷”,與人交流也變得十分的流暢,但那始終還只是一種算法。
而真正的強人工智能,也許並不需要經歷被人類所接受的“恐怖谷”階段。也就是説,對於真正的人工智能來講,“恐怖谷”的概念可能也不適用於他們。
不像人類,思維和行動被侷限在肉身之中。人工智能沒有軀體,其思維也絕不可能被固定在某一台機子裏。但凡有網絡之處,它都能生存,它無處不在,無時不有。且AI完全以精神形式存在,它的存在是無限的,有網絡之處它就是永生的。
也就是説,大多數人對於人工智能的擔憂,其實還是非常膚淺的應用層面。而真正的“恐怖”可能是我們無法預知的恐怖。
還記得霍金生前的告誡嗎:“機器人的進化速度比人類想象的快,它們的終極目標將是不可預測的。我真的很怕人工智能取代人類,成為新物種!”