“數字人超真人”：百度不是池中物，AI應用見功夫_風聞

佘宗明-央视特约评论员、数字经济智库高级研究员-5分钟前

2025-07-27

文 | 佘宗明

“在25年內，每個人都可以以自己為模板創造出逼真的數字虛擬人。”在新著《2049》中，凱文·凱利做出了這番預言。他斷言：數字人將在未來迎來大爆發。

端倪早已顯現：過去幾年，湧入直播間的數字人主播越來越多，數字人直播也被視作AI的下個規模化落地場景。

只不過，之前的很多數字人表情呆板、反應機械、互動匱乏，連仿真都談不上，遑論逼真。因而，以往如果有人説“數字人可以超越真人主播”，大概率會被回上一句“呵呵”。

但羅永浩數字人在今年618期間的首秀，改變了不少人的既有看法：原來數字人還能突破照本宣科桎梏、打破隨機應變困局，解鎖根據場景做出反應、雙數字人默契互動、超長時間穩定輸出等技能包。單從神情看，羅永浩數字人跟羅永浩不能説毫無關係，只能説一模一樣。

目前看，凱文·凱利説的“逼真”二字正愈發具象化：7月26日，在2025年世界⼈⼯智能⼤會（WAIC 2025）上，作為業界⾸個AI全棧式數字⼈直播解決⽅案的百度慧播星又發佈了新一代數字⼈技術NOVA，該技術曾支撐羅永浩數字人直播間創下5500萬GMV，預計將於10月向全行業開放。

到那時，普通用户也可獲得媲美頭部主播的專業帶貨能力，這標誌着超頭主播能力復刻進入規模化量產時代。

想讓數字人直播時隨性秀花活，跟網友靈活玩梗？沒問題。想讓其舉杯時手腕微顫，調侃時眉梢輕挑？也OK。當數字人帶來的不是出戏而是入戲，隨之而來的便是數字人從“仿真”邁入“超真”時代。

值得注意的是，此次大會上，蘿⼘快跑、飛槳深度學習平台、百度智算集羣共同入選中國人工智能產業創新成果展，再加上NOVA數字⼈技術，百度無疑是用AI全棧佈局的代表性成果秀出了AI實力的“肌肉密度”。

從底層設施搭建到上層應用落地的完整生態閉環，托起了百度在AI能力值上的六邊形戰士形象，也註解了“百度不是池中物，AI應用見功夫”。

説是數字人，其實是數字播報員、文字復讀機，這是許多人對數字人的固有印象。看着數字人直播時那唱獨角戲的尷尬情景、“幀漂移”的卡頓畫面、台詞跟表情錯位的遊離畫風，很多人會忍不住將數字人跟“五毛特效”畫等號。

數字人“一眼假”，不是廠商不想避免，而是他們無可避免：傳統的數字人技術就是語言、語音、視覺三條線各自生成內容後再拼接，出現音畫不同步、表情僵硬、言語乏味等問題在所難免。

技術瓶頸，使得數字人的作用始終停留在“基礎講解工具”層面。你想要他在預設腳本外，來些即興發揮？想要他在機械播報外，多些即時互動？不好意思，超綱了。

這很難激發用户信任感、激起用户購買慾。用户想要看到的，是“主播”聲音上能抑揚頓挫、表情上能靈活變化、動作上能精準表達，是聽得懂包袱、開得了玩笑、答得了問題，誰想看那些沒有靈魂的2D紙片人在那念稿呢？

但要讓數字人體現出活人感、避免假人感，並非易事。它涉及跨模態融合和協同、自然語言理解跟應用、動作捕捉與生成、即時交互和延遲優化等，整個技術鏈路十分複雜。

就拿互動來説，網友在直播間評論區的提問可能多元無序，真人主播互動時不會簡單地“一問一答”和“即問即答”，而要對評論內容進行意圖分析、提煉歸併，根據講解節奏選擇合適時機、給出合宜回答。這就很考驗數字人的智能化分析能力。

而NOVA不只是讓數字人看起來像人，更讓數字人擁有會思考和能協同的能力。利用劇本驅動的數字人多模協同、融合多模規劃與深度思考的劇本生成、動態決策的即時交互、文本自控的語音合成、高一致性超擬真數字人長視頻生成等創新技術，它實現了數字人“神、形、音、容、話”的全模態高度統一。

數字人表情呆板？NOVA數字人技術支持多模協同，根據劇本要素即時調整語調、表情和動作，手指該指向產品細節時就指過去，語氣該強調某個功能時就強化突出。

數字人反應機械？NOVA數字人技術具備高表現力特點，能自動完成眼神交流後遞話筒、討論產品時親身演示、二人搭檔時表情配合等操作。

數字人互動匱乏？NOVA數字人技術接受複雜交互，當觀眾在直播間提問“這款手機續航怎樣”時，他會迅速完成調用產品數據庫提取續航參數、生成“可出差三天不插電”的口語化回答、同步調出電量測試視頻佐證；當直播熱度下降時，他還能自動調度場控數字人發起抽獎，助播數字人補充產品細節，形成“主播講解+專家答疑+福利刺激”的立體互動鏈。

既能理解商品賣點，又能生成自然語言，還能匹配肢體動作，很明顯，NOVA跳出了面相復刻的層次，拓展了數字人能力的邊界。隨之而來的，是“數字⼈可以超越真⼈，可以⽐專業主播更會播”的數字⼈直播前景的近在眼前。

某種程度上，數字人就是大模型多模整合能力的觀察切口。NOVA能變成數字人維度的“全能ACE”，就是百度多模態⼤模型能⼒（語⾔、視覺、語⾳深度融合）的展示——NOVA數字人具備的多模協同、⾼表現⼒、複雜交互等特點，本就是對⼤模型的“集⼤成使⽤”。

數字人直播的本質是“長視頻生成”任務，需要同時處理文本（腳本）、語音（解説）、視覺（動作）、情緒（情感）、知識（產品信息）等多維度數據。

NOVA數字人技術就是讓懂商品、懂用户、懂人設的“劇本”模型充當總導演，統籌文本、語音、視覺等各個“演員”配合，協力完成以“數”亂真的演出。

在此過程中，大模型會將文本、語音等轉化為多維度向量，通過MoE（混合專家）架構分配給不同“AI專家”處理：語言專家負責文案生成，視覺專家處理動作協同，知識專家管理產品數據庫，最終由中樞系統整合輸出。如此一來，數字人既能“像作家一樣組織語言”，又能“像演員一樣控制表情”，還能“像操盤手一樣進行控場”。

IDC今年上半年發佈的行業首份電商直播數字人報告顯示，百度慧播星綜合實⼒排名⾏業第⼀，五項測評指標中，它在技術能⼒、產品表現、平台合規與穩定性、客户服務四項上均居首位。接下來，NOVA可以繼續強化其既有優勢。

NOVA數字人技術可同時驅動“語言腦”“運動腦”“邏輯腦”高效協作，離不開百度大模型全棧佈局的支撐。

如果沒有文心大模型4.5Turbo賦予的內容創作能力，NOVA數字人就沒法根據商品賣點自動生成有梗有料”的文案；如果沒有飛槳提供的多模態訓練能力，NOVA數字人也就沒法實現神、形、音、容、話同步；如果沒有百度打造的“全息聲場系統”和聲紋克隆技術，NOVA的“形似聲更似”也就無從談起。

長視頻生成終究是高耗時任務，伴生的延遲卡點問題必然會影響即時生成效果。百度就在崑崙芯三萬卡集羣的加持下，通過“流式生成”工程化設計（語言、語音、視覺三個模態不是串行等待，而是並行工作）和“離在線統一”辦法（可預見交互內容提前處理，需即時反應部分則在線動態生成），讓體驗變得絲滑。

羅永浩數字人首播創下5500萬GMV的背後，就是直播調用了1.3萬次知識庫，生成9.7萬字講解內容，雙數字人做出8300個動作，卻沒有出現一次表情崩壞或邏輯斷層，6小時直播的視頻生成零卡頓。擱以前，這幾乎不可想象。

數字人技術突破，是百度AI全棧自研能力在應用上的輻射。在此次WAIC上亮相的另一個百度標杆級AI應用——蘿蔔快跑，同樣彰顯了這點。

如果説NOVA數字人展現了百度AI在數字空間的“柔性滲透”，那蘿蔔快跑就體現了它在物理世界的“硬核落地”。

跟蘿蔔快跑這次亮相世界級展會舞台相對應的，是它作為中國領先科技出海的代表在海外已遍地開花：繼獲得中國香港首個自動駕駛車輛先導牌照、打造阿布扎比最大規模無人車隊後，蘿蔔快跑又跟全球最大移動出行服務平台Uber開啓了全球戰略合作——這意味着，數千輛百度無人駕駛車將接入全球最大出行網絡。

跟蘿蔔快跑入選WAIC2025“國家展”相對應的，還是它作為高階自動駕駛領域的頭部玩家率先實現規模化落地：深耕無人駕駛12年來，蘿蔔快跑⾼級別⾃動駕駛專利數全球第⼀，截至今年7月，它已在全球提供超1100萬次出行服務，L4級⾃動駕駛安全測試⾥程累計已超1.7億公⾥，出險率僅為人類駕駛員的1/14。

成為本屆WAIC⼤會的接駁車，就是蘿蔔快跑跑得最“快”的直觀印證。

就像運動員的爆發力有賴於肌肉力量，更離不開神經反應、心肺功能、骨骼強度的協同支撐那樣，NOVA數字人跟蘿蔔快跑的底部支撐都是百度的全棧自研體系。

蘿蔔快跑能實現城市級全域複雜場景覆蓋，在全球多地千差萬別的路況中快速落地，背靠的就是百度大模型的“感知-決策-控制”全鏈路能力——這是基於大模型重構自動駕駛的結果。

搭載了全球首個支持L4級大模型Apollo

ADFM的蘿蔔快跑第六代無人車，就實現了技術安全性與適應性的大幅提升：3D環境模型，能幫着車輛在雨天、夜間精準避障；雙計算中樞，能憑着“雙腦協同”讓車輛0.01秒內完成異常接管；多模態融合技術，則能讓智能座艙理解方言指令、識別手勢動作……

這些依託的，正是百度“算法-框架-模型-應用”四層一體的全棧佈局。

作為《時代》週刊口中“全球少有的在AI上實現全棧佈局的公司”，百度的AI四層架構每一層都像“肌肉纖維”般緊密配合，所以才有NOVA數字人的突圍，才有蘿蔔快跑的突破——全棧自研能力的肌肉足夠健碩，最上層才能長出覆蓋C端、B端的豐富應用。

無論是NOVA數字人，還是蘿蔔快跑，都是百度用全棧式技術能力解決不同場景核心問題的系統性方案。

⼀直以來，百度的AI戰略都是“⾯嚮應⽤發展”。百度創始人李彥宏也多次強調，應⽤才是⼤模型的真正價值所在。這跟數字化時代的“價值鏈金字塔”結構契合。由此順推出的結論就是：AI，有用才是硬道理。

就AI數字人而言，衡量其價值的關鍵標尺就在於產業側應用效果，簡單説就是能不能順應直播電商領域對低成本高效率運營的需求。

多年來，直播中的兩大痛點困擾着不少企業：一是真人主播用人成本高昂，還有塌房風險；二是運營效率低下，搭建團隊、反覆彩排、即時場控等環節耗時耗力。

數字人直播就為此而生。但跟之前的數字人技術只解決了“有沒有”的問題相比，NOVA着力解決的是“好不好”的問題。

今年4月，百度方面透露，慧播星數字人主播累計已超10萬，涉及電商、教育、醫生、法律等幾十個行業。從大盤平均值看，數字人直播轉化率提升了31%，還降低了商家80%的開播成本。

當NOVA的腳本生成系統可實現“千人千面”的精準適配，會針對食品品類自動加入“會爆汁”“有回甘”的場景化描述，推廣3C產品時會側重“參數對比+使用場景”的專業分析；當NOVA的AI大腦可通過即時監測彈幕關鍵詞、商品點擊量、停留時長等數據動態調整直播策略，發現用户關注價格就主動發起“扣1瞭解專屬優惠”的互動……對商家的賦能可想而知。

而讓店播“輕資產化”的無代碼生成功能——商家上傳產品參數、優惠幅度等基礎信息，就能自動生成直播腳本、匹配虛擬場景、定製數字人形象，更是能推動商家在直播維度的平權。

對蘿蔔快跑來講，評判其價值的核心依據，就在於能否給⼈們出⾏帶來安全、便捷、舒適的出行體驗。

蘿蔔快跑的自動感應尋車、自動開關車門、語音安全播報等功能得到視障人羣好評，全無人空間的靜謐感頗顯“i人友好”……就成了其加分項。

為產業側和用户端提供實用價值，成了百度對AI“超級好用”的註解。

凱文·凱利説：讓更通人性的AI成為人類的朋友，這是我們的終極目標。言下之意是，AI非但要更聰明，還要更好用。

去年11月，李彥宏在百度世界2024大會上説，百度不是要推出⼀個“超級應⽤”，是要打造數百萬級“超級有⽤”的應⽤，就與之呼應。

WAIC

2025上，百度展台Show出了秒噠、⽂⼼快碼、⽂庫、⽹盤等AI應⽤，就體現出了鮮明的“有用至上”導向。如秒噠，就在用“⼀句話做應⽤+多智能體協作+多⼯具調⽤”的技術組合，帶來“3分鐘⽣成+1⼩時迭代”的極致開發體驗，加速“人人都是程序員”的願景落地。

NOVA數字人跟蘿蔔快跑，更是百度將AI從炫技手段變成生產力工具與普惠方式的典型註腳：NOVA數字人提供“腳本-直播-覆盤”全鏈路服務，可幫企業24小時不間斷帶貨，蘿蔔快跑將把L4級自動駕駛規模化落地，都是百度將AI全棧式能力用於反哺現實場景的投射。

這反映了百度在AI上的鮮明價值主張：執着於“超級有用”的路徑，而不追逐“超級應用”的概念。比起追求單點爆款，它更希望用全棧自研能力打造數百萬個“超級有用”的應用矩陣，將大模型技術真正轉化為生產力。

可以看到，從搜索、網盤、文庫等存量業務的AI重構，到蘿蔔快跑、NOVA數字人等增量賽道的積極開拓，百度都在將“超級有用”烙進AI應用掌心；從研發⽂⼼⼤模型，到打造雲平台，百度也是立足需求、着眼應用，讓模型使用成本更低、底座端到端性能更強。這些都是用行動表明：大模型不是用來“炫”的玩具，而是用來驅動產業革命的引擎。

隨着AI競爭進入拼落地階段，時間也在證明：AI的價值錨點確實是“超級有用”。誰能把AI技術轉化為真切可感的價值，誰就能走得更遠。