騰訊吳運聲:大模型訓練正在簡化,一張照片就能生成數智人
周毅是故意的还是不小心?

7月5日,在2024世界人工智能大會騰訊論壇上,騰訊雲副總裁、騰訊雲智能負責人、騰訊優圖實驗室負責人吳運聲發表主題演講。在他看來,模型落地、實用為先,大模型的研發、應用必須關注、解決具體業務場景,必須關注可用性和性價比。

吳運聲認為,今天的大模型技術正在往多模態、零樣本學習、3D和視頻生成等方向快速演進,通過增強技術融合、簡化模型訓練流程、提供更加沉浸式體驗等方式,加速AI技術的普惠。吳運聲認為,大模型的打造只是起點,把技術落地到產業場景、創造價值才是目標。
“通過自主技術創新,騰訊持續推動AI研究和應用落地。”吳運聲介紹,在模型底座方面,目前騰訊混元大模型參數量已達萬億,Tokens數量超過7萬億,居國內大模型第一梯隊。此外,模型單日調用Tokens已達千億級別,單日調用次數超3億,並在騰訊雲上全新開放混元lite 256k版本、vision多模態版本,以及代碼生成、角色扮演、functioncall等子模型和接口,滿足不同企業和開發者的需求。

基於夯實的底層能力,同時面對企業在應用大模型技術時所需的降低使用門檻、提高平台適配性、保障安全合規等核心訴求,騰訊雲全新升級大模型知識引擎、圖像創作引擎、視頻創作引擎,進一步簡化數據工程、模型精調、應用開發的流程,使企業能夠更高效、簡單地將大模型能力應用於生產、銷售和服務等場景。
值得一提的是,伴隨着大模型技術的發展,AI數字人、AI助理等AI智能體也日益升温。包括騰訊在內,一些國內企業也進行了AI數智人的相關產業佈局。吳運聲對觀察者網表示,在文旅、直播、教育等各個行業,數智人都取得了非常多的應用,大模型的發展也正在給數智人帶來一些新亮點。
例如,前端的數智人和後端的知識引擎相結合,讓數智人可以根據實際產品的需要,去調用不同的專業知識。人們打造一個數智人營養師,也可以利用數智人技術去打造一個保險經理……技術的發展會帶來很多有趣的東西。
據瞭解,目前騰訊在大模型領域已經構建了一套全鏈路產品矩陣,涵蓋從底層豐富基礎設施到頂層多元智能應用。包括自研通用大模型、模型開發平台、智能體開發平台,以及針對不同場景定製的智能應用解決方案等。通過這些產品和方案,致力於助力企業客户高效地將大模型技術應用到實際業務場景中,實現快速部署和價值創造。
以下為本次演講全文:
尊敬的各位嘉賓、媒體朋友們,大家好,歡迎來到騰訊論壇!
我是騰訊的吳運聲,今天我想和大家分享下大模型等技術的發展,以及如何更快、更好地普惠給更多人。
作為國內規格最高、影響力最大的技術盛會,世界人工智能大會已經連續舉辦七屆,很多新的技術趨勢、創新方案、產業成果在這裏發佈,已經成為人工智能技術發展的風向標。
接下來,我將從技術的發展、模型的迭代、工具的優化以及場景的落地四個層面來分享下我們的一些思考和實踐。
在技術的發展這塊,有三個趨勢想和大家分享一下。
過去一段時間,大模型的發展,將人工智能技術推到了一個新的制高點。但在實際落地中,我們發現,雖然單模態技術在某些場景下表現良好,但通過引入多模態能力,我們能夠擴展其應用範圍,使其在更廣泛的場景中同樣表現出色。
比如在識別和交互上,多模態大模型通過結合視覺與語言理解等能力,有效突破了此前的侷限,實現了更精準的語義分析和全面的原因歸因。在實際場景中,這種技術能夠處理多樣化的用户輸入,如文字、圖片等,尤其在汽車助手等企業知識服務等領域,提供了更深入的圖像內容理解和更高質量的交互體驗。
其次,在學習範式方面,傳統模型訓練受限於任務獨立性,和對大量標註數據的依賴,而通過零樣本/小樣本學習能夠很好地解決這類問題,簡化研發流程並加速AI技術的普惠。
舉個例子,以前我們如果想要生成一個數智人,必須錄製一段視頻,做一些高定製化的工作才能得以實現。而今天,利用zero-shot生成技術,僅需一張照片,無需任何定製,就可以得到一個栩栩如生的數智人。
而這個技術應用到工業質檢等場景中,通過一個缺陷詞彙提示或一張缺陷圖片提示,即可實現缺陷質檢,能夠大大提高檢測效率和準確性。比如,我們為某龍頭新能源企業提供電池自動檢測機,解決質檢難題。項目上線後,顯著提高了產品檢測能力,大大降低了該用户的企業運營成本。
第三,在內容呈現方面,隨着3D生成和視頻生成技術的不斷發展,用户可以獲得更加沉浸式的體驗。
比如,3D生成技術通過模型不斷自學習,不再依賴人工調參,能夠打破傳統物理仿真的侷限性,顯著提升生成內容的速度和質量。更豐富的3D生成內容能夠為用户帶來更加生動和真實的沉浸式體驗,比如單圖3D頭像生成等能力,能夠廣泛應用於電影動畫、增強現實、虛擬現實和視頻遊戲等領域。
與此同時,視頻生成技術也在不斷進化,生成時長大幅增加的同時,品質也得到了有效提升。比如,我們聯合《人民日報》打造的原創視頻《珍AI地球》,生成的視頻內容真實、精細,在內容理解、邏輯推理和畫面生成等方面表現都很不錯。
底層技術的不斷探索,也讓我們的模型不斷進化。去年9月,騰訊發佈了全鏈路自研的騰訊混元大模型。目前,騰訊混元大模型已經實現了較大的升級,架構也從稠密模型轉為MoE(混合專家模型),模型參數達到萬億級別,預訓練語料超過7萬億tokens。綜合算力、工程和算法上的自研創新,騰訊混元大模型已經穩居國內大模型第一梯隊。混元的生圖、生視頻、生3D等多模態能力也處於業界領先地位。
目前,騰訊混元大模型的單日調用Tokens已經達到千億級別。此前,我們也在騰訊雲上開放了括混元-pro、混元-standard、混元-lite和混元standard 256k版本。
接下來,我們的混元-lite 256k版本以及vision多模態版本也會跟大家見面。同時,我們也將陸續上線代碼生成、角色扮演、functioncall等子模型和接口,滿足不同企業和開發者的需求。
具體到模型工具產品方面,大模型的研發、應用必須關注、解決具體業務場景,必須關注可用性和性價比。今年5月,我們推出了3個大模型PaaS產品:知識引擎、圖像創作引擎和視頻創作引擎,希望能夠簡化數據工程和模型精調流程,幫助企業快速、輕鬆打造AI原生應用。
經過兩個月時間的迭代,我們的這三款模型產品也進行了全新的能力提升。
首先是知識引擎,基於LLM+ RAG框架,我們發佈了全新的多模態檢索能力,升級支持圖文互搜、以圖搜圖,能夠結合知識庫中檢索返回的圖文片段,給出圖文並茂的答案。
同時,我們進一步擴展了企業知識類型覆蓋面,升級了泛BI對話式數據問答體驗,支持超大表格、多表場景的多步驟推理、多條件篩選、求和計算,可擴展支持對接客户主流數據庫。
圖像創作引擎這裏,我們基於騰訊混元模型底座,實現了業界領先的AI圖像生成和編輯能力。我們的圖像風格目前已經新增到33種,並推出了專用於頭像的生成模式,讓生成的風格化頭像既能保留個人相貌特色,又融入了多元藝術風格特徵。同時還新增了商品背景生成、模特換裝和創意換裝等接口,大幅降低了營銷和影視行業的製作成本。
而視頻創作引擎這一次也進行了全新升級,帶來了不少好用、實用的功能體驗。首先,我們新增了超過20種熱門舞蹈動作,利用先進的3D建模技術和背部生成技術,使得圖片中的角色能夠非常流暢地進行轉身舞蹈,甚至支持多人舞蹈的複雜編排,這在行業內屬於首創。
其次,我們的視頻風格化功能借助面部增強技術,能夠逼真還原面部細節與表情,這在行業裏也是比較領先的。另外,我們的視頻轉譯功能接入混元文生文大模型和TTS技術,也能大幅提升轉譯後音頻的自然度、相似度和語速效果。這些能力的升級既能增強視頻創作多樣性和表現力,也能為創作者拓展更大的創意空間。
同時,為了幫助企業用户更便捷地打造專屬的模型應用,我們的機器學習平台TI平台也進行了全新升級。
首先,我們內置了開源可擴展的數據構建pipeline,能夠幫助開發者高效進行數據準備。另外,我們還全面提升了數據標註能力,首創了基於Schema的標註方法,專為LLM和多模態大模型設計,非常靈活、好用。
平台的精調訓練模塊以易用、穩定和高效為核心,內置多款主流大模型,支持一鍵啓動精調,並通過三層穩定機制及自研Angel框架,確保大規模訓練的連續性和性能提升。此外,我們還採用三階段模型評測流程,包括輕量體驗、客觀評測和主觀評測,確保模型訓練的精準性和真實反饋。
通過混元大模型底座、TI平台、知識引擎等工具、產品的不斷迭代與發展,目前我們能夠圍繞辦公協同、知識管理、智能客服、營銷等全場景,為產業用户提供全鏈路模型服務,幫助他們真正實現提質增效和轉型升級。
比如,我們將知識引擎的能力應用於企點客服大模型文本機器人。在面向賬單查詢、退換貨這類複雜任務時,大模型機器人配置成本,相較傳統文本機器人減少50%。
再比如,騰訊樂享是服務於企業內部的知識學習協作平台,為企業提供知識管理、學習培訓、文化建設等服務,目前已經服務了超過30萬家客户,用户超過1億。在結合騰訊自研大模型和知識引擎後,樂享實現了兩大場景的關鍵革新。
圍繞“知識生產端”,樂享結合大模型知識引擎,升級了“智能寫作”能力,一句話就讓AI幫你完成寫作。“智能生成”,可以讓AI自動生成知識點、生成考題,解決了培訓部門不懂業務、業務部門不懂培訓的難題,提升培訓效率。
圍繞“知識消費端“,還推出”智能問答“,無需訓練即可讓AI回答內部業務知識,大幅提升知識獲取效率,又繼承了每個文檔的細分權限,做到千人千面的問答。比如,一個擁有薪酬權限的員工問“薪酬怎麼算”,AI會給出詳細回答,一個沒有權限的員工問,AI則回答“抱歉,不清楚”。
在產業落地方面,本着優勢互補的原則,我們和上海市數字醫學創新中心開展合作,共研醫學大模型,目前在瑞金醫院實現了總檢報告和電子病歷生成等相關項目的落地應用。以體檢報告生成為例,平均每5秒即可自動生成一份總檢報告,為醫生節約50%+的撰寫時間。
在文娛行業,閲文集團已經應用大模型文生文能力,為作家提供AI輔助寫作能力,包括描寫靈感、大綱提取和角色提取等;應用大模型文生圖能力,用於連載書插圖製作等內容。
但與此同時,他們也遇到了一些模型應用難題,一來算法和工程團隊精力有限,模型數量多迭代快,自行搭建推理集羣和服務平台,模型更新複雜;二來推理成本高昂,推理速度已達瓶頸,千百億級別模型推理部署,推理吞吐和時延存在瓶頸。
而通過騰訊雲TI平台的應用,在模型訓練方面,有效降低了訓練配置難度。以前更多是通過編寫代碼等複雜配置去提交對應訓練任務,做任務管理;現在只需要在TI平台上做一些點選的工作,就可以快速開啓訓練任務;在模型推理方面,通過我們的平台加速框架,幫助閲文實現了在相同資源條件下,內容產出的速度變得更快;另外,平台還提供了直觀的監控和管理工具,幫助客户輕鬆管理任務和資源。
產業落地之外,我們也看到大模型在科學計算、文化研究方面的價值。2021年,我們聯合國家天文台,發起了“探星計劃”,我們希望通過人工智能技術,提升天文發現和科研的效率。
截至目前,通過我們的AI技術助力,從巡天觀測數據中發現了3顆快速射電暴、41顆脈衝星。快速射電暴是目前天文界研究熱點,相比脈衝星,快速射電暴因發現時間晚、AI訓練數據少、出現頻率低,發現難度相比脈衝星要大很多。為此,我們團隊通過設計全新的端到端AI算法,引入多示例學習和大模型注意力機制,顯著提升了模型精度和數據處理速度。
在文化領域,此前我們與內外部多個部門攜手合作,將文字檢測、摹本生成、字形匹配等多種AI算法,綜合應用於甲骨文研究。今天,我也宣佈將全球最大的甲骨文多模態數據集正式開源。該數據集包含一萬片甲骨的拓片、摹本,以及甲骨單字對應位置、對應字頭、對應釋文以及辭例分組、釋讀順序等數據。
基於該數據集,研究人員可開發甲骨文檢測、識別、摹本生成、字形匹配以及釋讀等方向的智能算法,助推甲骨文研究加速數字化和智能化。
最後,無論是產業落地還是科學、文化探索,AI大模型技術的發展離不開產業鏈協同和生態共建。後續,我也希望能夠與更多同行者一道,推進科技賦能與產業創新,共創、共 建、共享智能美好未來,謝謝大家。
本文系觀察者網獨家稿件,未經授權,不得轉載。