字節造芯新進展:編碼提升30%、轉碼“以一當百”,將服務火山引擎_風聞
量子位-量子位官方账号-08-23 16:30
允中 整理自 火山引擎
量子位 | 公眾號 QbitAI
去年7月,外界曾有字節造芯傳聞,字節跳動副總裁楊震原在媒體採訪中回應稱,公司無通用芯片商業計劃,沒有涉足CPU、GPU等通用芯片業務。
自研芯片探索主要圍繞自身視頻推薦業務展開,研發團隊將為字節跳動大規模視頻推薦服務專用場景定製硬件優化,如視頻編解碼、雲端推理加速等,以期提升性能,降低成本。
8月22日的一場活動中,字節跳動旗下火山引擎首次公開發布了自研的視頻編解碼芯片。
據字節跳動視頻架構負責人、火山引擎視頻雲架構技術總監王悦介紹,這款專用芯片已出片。
經驗證,該芯片的視頻壓縮效率相比行業主流硬件編碼器可提升30%以上,未來將服務於抖音、西瓜視頻等視頻業務,並通過火山引擎視頻雲開放給企業客户。
以下為王悦演講全文:
大家好,我是字節跳動視頻架構負責人王悦,今天主要與大家分享:面對全行業視頻化時代的技術挑戰,火山引擎視頻雲是如何在算力、體驗和交互層面進行探索的。

首先,視頻化應用在全行業不斷深入滲透,視頻數據也在持續激增,視頻技術和應用在未來主要面臨哪些大的挑戰呢?我們認為,有三個邊界需要突破:
第一個邊界是算力邊界,視頻數據不僅體量在激增,分辨率和清晰度也在持續提升,而且,視頻壓縮和處理的算法在不斷的更新迭代,越來越複雜,因此視頻轉碼和處理的算力需要能夠跟得上。但同時,摩爾定律在持續變慢,如何為企業提供算力強、算力足且夠便宜的計算基建,是當前視頻行業面臨的最大挑戰;
第二個是體驗邊界,用户會持續追求極致體驗,希望視頻更清晰、更流暢。那到底多清晰才是終點呢?隨着越來越多的內容被AIGC技術所生成或加工,對這類內容質量的定義和評判標準,以及處理的算法和流程,可能都要跳出現有的基於信噪比的理論框架,重新探索體驗的邊界在哪裏;
第三個是交互邊界,近幾年沉浸式媒體方向在持續加温,視頻的觀看體驗在逐步從二維畫面延伸到三維空間,給予交互更多的自由度。虛擬世界與現實世界將無限融合。今年蘋果發佈了vision pro,帶給了大家一些新的憧憬,也許已近百年的二維畫面的呈現與交互邊界很快將被突破。

下面我們看一下,火山引擎視頻雲做了哪些探索和實踐,以突破這三個邊界。
首先,應對算力挑戰,火山引擎視頻雲基於抖音的大規模應用實踐和打磨,實現了從通用計算到異構計算的進階,沉澱了可以為不同視頻場景提供專用且適用的算力支持,不斷朝着更強大、更好用、更便宜的方向前行:在我們的異構計算集羣中,除了先前主流的x86機器,還有GPU、ASIC、FPGA、ARM板卡陣列等幾種不同的計算資源。
對於深度學習、並行計算、高性能渲染,我們會用GPU做算力支撐,主要應用在視頻畫質檢測與分析、質量增強處理、XR雲端渲染等場景。
ASIC算力是我們重點規劃的研發方向,今天,我們也正式推出火山引擎自研視頻編解碼芯片。這款芯片有幾個數據還是值得興奮的:
一台視頻編解碼芯片服務器的轉碼能力,相當於百台CPU服務器的算力;同時火山引擎自研視頻編碼芯片的壓縮效率也相當優秀,比行業主流硬件編碼器提升30%以上;從而,可以讓單個視頻的計算、存儲和傳輸的邊際成本達到平衡。

大家知道在(視頻)芯片這個領域,一定要達到一定的規模門檻,累加的邊際收益才能夠cover前期投入的沉沒成本,實現正向的ROI。正是因為抖音等產品的業務規模,為我們供給了一個十分寬廣的獲得槓桿收益空間,使我們可以在這個方向持續投入頂尖研發團隊,不斷迭代和進化,最終實現更高密度、更好壓縮性能和更極致降本。
我們還支持FPGA算力,它是一種比較折衷的算力資源。相比ASIC,FPGA的密度、吞吐雖然差一些,但它的主要優勢是可擦寫、更靈活,能夠完成漸進迭代,也為我們的ASIC方案提供了先行驗證。火山引擎視頻雲現在的圖片和動圖轉碼服務都是跑在FPGA上的。部分點播、直播服務裏也在使用FPGA,該編碼器整體編碼性能比行業標準編碼器(GPU)提升30%,在MSU賽事中多次蟬聯最佳4K FPGA編碼器稱號。
此外,火山引擎視頻雲還有ARM板卡陣列,這個方案本來是用來支持雲遊戲、雲手機等場景需求而研發的。我們把編轉碼和處理引擎在ARM指令集上深度集成和優化之後,經過大規模實測,發現這種算力資源在密度、成本方面相較x86服務器也有很大優勢。因此,我們也在點播場景裏不斷提升這種資源的使用量,並做到了與雲遊戲等場景的並池降本。我們這個方案也在不斷地迭代與演進,相信對於視頻應用的智能升級也將發揮重要的作用。

在突破體驗邊界方面,隨着大模型等AI技術的發展和賦能,我們也確實看到了很多有説服力的成果和樂觀的前景,比如「AI修復 」技術。上週,抖音、中國電影資料館、火山引擎發佈了“再續時光-經典香港電影修復計劃”, 我們首次將AIGC視覺大模型應用於老片修復場景。充分利用AIGC大模型強大的生成能力和豐富的先驗知識,對經典老片進行全面的畫質提升。

火山引擎視頻雲的很多產品能力都有AI技術的加持,例如「智能轉檔」使用了AI重採樣方案,滿足了高質量多碼率分發需求,支持直播、點播多檔位畫質提升;「極致超清」是基於人眼的主觀感受最優為基準的AI前處理方案,該方案不僅可以提升主觀畫質,還可以進一步實現整體帶寬降低15-35%。
再看看我們在突破交互邊界方面的一些進展和成果。在3D和全景技術方面,火山引擎視頻雲基於在PICO上的實踐和探索,沉澱了很多優質的能力。比如,我們的「VR 360°全景圖像」技術,在今年CVPR Workshop舉辦的一項比賽中,雙目超分雙三次插值保真賽道和360°全景圖像超分賽道上,榮獲了雙料冠軍,技術能力達到行業領先水平。
從二維到空間,從理論到實踐,火山引擎視頻雲落地了很多創新項目,努力為用户打造身臨其境的體驗。結合傳統三維重建及神經輻射場技術,我們搭建了一套用於實現複雜動態場景的採集、重建、和播放算法框架,具備很高的清晰度和真實感。這項技術融合在點播、直播及RTC等視頻雲技術產品中,便可以實現空間視頻的點播、直播和實時通信,已經落地於「抖音嘉年華」「抖音戲腔戲調」「PICO古籍尋遊記」等項目裏,相關成果發表在今年的Siggraph上。
另外火山引擎多媒體實驗室自研的三維重建技術,結合視覺重建、多模態重建及SDF技術,可實現高精度、高質量、高效率的自動化重建技術,用於高保真物品及空間重建,也已經應用在博物館文物重建、電商3D商品、懂車帝3D看車、幸福裏VR看房,PICO德爺看非洲等項目中 。
當技術面臨瓶頸,也許我們可以換一種姿勢奔跑,持續突破算力,體驗和交互的邊界。我們希望基於抖音大規模實踐和打磨,將沉澱下的火種貢獻給行業。
通過上面的技術分享,我們可以看到全行業視頻化時代,技術是紛繁複雜的,而在這個過程中作為“引擎”的視頻處理框架作用就越來越重要,同時也面臨着諸多挑戰。
接下來我會介紹火山引擎視頻雲在這一領域所做的探索實踐,同時把我們聯合NVIDIA開源的多媒體處理框架BMF(Babit Multi-Media Framework)介紹給大家,這也是國內首個開源的同類項目,希望對整個行業起到普惠作用,助力加速視頻化新進程。

****△NVIDIA開發與技術部門亞太區總經理李曦鵬(左)和火山引擎視頻雲架構技術總監王悦(右)共同宣佈開源BMF多媒體處理框架
在實際算法和工程化落地的過程中,很少有項目可以完全不採用多媒體處理框架。多媒體處理框架作為視頻化部署的“底座”,通常起到重要的支撐作用。在體驗需求更高、快速試錯創新和業務場景融合的新趨勢下,面對的場景和需求越來越多樣化和複雜化,同時對計算性能和異構計算資源的運用也提出了更多的要求,快節奏的創新速度也迫切的期望框架有強大的能力,能幫助開發者把各種能力和方案優勢互補、協同工作、快速落地。傳統框架不能很好地應對這些挑戰,下一代多媒體處理框架應運而生。

我們開源的這套多媒體處理框架,作為火山引擎視頻雲全鏈路服務能力的基礎“底座”,不斷地根據集團各個業務和產品的需求進行設計、規劃、迭代和線上打磨,經歷了約3~4年的實踐,目前已應用於點/直播轉碼、雲編輯、移動端後處理等主要業務場景。總結下來,相比傳統方案,BMF具有以下亮點:
首先,它能支持使用多種語言開發模塊,並能通過引擎無縫串聯在一個pipeline裏執行,還能通過插件化動態管理,提升開發效率;其次,它能實現調度引擎深度優化,在提升靈活性的同時做到效率無損,對於異構平台的支持相比傳統框架有較大優勢。它還可以支持多語言接口,對於不同語言的開發者非常友好,更容易上手,開源版本還提供了豐富示例,覆蓋主要視頻場景,使開發者可以低成本構建視頻應用。同時,它還完全兼容了ffmpeg的功能和標準,底層支持了多種框架間的數據高效互轉。
接下來我們具體看下BMF的整體架構,它分為應用層,框架層,模塊層,和硬件抽象層。在應用層,BMF可以對從生產到消費的全鏈路視頻場景進行支持,特別是它也會支持大量視頻AI的應用場景,並在架構層自研了“自驅調度”和“動態graph”引擎,適配不同場景的多種執行模式。

在模塊層,BMF在設計之初就採用了“松耦合”設計,目前已積累了140+個適用於視頻場景的原子能力模塊。在硬件抽象層,BMF對多種主流框架的數據實現了無縫轉換,使多種主流框架數據互轉和協同工作變的更加順暢和便捷。這裏值得特別強調的是,我們和NVIDIA進行了緊密的合作,針對GPU相關的框架層能力、處理能力進行了深度優化。
藉此機會,我也特別分享給大家,BMF目前已經全面開源。包含BMF框架層整體開源,9個開箱即用案例,和20+API調用範例,希望能幫助開發者低成本的構建視頻應用。開源以後,我們計劃持續開源更多核心能力,完善解決方案,包括支持更多異構硬件/更多原子能力/移動端支持等。同時,依託火山引擎,構建雲上模塊市場,加速視頻生態建設。
最後,希望我們的願景早日達成:面向各行各業,加速視頻化進程,共建視頻開發生態。