1張照片即可生成高清視頻,中國公司又把好用的數字人開源了
张睿佳

(文/張睿佳 編輯/張廣凱)
AI開源的風,又刮到了數字人領域。
3月9日,硅基智能旗下數字人模型HeyGem.ai宣佈開源,截至目前,該模型在GitHub上已獲得超過1.3k Stars。

作為當下AI行業為數不多能夠找到PMF(產品市場匹配)的領域,數字人已經讓很多企業賺到大錢。例如專注海外市場的中國數字人企業HeyGen,在去年年中就宣佈實現ARR(年度經常性收入)3500萬美元。
因此,市面上好用的數字人產品基本都是付費,開源產品效果相對不佳。
但是HeyGem作為一個非常輕量化的開源免費產品,從演示視頻來看效果非常不錯,其官方簡介也將自己稱為HeyGen平替。
此次開源的HeyGem.ai模型,通過“1秒視頻或1張照片"的輸入,可以實現30秒克隆形象與聲音、60秒生成4K超清視頻,並在複雜場景下仍能保持100%口型匹配及多表情動作輸出,性能達全球TOP級水平。
技術層面,該模型的推理速度達1:0.5,32幀/秒超高清4K輸出,超越電影級標準。
同時,模型支持Docker一鍵部署,最低NVIDIA 1080Ti顯卡即可運行。可一鍵安裝於Windows和Linux系統,在本地實現完整的數字人克隆和視頻合成,無需額外的算力投入。
值得注意的是,此次硅基智能在GitHub開源硅基數字人克隆模型的同時,特別提供了硅基數字人克隆同名軟件安裝包,使得即便是缺乏編程經驗的用户,也能在本地環境中一鍵安裝並直接使用,實現了零代碼門檻。
正是由於這種高質量、低門檻的表現,HeyGem.ai被視為首個開源免費的商用級別克隆數字人模型。對於規模巨大的電商行業來説,這無疑是一個新的營銷利器。
那麼HeyGem.ai開源且好用的原因何在?
值得注意的是,硅基智能在底層技術路線上與其它產品有所區別。
硅基智能成立於2017年8月,總部位於中國南京,早在生成式AI技術火爆之前就已經佈局數字人技術,其底層模型專為數字人打造,並非Sora這類通用視頻生成模型,在成本端擁有天然優勢。
而硅基智能方面也向觀察者網透露,既然選擇開源,就代表了技術上的自信,意味着公司將來還能夠不斷拿出更好的產品。
硅基智能創始人司馬華鵬表示,硅基智能成立之初就確立了為世界造出1億硅基生命的使命,這次開源就是為了加速這個使命的達成。
事實上,HeyGem.ai並非憑空出現,早在2024年5月硅基智能就已率先開源了全球首個2D真人級別、支持AIGC即時渲染的數字人模型代碼——duix.ai。在GitHub上線以來,已獲得超過4.5k Stars。同年8月,硅基智能推出高保真、即時Face swap算法ReHiFace-S,只需一張照片,無需任何數據訓練,一鍵即可將視頻中的臉部替換為你選擇的人物形象。
在實際應用中,硅基數字人克隆能夠通過語音或文字輸入驅動,克隆後的數字人音色支持英、日、韓、中、法、德、阿拉伯和西班牙語這8種語言輸出,為跨國企業、在線教育、影視製作、直播營銷等多場景提供了高效、低成本的解決方案。
但在技術之外,面對由字節跳動等大公司推出的即夢、剪映等產品的競爭,對於硅基智能這類垂直企業,以開源方式儘快搶佔市場並搭建開發者生態,或許也是商業層面必須要做出的選擇。
本文系觀察者網獨家稿件,未經授權,不得轉載。