Nvidia宣佈新的人工智能模型,能夠修改聲音並生成新聲音 | 路透社
Stephen Nellis
11月25日(路透社)- 英偉達週一宣佈了一種新的人工智能(AI)模型,用於生成音樂和音頻,能夠修改聲音並生成新穎的聲音,這項技術面向音樂、電影和視頻遊戲的製作人。
作為全球最大的芯片和軟件供應商,英偉達表示沒有立即公開這項技術的計劃,該技術被稱為Fugatto(基礎生成音頻變換器Opus 1的縮寫)。
因此,它與Runway等初創公司和Meta Platforms (META.O)等大型企業展示的其他技術相結合,這些技術能夠根據文本生成音頻或視頻。英偉達的版本 (NVDA.O)能夠根據文本描述生成音效和音樂,包括新穎的聲音,例如讓小號聽起來像狗叫。它與其他AI技術的區別在於其捕捉和修改現有音頻的能力,例如,將一段鋼琴演奏的旋律轉變為人聲演唱的旋律,或將一段口語錄音的口音和表達的情緒進行改變。
“如果我們回顧過去50年的合成音頻,音樂現在聽起來不同了,這要歸功於合成器,”英偉達深度學習應用研究副總裁布萊恩·卡坦扎羅説。“我認為生成AI將為音樂、視頻遊戲以及想要創造東西的普通人帶來新的能力。”
新的Nvidia模型是用開放代碼數據訓練的,該公司表示仍在討論是否以及如何公開發布。
“任何生成技術總是伴隨着一定的風險,因為人們可能會利用它生成我們希望他們不這樣做的東西,”Catanzaro表示。“我們必須對此保持謹慎,因此我們沒有立即公開發布的計劃。”
由Javier Leira編輯
- 建議主題:
- 技術
- 技術