Nvidia宣佈新的人工智能模型，能夠修改聲音並生成新聲音 | 路透社

Stephen Nellis

2024-11-25

11月25日（路透社）- 英偉達週一宣佈了一種新的人工智能（AI）模型，用於生成音樂和音頻，能夠修改聲音並生成新穎的聲音，這項技術面向音樂、電影和視頻遊戲的製作人。

作為全球最大的芯片和軟件供應商，英偉達表示沒有立即公開這項技術的計劃，該技術被稱為Fugatto（基礎生成音頻變換器Opus 1的縮寫）。

因此，它與Runway等初創公司和Meta Platforms (META.O)等大型企業展示的其他技術相結合，這些技術能夠根據文本生成音頻或視頻。英偉達的版本 (NVDA.O)能夠根據文本描述生成音效和音樂，包括新穎的聲音，例如讓小號聽起來像狗叫。它與其他AI技術的區別在於其捕捉和修改現有音頻的能力，例如，將一段鋼琴演奏的旋律轉變為人聲演唱的旋律，或將一段口語錄音的口音和表達的情緒進行改變。

“如果我們回顧過去50年的合成音頻，音樂現在聽起來不同了，這要歸功於合成器，”英偉達深度學習應用研究副總裁布萊恩·卡坦扎羅説。“我認為生成AI將為音樂、視頻遊戲以及想要創造東西的普通人帶來新的能力。”

新的Nvidia模型是用開放代碼數據訓練的，該公司表示仍在討論是否以及如何公開發布。

“任何生成技術總是伴隨着一定的風險，因為人們可能會利用它生成我們希望他們不這樣做的東西，”Catanzaro表示。“我們必須對此保持謹慎，因此我們沒有立即公開發布的計劃。”

由Javier Leira編輯

建議主題：
技術
技術