Nvidia推出可以修改聲音和生成新聲音的人工智能模型 | 路透社

Stephen Nellis

2024-11-25

11月25日（路透社）- 英偉達(NVDA.O)在週一推出了一種新的人工智能模型，用於生成音樂和音頻，可以修改聲音並生成新聲音——這項技術面向音樂、電影和視頻遊戲的製作人。英偉達是全球最大的芯片和軟件供應商，用於創建人工智能系統，表示沒有立即向公眾推出其稱為Fugatto的技術的計劃，Fugatto是Foundational Generative Audio Transformer Opus 1的縮寫。

它與其他初創公司如Runway和大型企業如Meta(META.O)推出的技術相結合，這些技術可以根據文本命令生成音頻或視頻。英偉達的版本根據文本描述生成音效和音樂，包括新聲音，例如讓小號像狗一樣吠叫。

它與其他人工智能技術的不同之處在於其捕捉和修改現有音頻的能力，例如，將鋼琴演奏的旋律轉換為人聲演唱的旋律，或改變口音和表達的情感。

“如果我們回顧過去50年的合成音頻，音樂因為計算機和合成器而聽起來不同，”英偉達應用深度學習研究副總裁布萊恩·卡坦扎羅説。“我相信生成性人工智能將為音樂、視頻遊戲以及想要創造東西的普通人帶來新功能。”

儘管像OpenAI這樣的公司正在與好萊塢的製片廠談判關於人工智能是否以及如何可以在娛樂行業中使用，但科技界與好萊塢之間的關係緊張，尤其是在明星斯嘉麗·約翰遜指控OpenAI模仿她的聲音之後。

英偉達的新模型是用開放數據訓練的，該公司表示仍在討論是否以及如何公開發布它。

“任何生成技術總是帶來一些風險，因為人們可能會用它生成我們希望他們不要做的事情，”卡坦扎羅説。“我們需要對此保持謹慎，這就是為什麼我們沒有立即公開發布它的計劃。”

生成性人工智能模型的創建者仍需確定如何防止技術被濫用，例如用户生成不正確的信息或通過生成受版權保護的角色來侵犯版權。

((翻譯編輯部聖保羅, +55 11 5047-3075))

路透社 FC

建議主題：
商業
商業