OpenAI預覽新的音頻工具，可以閲讀文本，模仿聲音 - 彭博社

Shirin Ghaffary

2024-03-30

攝影師：大衞·保羅·莫里斯/彭博社OpenAI正在分享一個功能的早期測試結果，該功能可以用一種令人信服的人類聲音朗讀文字 — 強調了人工智能的一個新領域，並引發了深度偽造風險的擔憂。

該公司正在分享文本轉語音模型的小規模預覽的早期演示和用例，該模型名為Voice Engine，目前已與大約10名開發人員共享，一位發言人表示。OpenAI決定不對該功能進行更廣泛的推廣，該公司在本月早些時候向記者介紹了這一功能。

OpenAI的一位發言人表示，該公司在收到政策制定者、行業專家、教育工作者和創意人士等利益相關者的反饋後，決定縮減發佈範圍。根據早前的新聞發佈會，該公司最初計劃通過申請流程向多達100名開發人員發佈該工具。

“我們意識到生成類似人們聲音的語音存在嚴重風險，尤其是在選舉年，這一點尤為引人關注，”該公司在週五的一篇博文中寫道。“我們正在與來自美國和國際各界的合作伙伴進行交流，包括政府、媒體、娛樂、教育、公民社會等，以確保我們在構建過程中納入他們的反饋意見。”

其他人工智能技術已經被用於在某些情境中偽造聲音。今年1月，一通虛假但聽起來逼真的電話聲稱來自喬·拜登總統，鼓勵新罕布什爾州的人們不要在初選中投票 — 這一事件在關鍵的全球選舉前引發了人工智能的恐懼。

與OpenAI以往生成音頻內容的努力不同，Voice Engine可以創建聽起來像個別人的語音，包括他們特定的語調和語調。軟件所需的只是一個人説話的錄音15秒，就可以重新創建他們的聲音。

在工具演示期間，彭博社聽到了OpenAI首席執行官Sam Altman簡要解釋技術的片段，聲音聽起來與他實際演講無法區分，但完全是由AI生成的。

“如果你有正確的音頻設置，基本上就是人類級別的聲音，”OpenAI的產品負責人Jeff Harris説。“這是一個相當令人印象深刻的技術質量。” 但是，Harris説，“顯然在能夠真正準確模仿人類語音方面存在很多安全問題。”

Sam Altman攝影師：Chris Ratcliffe/彭博社OpenAI目前的開發合作伙伴之一，諾曼·普林斯神經科學研究所（Lifespan非營利性健康系統）正在使用該工具幫助患者恢復他們的聲音。例如，該工具被用來恢復一個年輕患者的聲音，她因腦瘤而失去清晰説話能力，通過複製她早期錄音的講話內容用於學校項目，公司的博客文章中提到。

OpenAI的定製語音模型還可以將其生成的音頻翻譯成不同的語言。這使得它對像Spotify Technology SA這樣的音頻公司很有用。Spotify已經在自己的試點項目中使用了這項技術，翻譯了像Lex Fridman這樣的熱門主持人的播客。OpenAI還宣傳了該技術的其他有益應用，比如為兒童教育內容創造更廣泛的聲音範圍。

在測試計劃中，OpenAI要求其合作伙伴同意其使用政策，獲得原始發言者的同意後才能使用其語音，並向聽眾披露他們聽到的聲音是由AI生成的。該公司還正在安裝一種聽不見的音頻水印，以便區分一段音頻是否是由其工具創建的。

在決定是否更廣泛地發佈該功能之前，OpenAI表示正在徵求外部專家的反饋意見。“全世界的人都瞭解這項技術的發展方向是很重要的，無論我們最終是否自己廣泛部署它，”該公司在博客文章中説道。

OpenAI還寫道，希望其軟件的預覽“激發對抗更先進AI技術帶來挑戰的社會韌性”的需求。例如，該公司呼籲銀行淘汰語音驗證作為訪問銀行賬户和敏感信息的安全措施。它還尋求公眾對欺騙性AI內容的教育，以及更多關於檢測音頻內容是真實還是AI生成的技術的發展。