響應時間接近人類水平,OpenAI發佈新款AI模型GPT-4o
陈思佳
(文/觀察者網 陳思佳)一夜之間,AI界震動。
當地時間5月13日,美國人工智能研究公司OpenAI在線舉行“春季更新”活動,正式推出新的旗艦人工智能模型GPT-4o,以及免費向用户提供更多ChatGPT功能。GPT-4o支持文本、音頻和圖像的任意組合輸入,並能夠生成文本、音頻和圖像的任意組合輸出。
OpenAI首席執行官奧爾特曼表示,GPT-4o的語音功能讓人想起了電影《她》,“感覺就像是電影中的人工智能,我仍然對其感到驚訝。”
據美國《華爾街日報》13日報道,OpenAI首席技術官米拉·穆拉蒂(Mira Murati)在發佈會上表示,GPT-4o的速度比現有的GPT-4 Turbo快了兩倍,但成本僅為其一半。GPT-4o可以實時對文本、音頻和圖像進行推理,響應時間幾乎達到人類水平。
報道稱,OpenAI高管現場演示了GPT-4o的多項功能,包括分析一段計算機代碼、在意大利語和英語之間進行翻譯、通過攝像頭引導研究人員解決基本數學問題等。

OpenAI發佈GPT-4o模型 視頻截圖
OpenAI還表示,GPT-4o可以檢測用户的情緒,並以類似人類或機器人的語調與用户交談。在演示中,ChatGPT識別到OpenAI後訓練團隊負責人巴雷特·佐夫(Barret Zoph)臉上的微笑,對他説:“你臉上掛着燦爛的笑容,看起來心情很好。”
但GPT-4o在演示過程中也出現一些失誤。例如,它在尚未讀取到圖像時就開始求解方程,還一度把佐夫的面部識別為“木質表面”。英國廣播公司(BBC)稱,這表明生成式人工智能的“幻覺”問題仍未得到解決,距離解決聊天機器人不可靠的問題還有很長的路要走。
根據OpenAI發佈的新聞稿,GPT-4o的“o”代表“omni”,即“全能”之意。GPT-4o可以在最快232毫秒的時間內響應音頻輸入,平均響應時間為320毫秒,幾乎接近人類在交談中的響應時間。GPT-4o的英語和代碼文本性能與GPT-4 Turbo相當,在非英語文本方面也有顯著提高。
OpenAI表示,在GPT-4o之前,使用語音模式與ChatGPT對話的平均延遲時間為2.8秒(GPT-3.5)和5.4秒(GPT-4)。此前的語音模式是由三個獨立模型組成,一個簡單模型將音頻轉換為文本,GPT-3.5或GPT-4接收文本並輸出文本,第三個模型將文本轉換回音頻。這一過程將導致GPT-4丟失大量信息,它無法識別音調、多個説話者或背景噪音,也無法輸出表達情感的語音。
但在GPT-4o中,OpenAI訓練了一個綜合文本、圖像和音頻的端到端新模型,這意味着所有輸入和輸出都由同一個神經網絡處理。不過,OpenAI也坦言,GPT-4o是該公司首個結合所有這些模式的模型,在探索模型功能及其侷限性方面仍處於起步階段。

OpenAI高管現場演示GPT-4o的檢測情緒功能 視頻截圖
穆拉蒂在發佈會上表示,GPT-4o的文本和圖像功能將在ChatGPT更新後提供給所有用户,付費訂閲的ChatGPT Plus用户的消息數量上限是免費用户的5倍。新版語音模式也將在未來幾周內向Plus用户推出。
穆拉蒂最後還感謝了美國芯片公司英偉達的支持,“我想感謝令人難以置信的OpenAI團隊,也感謝黃仁勳和英偉達團隊為我們提供了最先進的GPU,這使得今天的演示成為可能。”
發佈會結束後,OpenAI首席執行官薩姆·奧爾特曼在其個人博客上發文稱:“新的語音模式是我用過的最好的計算機界面。感覺就像是電影中的人工智能,我仍然對它感到驚訝。事實證明,達到人類水平的響應時間和表達能力是一個重大的變化。”
奧爾特曼還表示,GPT-4o的語音功能與電影《她》(Her)相似。美國有線電視新聞網(CNN)也指出,GPT-4o的語音令人想起了《她》中的人工智能。《她》是2013年在美國上映的一部科幻電影,講述了作家西奧多愛上電腦操作系統裏的女聲的故事。

奧爾特曼在社交媒體上發文,提及電影《她》

資料圖:美國電影《她》海報
一週以前,關於OpenAI將發佈新產品的消息就甚囂塵上。有消息稱OpenAI將發佈GPT-5,還有消息稱OpenAI將發佈基於ChatGPT的搜索引擎以挑戰谷歌,但奧爾特曼否認了這些傳言。他當時表示:“不是GPT-5,也不是搜索引擎,但我們一直在努力開發一些我們認為人們會喜歡的新東西。對我來説感覺就像魔術一樣。”
《華爾街日報》注意到,OpenAI在谷歌年度開發者大會的前一天推出了GPT-4o,預計谷歌將在當地時間5月14日的開發者大會公佈自己的新產品。GPT-4o的推出似乎意味着,在投入大量資金和精力研發新產品之後,OpenAI和其他科技巨頭正尋求擴大用户羣體並獲得更多的研究資金。
美國“商業內幕”網站評論稱,這使得美國科技巨頭的人工智能競賽變得更加激烈,美國亞馬遜公司的Alexa、蘋果公司的Siri和谷歌的Gemini都還只能在語音對話中作出機械式的回應,與GPT-4o的表現有明顯差距。預計這些公司將在未來幾個月發佈新的AI產品。
但AI技術的快速發展也引起一些擔憂。法新社指出,圍繞版權問題的爭議持續困擾着AI企業。OpenAI公司已經與美聯社、英國《金融時報》和德國阿克塞爾·施普林格集團簽署合作協議,但它也面臨來自美國《紐約時報》的訴訟。
許多創作者也擔心,AI大模型的訓練涉及侵權問題。去年9月,包括美國知名作家、《冰與火之歌》作者喬治·馬丁在內的17名作家通過美國作家協會發起集體訴訟,指控OpenAI“大規模、系統性盜竊”,使用受版權保護的作品訓練AI。
路透社此前指出,這些訴訟牽涉到一個極具爭議的問題,即科技公司使用從互聯網上抓取的圖像、文字和其他數據來訓練AI是否構成侵權。在一些創作者看來,科技公司在未經許可的情況下使用他們的作品,侵犯了他們的版權。但多數科技公司認為,這是對受版權保護內容的合理使用。
本文系觀察者網獨家稿件,未經授權,不得轉載。