OpenAI發佈語音模型GPT-realtime

2025-09-01

科技日報記者張佳欣

8月28日，美國人工智能公司OpenAI發佈了其所謂“最先進的語音到語音模型”GPT-realtime，以及配套的Realtime API（即時應用程序接口）。

據OpenAI公司介紹，該模型在理解複雜指令、精準調用工具以及生成自然、富有表現力的語音方面表現突出，並在客户服務、教育、個人助理等多種場景中具備廣泛應用潛力。

與傳統語音模型不同，GPT-realtime新增了Marin與Cedar兩種極具特色的語音，同時對原有8種語音進行了全面升級。模型不僅能生成自然流暢的語音，還能夠敏鋭捕捉笑聲等非語言信號，在句子中間自如切換語言，並可根據場景需求靈活調整語氣，使語音交互更貼近真實人類溝通。

通過Realtime API，開發者可實現即時語音輸入輸出，不必再經過繁瑣的多模型轉換流程。在實際應用中，這套技術可用於客户服務系統，讓虛擬助手即時解答問題，提高效率和體驗。它還可應用於教育領域，實現語音對話和口語練習。而在個人助理、辦公或智能家居場景中，用户能通過語音快速完成安排或查詢信息。結合圖像或文本輸入，開發者還能打造更智能的虛擬助手或機器人系統。

OpenAI表示，GPT-realtime和Realtime API已於8月28日起面向所有付費開發者開放。