OpenAI新推理模型價格驟降,總體性價比未能超越DeepSeek R1
guancha

當地時間1月31日,美國OpenAI公司正式上線推理模型o3-mini,並首次向免費用户開放推理模型,一同亮相的還有“滿血版”的o3模型。

來源:OpenAI
OpenAI表示,o3具備更先進、近似人類的推理能力,在解決編程、數學、科學等理工科問題方面均超越現役的o1模型。該公司曾表示,o3-mini會在1月底先上架,o3則“會在不久之後推出”。
根據介紹,o3-mini支持開發者調整“AI推理努力程度”的選項——分為低、中、高三個級別。這種靈活性使得o3-mini可以在面對難題時“更努力思考”,而需要效率時優先考慮回應速度。開發者可根據需求選擇推理強度,平衡思考深度和響應速度,但不支持視覺任務,視覺推理仍需使用o1。
在新聞稿中,OpenAI披露,在2024年美國數學邀請賽(AIME 2024)的測試中,低推理努力的o3-mini準確率(60%)與o1-mini差不多,但速率更快;而在中等努力下,o3-mini準確率能夠提升到79.6%,與o1模型相當。在最高努力水平時,o3-mini的準確率則能進一步提升至87.3%。

在博士級科學問題(GPQA Diamond)方面,三種努力程度模型的準確率分別為70.6%、76.8%和79.7%,該測試主要用於衡量模型在博士級別物理、生物和化學問題上的表現。

有外媒還將o3-mini和DeepSeek的R1模型進行了對比。
在AIME 2024測試中,o3-mini僅在高推理強度下表現優於R1(79.8%)。在以編程為重點的SWE-bench Verified基準測試中,o3-mini同樣僅在高推理強度下以微弱優勢(0.1 分)領先R1。在低推理強度下,o3-mini在GPQA Diamond基準測試中落後於R1(71.5%)。
OpenAI宣佈,從當天開始,免費ChatGPT用户也能通過在編輯器中選擇“推理”來嘗試o3-mini模型,這也是公司的推理模型首次向免費用户開放。
對於付費用户,o3-mini將在模型選擇器中替代o1-mini。作為升級的一部分,每月花費20美元左右的ChatGPT Plus和Team用户,速率限制也從o1-mini的每天50條,提升到o3-mini的150條。每月支付200美元的ChatGPT Pro用户,能無限制地訪問o3-mini。
近期,爆火的DeepSeek-R1模型對OpenAI構成了競爭壓力,尤其在成本方面呈現出顯著差異。
OpenAI 的推理模型o1系列相對成本較高,o1模型的API定價為每百萬輸入tokens 15美元,每百萬輸出tokens 60美元,而DeepSeek R1的API定價為每百萬輸入tokens 0.14美元(緩存命中)/0.55美元(緩存未命中),每百萬輸出tokens 2.19美元。
這次發佈中,OpenAI強調了成本問題。與OpenAI的o1-mini相比,o3-mini的價格降低了63%。o3-mini定價為每百萬輸入tokens 1.10美元,每百萬輸出tokens 4.40美元,。不過,相比DeepSeek-R1,o3-mini的價格依然高出了不少。
安全方面,OpenAI表示,在訓練o3-mini以實現安全響應的過程中,採用了一種關鍵技術--“深思熟慮的對齊(deliberative alignment)”。
通過這種方法,OpenAI訓練模型在回答用户提示之前,先對人類編寫的安全規範進行推理。可以理解為,OpenAI希望確保o3-mini生成的內容更加安全、符合道德,並降低了模型生成不良或有害響應的風險。
本文系觀察者網獨家稿件,未經授權,不得轉載。