OpenAI新推理模型價格驟降，總體性價比未能超越DeepSeek R1

guancha

2025-02-02

當地時間1月31日，美國OpenAI公司正式上線推理模型o3-mini，並首次向免費用户開放推理模型，一同亮相的還有“滿血版”的o3模型。

來源：OpenAI

OpenAI表示，o3具備更先進、近似人類的推理能力，在解決編程、數學、科學等理工科問題方面均超越現役的o1模型。該公司曾表示，o3-mini會在1月底先上架，o3則“會在不久之後推出”。

根據介紹，o3-mini支持開發者調整“AI推理努力程度”的選項——分為低、中、高三個級別。這種靈活性使得o3-mini可以在面對難題時“更努力思考”，而需要效率時優先考慮回應速度。開發者可根據需求選擇推理強度，平衡思考深度和響應速度，但不支持視覺任務，視覺推理仍需使用o1。

在新聞稿中，OpenAI披露，在2024年美國數學邀請賽（AIME 2024）的測試中，低推理努力的o3-mini準確率（60%）與o1-mini差不多，但速率更快；而在中等努力下，o3-mini準確率能夠提升到79.6%，與o1模型相當。在最高努力水平時，o3-mini的準確率則能進一步提升至87.3%。

在博士級科學問題（GPQA Diamond）方面，三種努力程度模型的準確率分別為70.6%、76.8%和79.7%，該測試主要用於衡量模型在博士級別物理、生物和化學問題上的表現。

有外媒還將o3-mini和DeepSeek的R1模型進行了對比。

在AIME 2024測試中，o3-mini僅在高推理強度下表現優於R1（79.8%）。在以編程為重點的SWE-bench Verified基準測試中，o3-mini同樣僅在高推理強度下以微弱優勢（0.1 分）領先R1。在低推理強度下，o3-mini在GPQA Diamond基準測試中落後於R1（71.5%）。

OpenAI宣佈，從當天開始，免費ChatGPT用户也能通過在編輯器中選擇“推理”來嘗試o3-mini模型，這也是公司的推理模型首次向免費用户開放。

對於付費用户，o3-mini將在模型選擇器中替代o1-mini。作為升級的一部分，每月花費20美元左右的ChatGPT Plus和Team用户，速率限制也從o1-mini的每天50條，提升到o3-mini的150條。每月支付200美元的ChatGPT Pro用户，能無限制地訪問o3-mini。

近期，爆火的DeepSeek-R1模型對OpenAI構成了競爭壓力，尤其在成本方面呈現出顯著差異。

OpenAI 的推理模型o1系列相對成本較高，o1模型的API定價為每百萬輸入tokens 15美元，每百萬輸出tokens 60美元，而DeepSeek R1的API定價為每百萬輸入tokens 0.14美元（緩存命中）/0.55美元（緩存未命中），每百萬輸出tokens 2.19美元。

這次發佈中，OpenAI強調了成本問題。與OpenAI的o1-mini相比，o3-mini的價格降低了63%。o3-mini定價為每百萬輸入tokens 1.10美元，每百萬輸出tokens 4.40美元,。不過，相比DeepSeek-R1，o3-mini的價格依然高出了不少。

安全方面，OpenAI表示，在訓練o3-mini以實現安全響應的過程中，採用了一種關鍵技術--“深思熟慮的對齊（deliberative alignment）”。

通過這種方法，OpenAI訓練模型在回答用户提示之前，先對人類編寫的安全規範進行推理。可以理解為，OpenAI希望確保o3-mini生成的內容更加安全、符合道德，並降低了模型生成不良或有害響應的風險。

本文系觀察者網獨家稿件，未經授權，不得轉載。