GPT-5 遲遲不發佈，都和下面的問題有關_風聞

Lawrenceglow-七字符昨天 19:26

2025-02-13

【本文由“噠噠噠噠噠噠噠噠噠噠噠噠噠噠噠噠噠噠噠啦”推薦，來自《受DeepSeek衝擊？OpenAI宣佈技術路線重大變化，還加大免費力度》評論區，標題為小編添加】

GPT-5 遲遲不發佈，都和下面的問題有關：

（1）大模型撞牆：模型的尺寸可以隨着 GPU 集羣的增加，輕易擴大 10 倍甚至 100 倍，但人類產生的數據在 2024 年底已經被消耗殆盡了，即使模型體積繼續增加，但我們已經無法獲得比現在更多的的高質量數據了。

（2）基於人類偏好的強化學習(RLHF)最大的問題是：普通人類的智商已經不足以評估模型結果了。

在 ChatGPT 時代，AI 的智商低於普通人，所以 OpenAI 可以請大量廉價勞動力，對 AI 的輸出結果進行評測：好/中/差，但很快隨着 GPT-4o/Claude 3.5 Sonnet 的誕生，大模型的智商已經超越了普通人，只有專家級別的標註人員，才有可能幫助模型提升。終究有一天，最頂尖的專家也無法評估模型結果了，

AI 就超越人類了嗎？並不是。以為讓人類來評測，AI 就永遠無法逃出人類思維的枷鎖。

可以把 AI 想象成一個學生，給他打分的人從高中老師變成了大學教授，學生的水平會變高，但幾乎不可能超越教授。RLHF 本質上是一種討好人類的訓練方式，它讓模型輸出符合人類偏好，但同時它扼殺了超越人類的可能性。

2024 年底大模型預訓練撞牆後，使用強化學習（RL）來訓練模型思維鏈成為了所有人的新共識。雖然 OpenAI 並沒有公佈他們的強化學習算法細節，但最近 DeepSeek R1 的發佈，向我們展示了一種可行的方法。

DeepSeek 團隊開發RI這個過程大概就是：監督學習(SFT) -> 強化學習(RL) -> 監督學習(SFT) -> 強化學習(RL)，經過以上過程，就得到了 DeepSeek R1。

DeepSeek R1 給世界的貢獻是開源世界上第一個比肩閉源(o1)的 Reasoning 模型，現在全世界的用户都可以看到模型在回答問題前的推理過程，也就是"內心獨白"，並且完全免費。

更重要的是，R1向研究者們揭示了 OpenAI 一直在隱藏的秘密：

強化學習可以不依賴人類反饋，純 RL 也能訓練出最強的 Reasoning 模型。

AI 終於除掉了人類反饋的枷鎖。

“人工智能，有多少人工就有多少智能”，這個觀點可能不再正確了。如果模型能根據直角三角形推導出勾股定理，我們有理由相信它終有一天，能推導出現有數學家尚未發現的定理。

參考資料：Deepseek R1可能找到了超越人類的辦法 (qq.com)https://mp.weixin.qq.com/s/YgRgDw8ndSHJwcPNMqWZNQ