GPT-5 遲遲不發佈,都和下面的問題有關_風聞
Lawrenceglow-七字符昨天 19:26
【本文由“噠噠噠噠噠噠噠噠噠噠噠噠噠噠噠噠噠噠噠啦”推薦,來自《受DeepSeek衝擊?OpenAI宣佈技術路線重大變化,還加大免費力度》評論區,標題為小編添加】
GPT-5 遲遲不發佈,都和下面的問題有關:
(1)大模型撞牆:模型的尺寸可以隨着 GPU 集羣的增加,輕易擴大 10 倍甚至 100 倍,但人類產生的數據在 2024 年底已經被消耗殆盡了,即使模型體積繼續增加,但我們已經無法獲得比現在更多的的高質量數據了。
(2)基於人類偏好的強化學習(RLHF)最大的問題是:普通人類的智商已經不足以評估模型結果了。
在 ChatGPT 時代,AI 的智商低於普通人,所以 OpenAI 可以請大量廉價勞動力,對 AI 的輸出結果進行評測:好/中/差,但很快隨着 GPT-4o/Claude 3.5 Sonnet 的誕生,大模型的智商已經超越了普通人,只有專家級別的標註人員,才有可能幫助模型提升。終究有一天,最頂尖的專家也無法評估模型結果了,
AI 就超越人類了嗎?並不是。以為讓人類來評測,AI 就永遠無法逃出人類思維的枷鎖。
可以把 AI 想象成一個學生,給他打分的人從高中老師變成了大學教授,學生的水平會變高,但幾乎不可能超越教授。RLHF 本質上是一種討好人類的訓練方式,它讓模型輸出符合人類偏好,但同時它扼殺了超越人類的可能性。
2024 年底大模型預訓練撞牆後,使用強化學習(RL)來訓練模型思維鏈成為了所有人的新共識。雖然 OpenAI 並沒有公佈他們的強化學習算法細節,但最近 DeepSeek R1 的發佈,向我們展示了一種可行的方法。
DeepSeek 團隊開發RI這個過程大概就是:監督學習(SFT) -> 強化學習(RL) -> 監督學習(SFT) -> 強化學習(RL),經過以上過程,就得到了 DeepSeek R1。
DeepSeek R1 給世界的貢獻是開源世界上第一個比肩閉源(o1)的 Reasoning 模型,現在全世界的用户都可以看到模型在回答問題前的推理過程,也就是"內心獨白",並且完全免費。
更重要的是,R1向研究者們揭示了 OpenAI 一直在隱藏的秘密:
強化學習可以不依賴人類反饋,純 RL 也能訓練出最強的 Reasoning 模型。
AI 終於除掉了人類反饋的枷鎖。
“人工智能,有多少人工就有多少智能”,這個觀點可能不再正確了。如果模型能根據直角三角形推導出勾股定理,我們有理由相信它終有一天,能推導出現有數學家尚未發現的定理。
參考資料:Deepseek R1可能找到了超越人類的辦法 (qq.com)https://mp.weixin.qq.com/s/YgRgDw8ndSHJwcPNMqWZNQ