AI高考數學都能考100多分了？_風聞

酷玩实验室-酷玩实验室官方账号-13分钟前

2024-09-14

大模型又雙叒叕進化了。

OpenAI凌晨發佈新一代大模型，據説在推理能力上已經可以比肩人類。並且這次沒有像Sora一樣的畫餅，發佈即可用。

那就讓我們看看這個新模型到底是怎麼個事！

草莓計劃

其實這次OpenAI的發佈早有"預謀"，在薩姆奧特曼的twitter上，一直都在暗示，即將有一款名為**“草莓”**的AI項目與大家見面！

這草莓是啥呢？就是之前一直傳言中可以"媲美"人類，達到AGI（通用人工智能）的大模型。草莓的使命，就是讓AI具有推理，規劃，甚至是自我學習的能力，從而幫助人類在醫療，科研，教育等有着更快更大的突破。

今天凌晨，我們終於看到了"草莓"，只不過它的名字不是GPT5，而是o1。

根據官方的介紹，o1在推理相關的問題上，比GPT4o有着大幅度的提升。比如針對美國最****聰明高中生的數學測試中，以前GPT4o平均只能在15道題答對1.8道，而o1的正確數量飆升到了12.5，如果微調下，o1可以超過美國高中生數學奧林匹克的分數線。

同樣地，在編碼比賽中，分數也從以前的11分幹到了現在的89分，在博士級別的問答中，它也可以超過人類專家。

在信息奧林匹克上，經過微調的o1，分數整整提高到了1000分。這是什麼概念呢？在人類中，只有**7%的參賽者比AI強，剩下的93%**都被AI擊敗了！

看完這些，我突然有種第一次見到Sora感覺，這視頻真是AI生成的？人類智商最後的防線，就這麼被AI攻破了？是不是OpenAI看AI要崩了，又一次畫的大餅？

答案是什麼，只有測過，才清楚。這次o1並沒有像Sora一般不可"褻玩”,發佈後，就全量推送給訂閲用户，也就是説，任何人交上20美元，就可以立刻體驗到這個劃時代的大模型。

測試完，我有點慌了

那就廢話少説，直接開測，學渣還是Jumping，我們一測便知！

我們分別用2024年新課標1卷的高考數學題和阿里巴巴全球數學競賽預選賽的題目來測o1的推理能力。不過要説明的是，目前推送的是o1預覽版，它的推理能力和正式版還有些許差距，所以將來看到的o1會比現在更強。

目前的o1還不能看圖，所以這次我們把數學公式轉換成LaTex格式，交給AI解答，並且今年新課標1卷的試題中，有兩道是需要看圖的，刨除這兩道題的分數，總分在129分。

在題目輸入對話框後，可以看到o1比普通大模型多了一個思考的過程。比如上圖這道高考數學的多選題，它會先分析題目，然後再找需要用到知識。以這道題來講，需要用的就是正態分佈的知識，然後再去計算概率。

在這裏也簡單放下這道題o1的思考過程，大家可以看下，它整體的思路和人類思考確實非常像！

給AI的卷子判完，我直接慌了！91分！如果轉換到150分，那就是105分呀，這已經超過我當年的高考分數了。

阿里巴巴數學競賽的題比較特殊，其中大部分都是證明題，沒有固定答案，所以我們就測試了6道具有準確答案的題，像下面這種：

答題的整個過程，和人類非常相似，概率論與數理統計忘光的我，基本上也能看明白個大概。

最終6個問題，o1回答對了3個，正確率在50%，雖然沒有超過姜萍的93分，但作為AI來講，也非常不錯了，畢竟是國際數學比賽。

測完下來，感覺和AI相比，我自己像個弱智！當年我高考數學90多分，結果AI不僅在10分鐘內做完題，還考了100多分。我連題目都看不懂的數學競賽題，它能答對一半，雖然不如姜萍，但也能秒殺大部分人了。

説好的AI推理能力不如5歲小孩呢？OpenAI怎麼突然就讓AI推理能力，噌噌的，超過我這個360個月的嬰兒了呢？

思維鏈，下個大模型的突破點

這其中的秘密就在於思維鏈（Chain of Thought），也就是上面提到過的把一個複雜問題，拆成多個小問題，依次解決的方法。

之前思維鏈都是作為提示詞技巧來使用。想要AI幫你解決複雜問題，就把這個問題拆解成小問題，然後一個一個的輸入給AI。

這次，OpenAI直接把拆解的過程交給AI，人類得到了徹底的解放！實測的結果大家也看到了，AI的邏輯推理能力確實得到了大跨步的前進！

那麼OpenAI又是如何實現讓AI自我完成思維鏈的呢？很可惜，目前的OpenAI早就Close了，因此這次並沒有公佈這些技術細節，但從傳聞來看，大概是用到了強化學習。

也就是給AI設置一個規則，這一步邏輯正確+1分，錯誤-1分，分數越高越好，最終就有了今天的o1。當然其中有很多工程細節，這些都成為了OpenAI的護城河。

接下來可以肯定的是，思維鏈將成為其他家大模型的突破方向，到時候誰家模型分解問題分解的好，分解的正確將成為能否領先的關鍵。

除了數學，有了推理能力的AI在各個地方都有着更好應用。比如OpenAI官方就展示用o1，在不到10分鐘內做出一個小遊戲，網友在實際測試中，甚至做出了3D的貪吃蛇。

更讓我意外的是，OpenAI還展示了o1在量子物理，基因學，經濟學以及認知學帶來的幫助，好傢伙，這下AI都可以覆蓋到這麼前沿的領域了？

不過每一次AI突破，都有不小的"副作用"，ChatGPT帶來論文造假，Midjourney和Sora帶來偽造新聞恐慌，這次o1的"副作用"更大。

之前GPT4安全測試，生物威脅等級為低，而在o1中，生物威脅不僅升級到了化學，生物，核子，放射威脅，等級也提升到中。

也就是説，“天網"離我們又進了。AI越強，它造成的破壞也越大，如何控制它，將成為和思維鏈一樣重要的事情，就像我們都希望核子發電，而不希望它爆炸。

從今天開始，各大AI廠商就要考慮這個問題了，不過對於我，我更關心一個問題，就是以後我們還需要考試嗎，實在要考的話，能不能讓AI替我答一下，畢竟它比我分高**！**