AI高考數學都能考100多分了?_風聞
酷玩实验室-酷玩实验室官方账号-13分钟前
大模型又雙叒叕進化了。
OpenAI凌晨發佈新一代大模型,據説在推理能力上已經可以比肩人類。並且這次沒有像Sora一樣的畫餅,發佈即可用。

那就讓我們看看這個新模型到底是怎麼個事!
草莓計劃
其實這次OpenAI的發佈早有"預謀",在薩姆奧特曼的twitter上,一直都在暗示,即將有一款名為**“草莓”**的AI項目與大家見面!

這草莓是啥呢?就是之前一直傳言中可以"媲美"人類,達到AGI(通用人工智能)的大模型。草莓的使命,就是讓AI具有推理,規劃,甚至是自我學習的能力,從而幫助人類在醫療,科研,教育等有着更快更大的突破。
今天凌晨,我們終於看到了"草莓",只不過它的名字不是GPT5,而是o1。
根據官方的介紹,o1在推理相關的問題上,比GPT4o有着大幅度的提升。比如針對美國最****聰明高中生的數學測試中,以前GPT4o平均只能在15道題答對1.8道,而o1的正確數量飆升到了12.5,如果微調下,o1可以超過美國高中生數學奧林匹克的分數線。

同樣地,在編碼比賽中,分數也從以前的11分幹到了現在的89分,在博士級別的問答中,它也可以超過人類專家。
在信息奧林匹克上,經過微調的o1,分數整整提高到了1000分。這是什麼概念呢?在人類中,只有**7%的參賽者比AI強,剩下的93%**都被AI擊敗了!

看完這些,我突然有種第一次見到Sora感覺,這視頻真是AI生成的?人類智商最後的防線,就這麼被AI攻破了?是不是OpenAI看AI要崩了,又一次畫的大餅?

答案是什麼,只有測過,才清楚。這次o1並沒有像Sora一般不可"褻玩”,發佈後,就全量推送給訂閲用户,也就是説,任何人交上20美元,就可以立刻體驗到這個劃時代的大模型。
測試完,我有點慌了
那就廢話少説,直接開測,學渣還是Jumping,我們一測便知!
我們分別用2024年新課標1卷的高考數學題和阿里巴巴全球數學競賽預選賽的題目來測o1的推理能力。不過要説明的是,目前推送的是o1預覽版,它的推理能力和正式版還有些許差距,所以將來看到的o1會比現在更強。
目前的o1還不能看圖,所以這次我們把數學公式轉換成LaTex格式,交給AI解答,並且今年新課標1卷的試題中,有兩道是需要看圖的,刨除這兩道題的分數,總分在129分。

在題目輸入對話框後,可以看到o1比普通大模型多了一個思考的過程。比如上圖這道高考數學的多選題,它會先分析題目,然後再找需要用到知識。以這道題來講,需要用的就是正態分佈的知識,然後再去計算概率。

在這裏也簡單放下這道題o1的思考過程,大家可以看下,它整體的思路和人類思考確實非常像!

給AI的卷子判完,我直接慌了!91分!如果轉換到150分,那就是105分呀,這已經超過我當年的高考分數了。
阿里巴巴數學競賽的題比較特殊,其中大部分都是證明題,沒有固定答案,所以我們就測試了6道具有準確答案的題,像下面這種:

答題的整個過程,和人類非常相似,概率論與數理統計忘光的我,基本上也能看明白個大概。

最終6個問題,o1回答對了3個,正確率在50%,雖然沒有超過姜萍的93分,但作為AI來講,也非常不錯了,畢竟是國際數學比賽。

測完下來,感覺和AI相比,我自己像個弱智!當年我高考數學90多分,結果AI不僅在10分鐘內做完題,還考了100多分。我連題目都看不懂的數學競賽題,它能答對一半,雖然不如姜萍,但也能秒殺大部分人了。
説好的AI推理能力不如5歲小孩呢?OpenAI怎麼突然就讓AI推理能力,噌噌的,超過我這個360個月的嬰兒了呢?
思維鏈,下個大模型的突破點
這其中的秘密就在於思維鏈(Chain of Thought),也就是上面提到過的把一個複雜問題,拆成多個小問題,依次解決的方法。
之前思維鏈都是作為提示詞技巧來使用。想要AI幫你解決複雜問題,就把這個問題拆解成小問題,然後一個一個的輸入給AI。
這次,OpenAI直接把拆解的過程交給AI,人類得到了徹底的解放!實測的結果大家也看到了,AI的邏輯推理能力確實得到了大跨步的前進!
那麼OpenAI又是如何實現讓AI自我完成思維鏈的呢?很可惜,目前的OpenAI早就Close了,因此這次並沒有公佈這些技術細節,但從傳聞來看,大概是用到了強化學習。
也就是給AI設置一個規則,這一步邏輯正確+1分,錯誤-1分,分數越高越好,最終就有了今天的o1。當然其中有很多工程細節,這些都成為了OpenAI的護城河。
接下來可以肯定的是,思維鏈將成為其他家大模型的突破方向,到時候誰家模型分解問題分解的好,分解的正確將成為能否領先的關鍵。
除了數學,有了推理能力的AI在各個地方都有着更好應用。比如OpenAI官方就展示用o1,在不到10分鐘內做出一個小遊戲,網友在實際測試中,甚至做出了3D的貪吃蛇。

更讓我意外的是,OpenAI還展示了o1在量子物理,基因學,經濟學以及認知學帶來的幫助,好傢伙,這下AI都可以覆蓋到這麼前沿的領域了?

不過每一次AI突破,都有不小的"副作用",ChatGPT帶來論文造假,Midjourney和Sora帶來偽造新聞恐慌,這次o1的"副作用"更大。

之前GPT4安全測試,生物威脅等級為低,而在o1中,生物威脅不僅升級到了化學,生物,核子,放射威脅,等級也提升到中。


也就是説,“天網"離我們又進了。AI越強,它造成的破壞也越大,如何控制它,將成為和思維鏈一樣重要的事情,就像我們都希望核子發電,而不希望它爆炸。
從今天開始,各大AI廠商就要考慮這個問題了,不過對於我,我更關心一個問題,就是以後我們還需要考試嗎,實在要考的話,能不能讓AI替我答一下,畢竟它比我分高**!**