AI是如何做數學題的?很象是人在思考,但目前還不如人類頂尖高手_風聞
陈经-亚洲视觉科技研发总监-1小时前
AI是如何做數學題的?很象是人在思考,但內核是AlphaGo式的搜索算法。目前還不如人類頂尖高手。
1. 一個高考數學題。這個題有一定難度,主要是第二問,要求極值。我讓DeepSeek的“深度思考(R1)”模式測試,做出來了。
看答案簡單,但這沒有看頭。



2. 真正的“乾貨”,是DeepSeek的思考過程。為了解決這個問題,它足足思考了183秒。簡單的第一問,它也輸出很長的思考過程(這個過程會在APP裏展示),要七個截屏。第二問就更長。我們看第一問,就能明白AI在幹什麼了。







3. 它就在那自言自語,説要幹什麼。從形式上看,完全模仿了人類的思考過程。據説在AI訓練早期階段,人是看不懂思考過程的,但是後期通過訓練,把過程弄得人能看懂了。這叫思維鏈(Chain Of Thought,COT),挺有意思的。之前的大模型輸出是沒有的,最近才引入。
4. 它在那思考得很繁瑣,但是每仔細,每一步都是簡單的,有“根據”的。而這些簡單的步驟,是人類語料提供的。它其實只知道是一些符號的關係,不知道對應什麼東西。但很多情況下,人做數學題其實也就是符號遊戲,並沒有去對應物理世界。
5. 我們還看到,它在那思考,有些情況,都是“歪”了,得出了一些怎麼都説“可能不太好”的中間結果。然後就説,換個思路,再來處理算式。換思路好,就能推出更多不錯的中間結果,最後就把第一問做出來了。而這就是“搜索”,一個方向處理不好,就換個方向幹。在AlphaGo下圍棋時,我們已經見識了機器搜索的威力。
6. 第二問,它思考的過程要長得多,因為難度大了很多。它換了幾次方向,最後還是做出來了。有時AI在做出來之後,還會回頭去檢查下過程,自由自語地説,過程沒錯,可以輸出了,看上去很象人做出來了檢查。
7. 但是,我們仔細看整個過程,就發現了AI的可怕。它最終答案給的很簡單,但是思考過程長得嚇人,感覺有上萬字。沒有人會這樣做題,就象沒有人象AlphaGo那樣下棋,為了下一招棋,它能把整盤棋反覆下完幾萬次,統計下贏的概率。沒有人會象AI那樣,耐心地去把可能的思考路線都去走走看。其中有些路線看上去很可笑,越推越亂。
8. 而這就是AI厲害的地方,看了這個過程,我確信AI做高考數學題滿分是沒有問題的。現在的AI的自然語言理解水平,已經能把數學題,“形式化”成機器可以理解的標準格式文字了。然後,對於這些數學條件輸入,研究者就可以開發各種AlphaZero式的搜索大招,能讓機器跑出一堆“中間結果”。而其中會用到不少“中間概念”,人類在語料中提供了充足的知識,機器知道去試某條相關的知識,不行就換一條試。以高考的數學水平,中間概念都必然是教過的,出現在語料中的,機器總會搜索了答案,然後回頭檢查過程正確,輸出。
9. 而AI做數學題不如人類頂尖數學高手的地方,可能是發明一些“中間概念”,這些套路是語料中沒有的,需要深刻的洞察力。例如證明一個結果,需要10個引理,有的是已經有的,有的容易,有的難。AI可能會得出1萬種“內部結果”,但基本都是混亂的。特別是,AI不知道怎麼將10個引理都弄出來,組合成一個精妙的結構。可能它弄出了6條,下次模擬弄出了另外4條,但沒有一次能把10條有機組合起來。數學題,還是比下棋要難。