技術解讀OpenAI最新“理科生”大模型o1,類似圍棋AI的搜索_風聞
陈经-亚洲视觉科技研发总监-1小时前
1. 新推出的o1在數學和編程上達到了人類精英水平,科學問答博士水平、編程奧賽能拿牌、全美數學競賽前500名。簡單地説,就是“理科生”能力很強,遠遠超過其它AI。文科生水平,就和之前的GPT-4o差不多,或者給人類評估者感覺差一些。
2. 技術秘訣,在於解構模擬了理科生的思維模式:思維鏈。文科問題是沒有什麼思維鏈的,就是不斷輸出“下一個詞”,湊出句子、段落,熟練了就能扯很長。但是理科問題是需要很長的思維鏈條的,一步推一步,最後得到滿意的答案。
3. 神奇的是,機器是可以把這個思維鏈條模擬出來的!其實我們看大模型做一些簡單數學題、邏輯題,回答就包括了完整的思維鏈條。要注意,這些不是抄答案!有水平的理科生是不能抄答案的,題目變化無窮多。機器給出的,確實是符合人類能理解的思維鏈。
4. 但是,機器其實不知道自己在幹什麼!它只是進行了“思維鏈展開”這個操作。理科生的答案,最終還是文字表述的,一步推一步,每步之間是有文字關聯的,機器能“形式主義”地學會。雖然不知道物理和數學實質上什麼意思,但是這個鏈條步驟是人類測試者喜歡的。
5. 一個問題,可能的“思維鏈展開”有極多種,其中絕大多數都是無效的,鏈條推理不嚴謹或者是錯誤的。但是這就構造了一個龐大的“解空間”,可以在裏面優化努力。OpenAI應該是開發了一種理科生模式,讓機器在解空間裏搜索優化,比文科模式花的時間要長得多。
6. 一個類比就是圍棋AI,下棋有“直覺模式”和“搜索模式”。AI的直覺模式就是看棋型直接給出候選點,是一個神經網絡的結果,下得很快,能戰勝我這樣水平不高(但也不低)的業餘棋手(因為我們也是靠直覺下棋,算不太動了),但是打不過發現有問題就仔細計算的人類高手。而基於MCTS(蒙特卡洛樹形搜索)的搜索算法,就能輕鬆打敗人類,機器自己對弈(強化學習)提升到了人類無法想象的高水平。這次的o1就是引入了搜索模式。
7. 搜索模式會展開思維鏈,在裏面選擇概率上似乎更好的鏈條進行驗證、繼續展開。因為有隨機因素,所以選的鏈條多半有問題。但是它會繼續搜索,總會弄出一些在它自己看來還不錯的思維鏈條,輸出給人類。這個搜索算法做好以後,很多數學和編程問題真的就是正確答案。
8. o1也能有強化學習機制,不同版本比較答案正確率,自我迭代。它不依賴很多語言樣本了,就是需要改進思維鏈搜索算法。等於理科生反覆做題,找到自己擅長的思路,改正不對的思維習慣。
9. 這確實是機器解構人類理科思維的重大進展,把理科問題像下圍棋那樣解構成了思維鏈空間。而這是機器擅長的,等於暴力破解了解空間。人類絕對不會這樣下棋、思考,會累死。機器成功模擬了理科生思維,雖然還是不理解在幹什麼。理論上來説,機器可以超過最厲害理科生的思維能力,暴力搜索模擬思維,然後把結果給人展示,人類會給出真正的智慧“理解問題和答案是什麼”。也就是説,機器是極為厲害的“思維工具”,能夠幫助人類拓展思維能力,這個空間打開了。我確認這是一個重要的AI領域的大進展。
