國內數學最強!實測訊飛版o1:上能打奧賽卷高考,下能輔導寒假作業_風聞
量子位-量子位官方账号-35分钟前
白小交 發自 凹非寺
量子位 | 公眾號 QbitAI
剛拿下去年年度標王的科大訊飛,這麼快就迎來了新年第一彈——
訊飛星火深度推理模型X1。
這款模型不僅在中文全學段數學能力上表現卓越,更在奧賽能力上超越一眾知名模型,穩居國內第一寶座。

從官方給出的效果中看到,X1可謂上能打奧賽、考高考,下能輔導小學生做寒假作業。(Doge)
更令人驚喜的是,它的每一步推理過程都清晰可見,附帶着詳細的思考過程,真正做到**“知其然,更知其所以然”**。

值得一提的是,X1不僅是當前業內首個完全基於國產算力的推理模型,更是唯一一個在更少算力條件下達到業內一流效果的模型。這一成果背後,體現的是國產團隊在算力優化、訓練框架設計等核心技術領域的深厚積累與創新能力。
推理能力作為衡量算力效能的關鍵指標,對硬件架構、算法優化及系統協同提出了極高的要求。
因此,X1的發佈,不僅是一次技術突破,還是國產算力集羣能力的一次重要驗證,標誌着國產化技術體系在高效能計算領域的競爭力邁上了新台階。
目前web端和星火App都已經上線,搜索“深度推理模型X1”智能體即可使用。

援引智能超參數根據公開招標信息統計,過去一年中,科大訊飛以91箇中標項目、披露中標金額84780.8萬元拿下通用大模型廠商中標排行榜第一名,贏得市場客户的認可。如今又有新大模型加持,也將推動更多行業應用落地。
實測訊飛星火X1
此次發佈的訊飛星火X1,並非單獨的推理模型,也不同於常規的通用助手產品形態。
而是以其獨特的“三個第一”,打出了差異化優勢。
第一個全國產算力平台上的深度推理模型,代表着國產算力在高效推理上的重大突破;
在多項考試中能力指標第一,覆蓋小初高、大學、AIME、MATH500等,展現了其卓越的數學推理能力;
第一個率先將深度推理類模型應用真實場景中,真正實現了從技術到落地的跨越。
國產算力平台的亮眼表現並非偶然。兩年前,訊飛與華為聯合發佈了“飛星一號”。後者首次亮相便以常態化支持萬億參數大模型訓練的能力,當時引發業內不少關注。此後,平台持續適配新模型與新算法,智算集羣也實現了多次躍遷。
如今,它已能支撐大模型的深度推理能力,標誌着國產算力平台在複雜計算、高效數據處理、高可靠性和可擴展性上實現了全面升維。
其次,訊飛星火X1不僅在標準化測試中表現優異,更在實際應用中展現了其強大的數學推理能力。
在官宣模型之前,X1模型就已經應用在了真實教育教學場景當中。去年1024,訊飛聯合中國教育科學研究院發佈了基於問題鏈的高中數學智能教師助手。
同時面向全國百個試點區域、千名教研員和老師打造上萬個優秀案例。而星火X1已經部署在上述試點區域,並收穫了第一波的真實反饋。
一位來自合肥七中的高中數學老師表示,感覺X1推理過程和邏輯思路更加清晰和嚴謹了。
他尤其提到了**「詳細呈現解答過程」**這一特點,比如一些中上難度的題目,能夠幫助他們快速理清講解思路。
而且利用這個能力,後續可以直接考慮做成PPT或者動畫演示,引導學生理解每個步驟。
可以説,X1不僅拿捏住了技術,更拿捏住了教育一線的實際需求。
既然説到這裏,咱們就來一波實測,來實際驗證一下X1的這個推理能力。
先來一道來自上世紀經典的奧賽證明題。
如果p和p+2都是大於3的素數,那麼6是p+1的因數
看到這題一般第一想法,就是湊數,猜到一個是一個,比如最小的5就符合要求。(Doge)
來看看是星火X1是如何解的。

**△**圖注:解題中
在思考了49秒之後,它採用了排除法,確定判定這個結論是正確的。
首先確定p的形式:p一定是不能被3整除的奇數;
那麼考慮兩種情況,p=6k+1和p=6k+5,那麼第一種也不可能,第二種顯然也能被6整除。
排除了所有可能之後,由此判定這一證明題是對的。

看來這道證明確實對它是有點簡單了。
那麼咱們來看一下求解題,比如這道:
求所有的素數p,使4p2+1和6p2+1也是素數。
乍一看,又是倍數又是平方的,感覺很複雜。那就交給它來思考一下。
X1思考了148秒後,答出了正確答案為5。(o゜▽゜)o☆[BINGO!]

好,回答對了不要緊,關鍵還得看看它的解題步驟對不對。
首先看到的是,它從最小的素數2開始,分別研究了2、3、5的可能性,結果只有5符合條件。
注意看,這裏4不是素數,它直接就規避掉了,這個點其實很容易被忽略掉。

隨後它研究了p>5的可能性,從首先排除它是偶數,然後統一成6k+r的通用形式,排除3的情況下探討6k+1和6k+5的可能,結果發現這兩個可能無法直接得出結論。
但是它立馬糾錯,轉念一想!可以用類似的方法檢查其他數。
而且還有更簡單的方法,那就是大的p總是能被小的素數所整除,那麼也就不是素數了。

先舉例論證,再擴展更大範圍的情況,結果發現行不通,再次轉變思路,然後發現了更為簡單的方法,排除了更大p的可能性。
這一波行雲流水,有理有據,至少好久沒碰數學的我是看懂了。
看完了求解和證明題,那咱們試試難一點的,直接拿高考數學來看看。
這是一道來自去年新課標②卷的幾何題,注意看這次只是扔一張圖給它哦,而且裏面不止一道題。

首先看第一個小題:求角A。
它首先將已知方程按照三角函數和角公式改寫了一遍,然後利用正弦函數的週期性質以及A的範圍,判斷出A等於π/6。
回答正確。思路過程也完全正確。

再看第二個小題,求三角形的周長。可以看到它反覆用到了三角函數的相關定理,將題幹中的等式化繁為簡、逐步拆解,最終整合得出答案。
最後答案也是正確的。

可以看到的是,無論是三角函數的應用還是幾何定理的推導,X1都展現了其強大的數學推理能力與常識推理能力。
這種能力不僅使其能夠應對複雜場景,還能貼近人類思維,甚至彌補人類在思考中的疏漏。
訊飛星火X1的推出,不僅標誌着國產算力平台在推理能力上的重大突破,更為教育場景提供了全新的智能化解決方案。
其清晰易懂的解答、強大的常識推理能力以及動態學習與糾錯能力,使其在數學考試、賽事中屢獲佳績,並提前俘獲了老師的心。
挑戰小初數學題
下一步,X1將進一步深入教育場景,直接拿捏學生與家長的需求了。
能夠預見到的是,它會讓科大訊飛AI學習機的學習輔導能力更強。比如根據孩子的學習吸收能力給出解題邏輯,如果吸收能力比較薄弱,解題步驟就會更為精細,幫助他們系統性地理解問題,逐步培養邏輯思維能力。
一直以來,科大訊飛AI學習機,其實備受學生家長們的認可。
第三方數據顯示,2021年至2023年間,連續三年蟬聯全國高端學習機銷售額第一,而且用户淨推薦值NPS持續保持行業第一,可以説廣受用户和市場好評。
那麼現在不妨提前感受一下,到時候使用起來會是什麼樣的體驗。
來看這道初中數學題,考的是完全平方公式。
已知9x2 -6xy+k是完全平方式,則k的值是。

像「我們需要認識到」、「讓我們從XX開始」、「可以將XX這兩個進行比較」,它的語氣都是那種循循善誘,很有耐心的感覺~

不僅每個步驟清晰,就是公式展開,像(3x-y)2的演算過程也一一呈現,最終得到了正確答案。
即便像這種簡單的幾何題,也是解題邏輯都挨個解開:

步驟1:確定拋物線的開口方向;
步驟2:找到拋物線的頂點;
步驟3:確定與y軸的交點
步驟4:分析選項

訊飛星火X1像是一個更為耐心和專業的“AI老師”, 跟隨它的思路過程,孩子也能思考一遍。
不錯不錯,現在寒假也到了。
X1部署應該也緊趕慢趕地在日程上了,這樣家長輔導起來也就輕鬆多了。

沒想到,o1類模型第一波大規模應用,可能是先由孩子們用上。(Doge)