科大訊飛AI能力再升級，在1024開發者節給行業帶來驚喜_風聞

于见专栏-昨天 22:14

2024-10-26

編輯 | 虞爾湖

出品 | 潮起網「於見專欄」

科大訊飛的AI能力再升級。10月24日，在全球1024開發者節上，科大訊飛發佈了“星火大模型4.0 Turbo版本”，底座能力再次升級，首發多模AIUI交互標準等11項技術和產品應用，具備多模態視覺交互及超擬人虛擬人交互能力。相關技術能力的應用價值，也在這次活動上體現得淋漓盡致。

據科大訊飛董事長劉慶峯介紹，訊飛星火4.0 Turbo全新升級，根據真實數據背靠背的測試，七大能力全面超過GPT-4 Turbo，數學能力、代碼能力超過GPT-4o。由艾倫人工智能研究所、OpenAI等國內外權威單位發佈，涵蓋理解和推理、綜合考試、數學和科學、代碼等不同任務類型的14項主流測試集中，訊飛星火4.0-Turbo在其中9項測試集實現對美國三大主流模型（GPT-4o、Claude 3.5 Sonnet、Gemini 1.5pro）的超越，效率相對提升50%。

科大訊飛大模型產品的全新升級，也如同向平靜的水面丟下一顆石子，打破了整個AI賽道的平靜，給行業帶來不可估量的影響，甚至創下了在國內外14項主流測試集上，9項第一。

技術能力再突破，星火大模型4.0 Turbo問鼎多項第一

今年9月，OpenAI發佈了推理性能強大的o1系列，其超長思維鏈、樹搜索及自我反思評價等能力引發業界高度關注，發佈會上，據介紹，科大訊飛已完成超長思維鏈、樹搜索和自我反思評價等算法驗證，預計今年底可實現類OpenAI 01的高難度數學能力顯著提升。

而且，星火大模型4.0 Turbo與GPT 4o、Claude 3.5 Sonnet、Genmini1.5 pro等國際同行相比，其在國內外中英文14項主流測試集上，實現了9項第一。

值得一提的是，訊飛星火4.0 Turbo，底座能力再次升級，特別是數學、代碼和長文本能力顯著提升，中英文綜合能力保持業界領先水平，同時訓練推理效率大幅提升，進一步滿足日益增長的規模化落地需求。

可供對比的是，訊飛星火4.0 Turbo在計算、財務、金融、度量等多個維度的任務中，均超過GPT-4o水平。而且，根據代碼生成HumanEval測試集上的效果對比，訊飛星火4.0 Turbo在Python、Java、JavaScript等任務上和GPT-4o的差距微弱，在C++能力上，也超過GPT-4o。

而在真實應用場景，基於認知智能全國重點實驗室構建的iFLYCode-Eval-2.0代碼實用場景測試集，訊飛星火4.0 Turbo在代碼生成、代碼檢錯、單元測試等任務上都超過了GPT-4o。

同時推出星火代碼7B版本，滿足代碼生成、代碼補全等極速響應型任務，效果業界最優。此外，本次首發的星火多語言大模型，也讓我國在語音識別領域，前進了一大步。其遠場高噪場景語音識別領先優勢，也進一步凸顯。

例如，在多語言能力上，訊飛多語言大模型首次實現全國地級市方言全覆蓋，含全國288個地市、202種方言，訊飛輸入法14.0即將支持202種方言免切換，並進行高效精準識別。此外，在不同國家語言方面，除中英文外，還可支持俄、日、阿、法等8個語種。

由此可見，無論是訊飛星火4.0 Turbo的技術升級，還是訊飛多語言大模型在全國乃至全球各語言場景下的應用，都凸顯出科大訊飛的大模型技術已更上一層樓，其品牌影響力也水漲船高。

星火超擬人數字人與多模態交互能力，為行業帶來驚喜

據媒體報道，在全球1024開發者節上，科大訊飛還首次發佈“星火超擬人數字人”，業界率先實現語義貫穿的“口唇-表情-動作”的超擬人數字人生成，實現了文本、語音和表情的跨模態語義一致性，可根據語音節奏和語義自動生成表情和動作，支持音視頻輸入。

不僅如此，今年流行的多模態交互及超擬人虛擬人交互能力，科大訊飛也交出了十分亮眼的成績單。包括該類技術在教育、醫療、科研、司法、政務等領域的落地應用，都在大會上得到了升級展示。

所謂的多模態交互，是指通過視覺、聽覺、觸覺等多種感知方式，讓人機交互更自然、更高效、更準確、更靈活。而在多模態交互技術的加持下，大模型的應用場景也更加豐富，也更有價值。甚至能夠通過更廣泛的上下文理解，來處理任務，從而放大其應用價值。

在視覺交互方面，科大訊飛的多模態能力，也給業界帶來了驚喜。據瞭解，訊飛星火大模型甚至能夠通過攝像頭，感知外界信息，並進行準備識別、並融入其獨立思考，讓訊飛星火大模型更為智能。

例如，因為海外出遊需要英文翻譯，在訊飛星火大模型的加持下，手機能夠變成翻譯機，進行中英文互譯，讓出境遊玩毫無障礙。更令人驚訝的是，如果在海外發現心儀的產品，訊飛星火大模型甚至可以精準識別其規格，並給出合理的選購建議。

此外，這種識別功能還能做到個性化，與訊飛星火大模型本身就具備的仿聲功能相結合，只需要一張照片，就能生成數字人。值得一提的是，科大訊飛的語音視覺虛擬人，還可以實現語音、視頻、圖文的全部聯動的多模態交互“三合一”。

對此，科大訊飛研究院院長劉聰通過現場對話，讓星火大模型以孫悟空以及小豬佩奇的角色來進行對話，數字人的反應都十分敏捷精準。通過給超擬人數字人打“視頻電話”，並調整道具“孫悟空”“奧特曼”“怪獸”的擺放位置，無需拍照，超擬人數字人看圖説話，就能描述奧特曼和孫悟空的行為意圖，並進行分析。

除此以外，訊飛AI學習機閲讀夥伴也有類似超擬人數字人的功能，能將書中的故事擬人化，讓孩子動腦思考問題，並學會與機器人互動，主動提問。

由此可見，多模態能力加持下的超擬人數字人，已經具有“跨語言”、讀懂畫面、感知行為的高級能力，應用場景也越來越豐富。據介紹，目前，星火超擬人數字人，已支持1300+種人設打造。由此，也為其進一步進行商業化應用，提供了想象空間。

訊飛星火大模型，進入收穫期

技術的價值在於應用。實際上，隨着訊飛星火大模型技術逐漸走向成熟，其在各個行業的應用，也日漸廣泛，並獲得合作伙伴的好評。

首先，在智能汽車賽道。據介紹，從今年第四季度開始，奇瑞、廣汽、長城等多款車型將會陸續集成端側星火大模型上線並開售，消費者也將率先感受到最前面的大模型技術。

其次，在科大訊飛的大本營市場教育領域。本次科大訊飛AI學習機發布了“AI作業過濾器”，用大模型幫學生科學減負。據官方介紹稱，訊飛AI學習機通過OCR能力識別出練習題目後，可以將題目自動分級，分為“必做題”“選做題”“建議不做題”，讓學生快速區分自己的能力水平，避免無效答題，浪費時間而且對學習成績提升無益。

再次，在醫療賽道，訊飛星火醫療大模型也更新到了2.0版本，進一步為這個相對專業的行業賦能。例如，訊飛星火醫學影像大模型，可以通過大量醫療影像實例訓練，對影像質量進行自動控制、對多個病種進行精準診斷。

最後，在不同國家語言翻譯方面，訊飛還現場展示了多語種AI翻譯透明屏，以及協助政務機構辦公的星火智辦一體機，包括能夠測試智能座艙人機交互效果的VIAS評測機器人。

由此可見，從技術到應用，科大訊飛走的路線是，既要高科技，也要接地氣。不僅在技術方面領先於同行，而且在應用方面，覆蓋人們智能生活的方方面面。

對此，劉慶峯所分享的星火大模型一年來的成績，足以印證。據介紹，目前訊飛星火大模型，是央國企中標第一、教育醫療市場第一、智能汽車市場第一、大模型開發者生態第一、智能硬件市場第一、賦能科研應用第一。

多項第一的訊飛星火大模型，在國際、國內都產生了極大的影響力。體現在業績層面，訊飛星火大模型加持的星火智能硬件，銷量暴漲，就是其AI技術價值的最好印證。

據科大訊飛官方介紹，2024年1-9月，訊飛星火智能硬件GMV同比提升50%，截至10月23日，雙十一大促全渠道GMV同比增長280%。

在技術與業績兩大引擎的推動下，訊飛星火的大模型技術研究也在進一步加速。例如，發佈會上，科大訊飛、華為、合肥市大數據資產運營有限公司三方聯合打造的國產超大規模智算平台“飛星二號”正式啓動。

而首個國產萬卡算力集羣“飛星一號”平台上線始於一年前，在攻克了很多疑難雜症、解決了500多次以上的基礎軟硬件問題和模型適配問題，“飛星二號”也帶着更新的算法、更強的技術有備而來，並有望引領國產大模型底座進一步發展、提升，甚至成為世界的第二選擇。

結語

AI大模型從概念期到應用期，再到商業化，科大訊飛可謂為行業打造了一個“樣板”。正如劉慶峯在大會上表示，大模型規模化應用的新時代，科大訊飛已經做到了行業引領。而未來人工智能產業發展的關鍵是五個關鍵詞是：頂天立地、自主可控、通專結合、端雲聯動、軟硬一體。

實際上，劉慶峯所言不虛。目前AI大模型熱度不減，各種新技術、新應用不斷湧現。人類的生產、生活方式，也因此發生了天翻地覆地改變。而在以科大訊飛為代表的科技企業的帶動下，AI大模型的各項能力越來越完備，應用場景也越來越豐富，因此帶來的商業化，也充滿想象空間。

因此，新型的AI技術，也將為人類的未來帶來更多可能，為市場對科大訊飛有着更高的期待，而已經走在前面的科大訊飛，也必將持續引領，給行業注入信心，為行業帶來更多驚喜。