向多模態探索,小米大模型團隊音頻推理登頂MMAU榜
【環球網科技報道 記者 秦耳】小米大模型團隊近日在音頻推理領域取得重大突破,憑藉強化學習技術的創新應用,成功登頂了備受矚目的MMAU(Massive Multi-Task Audio Understanding and Reasoning)評測集榜單。這一成就得益於團隊將強化學習算法應用於多模態音頻理解任務,僅用一週時間便實現了64.5%的SOTA(State Of The Art)準確率。
MMAU評測集是衡量音頻理解和推斷能力的重要標尺,涵蓋了語音、環境聲和音樂等多種音頻樣本,並結合人類專家標註的問答對,全面測試模型在跨場景推理、專業知識應用等27種技能上的表現。該評測集旨在推動音頻理解和推斷技術向接近人類專家邏輯分析水平的方向發展,但由於其極高的難度,此前榜單上的表現一直難以突破。
小米大模型團隊針對這一挑戰,深入探索了強化學習技術的潛力。他們借鑑了DeepSeek-R1的Group Relative Policy Optimization(GRPO)方法,通過“試錯-獎勵”機制,使模型能夠在不斷嘗試中自主進化,湧現出類似人類的反思和多步驗證等高級推理能力。這一創新策略不僅克服了傳統監督學習方法在複雜推理任務上的侷限性,還大大提高了模型的適應性和泛化能力。

在研發和測試中,小米大模型團隊使用較小的數據集(清華大學發佈的AVQA數據集,僅包含3.8萬條訓練樣本)對模型進行強化學習微調,使其在MMAU評測集上的準確率達到了64.5%,比此前表現最好的商業閉源模型GPT-4o高出近10個百分點。
值得注意的是,小米大模型團隊在實驗過程中還發現了一些有趣的現象。他們發現,當強制要求模型輸出顯式的思維鏈結果時,準確率反而有所下降。這一發現揭示了隱式推理在模型訓練中的重要性,也為後續研究提供了新的思路。
小米大模型團隊的這一突破性成果不僅為音頻理解和推斷技術的發展開闢了新的道路,也為人工智能領域的創新研究提供了有益的借鑑。小米團隊表示,將把訓練代碼、模型參數開源,並提供技術報告,供學術界和產業界參考交流。