智源研究院林詠華:綜合能力與應用落地成為大模型廠商關注的重點
【環球網科技綜合報道 記者 秦耳】近日,智源研究院正式發佈了國內外100餘個開源和商業閉源的語言、視覺語言、文生圖、文生視頻、語音語言大模型的綜合及專項評測結果。此次評測不僅擴展、豐富、細化了任務解決能力的內涵,還新增了多項關鍵能力與任務,全面丈量了大模型技術的最新進展和生態變局。
本次評測中,智源研究院針對大模型的多種模態進行了綜合評測。評測結果顯示,2024年下半年大模型發展更聚焦綜合能力提升與實際應用,多模態模型發展迅速,湧現了不少新的廠商與新模型,而語言模型發展則相對放緩。
評測結果發佈期間,智源研究院副院長兼總工程師林詠華接受了記者採訪就大模型發展的趨勢以及大模型評測標準與方式進行了深入解讀。

“從整體趨勢來看,國內更多的廠商在過去一年裏,其訓練的模型能力已經到達了一定應用的可能性。儘快實現應用落地,完成商業化這已經成為大多數廠商的想法。”林詠華講到。
在她看來,隨着AI模型基礎能力的不斷提升,當前AI應用的發展呈現出兩個明顯的趨勢:一是基於語言模型的複雜應用能力不斷提升;二是文生圖、文生視頻等應用將不斷湧現。這些多模態大模型能力的提升,為下一步的AI應用提供了基礎條件。結合我國當前大模型整體能力,以及目前多樣化AI應用場景,這為AI應用商業化落地提供了條件,有助於整個大模型市場發展出良性循環。
不過,林詠華也表示,雖然廠商正在努力尋求應用落地,不過當前的投資依然主要在大模型的基礎能力方面,這也為AI應用的相關投資提供了明顯的技術路徑以供觀察,儘量避免出現因大模型基礎能力迭代升級,而造成的AI應用滯後效應。
針對近期業內流傳出“AI大模型預訓練效果停滯”的小作文,林詠華表示並不認同。她認為,造成這樣的結果是因為當前互聯網數據呈現孤島化趨勢,大量數據未被充分利用,特別是視頻數據,如何更好地利用這些數據來促進AI模型對世界認知的學習,是當前面臨的挑戰之一。同時,她也提到了合成數據在AI模型訓練中的應用,指出合成數據是一種高效產生數據的方式,對於某些難以獲取的數據,如自動駕駛中的風雨、黑暗環境駕駛數據,合成數據具有重要作用。
“此次大模型評測中,為規避數據集泄露風險以及數據集飽和度問題,本次評測吸納了近期發佈的數據集並持續動態更新評測數據,替換了98%的題目,並提升了題目的難度。”林詠華在談到此次大模型評測結果時講到。她表示,智源評測在評測過程中始終堅守科學、權威、公平、開放的原則。所有閉源大模型的評測題目都在智源進行,通過調用公開的API,以普通用户的角度使用大模型進行評測。
在具體的評測過程中,除了多種模態的綜合評測外,智源研究院還推出了四大專項評測榜單,多維度探索模型能力邊界與應用潛能。其中,K12全學段、多學科試卷的評測結果顯示,大模型在本次測驗中的綜合得分相較於半年前提升了12.86%,但仍與海淀學生平均水平存在差距。同時,模型辯論平台FlagEval Debate的評測結果表明,大模型在邏輯推理、觀點理解和語言表達等核心能力方面仍有待提升。
值得一提的是,本次評測還探索了基於實際應用場景的全新方法,通過評測模型的量化代碼實現能力,探索模型在金融量化交易領域的潛在應用能力和商業價值。評測發現,大模型已經具備生成有回撤收益的策略代碼的能力,能開發量化交易典型場景裏的代碼,頭部模型能力已接近初級量化交易員的水平。
林詠華表示,FlagEval評測體系一直堅守科學、權威、公正、開放的準則,通過技術方法平台持續創新,打造丈量模型能力的標尺,為大模型技術生態發展提供洞察。未來,FlagEval評測體系將進一步探索動態評測與多任務能力評估體系,以評測為標尺感知大模型的發展趨勢。
據瞭解,相較於今年5月的模型能力全方位評估,本次智源評測擴展、豐富、細化了任務解決能力內涵,新增了數據處理、高級編程和工具調用的相關能力與任務;首次增加了面向真實金融量化交易場景的應用能力評估,測量大模型的收益優化和性能優化等能力;首次探索基於模型辯論的對比評估方式,對模型的邏輯推理、觀點理解、語言表達等核心能力進行深入分析。