中國AI企業商湯科技押注多模態模型以脱穎而出 | 南華早報
Ann Cao
商湯科技,中國人工智能(AI)領域的先驅企業,近日發佈新一代模型,宣稱其推理能力超越OpenAI產品。該公司正通過押注多模態模型,在激烈的AI競爭中鞏固市場地位。4月12日,商湯正式推出自研AI模型系列的新成員SenseNova V6和V6推理引擎。據董事長兼CEO徐立援引基準測試平台TableBench數據,V6在事實核查、數值推理、數據分析和可視化等多項指標上均優於OpenAI的GPT-4o。商湯表示,擁有6000億參數的V6是目前中國多模態推理領域的標杆模型,也是全行業最具性價比的推理解決方案。
徐立指出,V6推理引擎在多模態推理能力方面超越了OpenAI的o1和谷歌Gemini 2.0閃電思維。這些突破旨在解決全行業面臨的共同挑戰:用於訓練大語言模型的高質量文本數據正在枯竭。
商湯科技在上海某人工智能展會上的展位。圖片來源:Costfoto/NurPhoto via Getty Images
與專注於文本的傳統大語言模型不同,多模態大語言模型整合了圖像、音頻、視頻等多種信息形態,顯著提升了系統的理解與生成能力。
徐在上海週四的採訪中表示,該行業最初根據規模法則擴大模型規模的策略已經“碰壁”。他説:“我們幾乎已經用盡了所有可以從互聯網上收集的文本數據。”