阿里巴巴推出可在手機和筆記本電腦上處理圖像和視頻的AI模型 | 南華早報
Coco Feng
阿里巴巴集團控股有限公司推出了一款新型多模態人工智能(AI)模型,該模型能夠在智能手機和筆記本電腦上處理文本、圖像、音頻和視頻,這家科技巨頭正致力於鞏固其在生成式AI領域的優勢。該公司於週四發佈了Qwen2.5-Omni-7B,作為其通義千問模型家族的最新成員。該模型僅擁有70億參數,專為在手機、平板和筆記本電腦上運行而設計,使普通用户能更便捷地使用先進AI功能。
阿里巴巴在聲明中表示,該模型可處理多種輸入類型,並以文本或音頻形式生成即時響應。公司將該模型開源,目前已在Hugging Face、微軟GitHub及阿里雲ModelScope平台上線,同時已集成至通義千問APP。阿里巴巴持有《南華早報》。該公司重點展示了潛在應用場景,如通過即時音頻描述輔助視障用户,以及通過分析食材提供分步烹飪指導。該模型的多功能性凸顯了市場對超越文本生成的AI系統日益增長的需求。
阿里巴巴的基礎Qwen模型已成為AI開發者廣泛採用的構建基礎,使其成為除深度求索V3和R1模型外,中國大陸少數重要的替代選擇之一。Qwen2.5-Omni-7B在基準測試中展現出強勁性能。它在OmniBench上獲得56.1分,超越了谷歌Gemini-1.5-Pro的42.9分。在CV15音頻基準測試中,該模型以92.4分比阿里雲早前發佈的Qwen2-Audio模型高出1分。針對圖像相關任務,其在大規模多學科多模態理解與推理基準測試中取得59.2分,優於Qwen2.5-VL視覺語言模型。