阿里巴巴推出可在手機和筆記本電腦上處理圖像和視頻的AI模型 | 南華早報

Coco Feng

2025-03-28

阿里巴巴集團控股有限公司推出了一款新型多模態人工智能（AI）模型，該模型能夠在智能手機和筆記本電腦上處理文本、圖像、音頻和視頻，這家科技巨頭正致力於鞏固其在生成式AI領域的優勢。該公司於週四發佈了Qwen2.5-Omni-7B，作為其通義千問模型家族的最新成員。該模型僅擁有70億參數，專為在手機、平板和筆記本電腦上運行而設計，使普通用户能更便捷地使用先進AI功能。

阿里巴巴在聲明中表示，該模型可處理多種輸入類型，並以文本或音頻形式生成即時響應。公司將該模型開源，目前已在Hugging Face、微軟GitHub及阿里雲ModelScope平台上線，同時已集成至通義千問APP。阿里巴巴持有《南華早報》。該公司重點展示了潛在應用場景，如通過即時音頻描述輔助視障用户，以及通過分析食材提供分步烹飪指導。該模型的多功能性凸顯了市場對超越文本生成的AI系統日益增長的需求。

阿里巴巴的基礎Qwen模型已成為AI開發者廣泛採用的構建基礎，使其成為除深度求索V3和R1模型外，中國大陸少數重要的替代選擇之一。Qwen2.5-Omni-7B在基準測試中展現出強勁性能。它在OmniBench上獲得56.1分，超越了谷歌Gemini-1.5-Pro的42.9分。在CV15音頻基準測試中，該模型以92.4分比阿里雲早前發佈的Qwen2-Audio模型高出1分。針對圖像相關任務，其在大規模多學科多模態理解與推理基準測試中取得59.2分，優於Qwen2.5-VL視覺語言模型。