阿里巴巴發佈開源人工智能模型可通過視頻解讀人類情緒 | 聯合早報

zaobao

2025-03-13

阿里巴巴發佈一款新的人工智能（AI）模型，據稱能夠通過視頻識別人類情緒，意在超越OpenAI的最新模型。

綜合彭博社和中國《科創板日報》報道，阿里巴巴旗下的通義千問實驗室星期二（3月11日）開源R1-Omni模型，並形容這是業界首個將具有可驗證獎勵的強化學習（RLVR）應用於全能多模態大語言模型。

可驗證獎勵的強化學習（RLVR）正是深度求索（DeepSeek）模型R1的訓練模式。

開發團隊稱，研究人員利用RLVR對開源Omni模型HumanOmni-0.5B進行優化，在推理能力、情感識別準確性和泛化能力三個關鍵方面顯著提高性能。據稱，R1-Omni能更清楚地理解視覺和聽覺信息如何促進情緒識別，明確展示哪些模態信息對特定情緒的判斷起到關鍵作用。

在兩場演示視頻中，R1-Omni能推測視頻中人物的情緒狀態，並描述其服飾和周圍環境。這為所謂的計算機視覺增加新的理解層次。

讓人工智能解讀並回應人類情緒，早已成為科技行業的一個重要目標。目前能夠識別人類心理狀態和健康狀況的技術已被廣泛應用，如客户服務聊天機器人，或用於特斯拉等電動汽車以識別司機是否疲勞駕駛。

在DeepSeek-R1亮相震撼全球科技圈後，阿里巴巴也加快在AI領域爭取領先地位的步伐，其對標DeepSeek的模型“通義千問”成了蘋果在中國大陸市場的AI合作伙伴，為中國iPhone用户提供AI服務。

目前阿里似乎還打算與OpenAI一爭高下。今年早些時候，OpenAI推出GPT-4.5模型，據稱能更好地識別和響應用户書面提問中的微妙線索。但該模型價格不菲：最初僅向月費200美元（266新元）的付費用户開放。

而阿里巴巴則不收取任何費用，開放所有人使用R1-Omni模型，目前阿里已在Hugging Face平台上免費讓用户下載使用該模型。

儘管當前的演示僅展示R1-Omni模型識別“高興”或“憤怒”等基本情緒的能力，但能從視覺線索推導情緒的能力仍具有重要意義。阿里巴巴首席執行官吳泳銘在2月份告訴分析師，人工通用智能（AGI）已成為阿里巴巴的“首要目標”，而情緒智能是實現這一目標的重要一步。