阿里巴巴發佈開源人工智能模型 可通過視頻解讀人類情緒 | 聯合早報
zaobao
阿里巴巴發佈一款新的人工智能(AI)模型,據稱能夠通過視頻識別人類情緒,意在超越OpenAI的最新模型。
綜合彭博社和中國《科創板日報》報道,阿里巴巴旗下的通義千問實驗室星期二(3月11日)開源R1-Omni模型,並形容這是業界首個將具有可驗證獎勵的強化學習(RLVR)應用於全能多模態大語言模型。
可驗證獎勵的強化學習(RLVR)正是深度求索(DeepSeek)模型R1的訓練模式。
開發團隊稱,研究人員利用RLVR對開源Omni模型HumanOmni-0.5B進行優化,在推理能力、情感識別準確性和泛化能力三個關鍵方面顯著提高性能。據稱,R1-Omni能更清楚地理解視覺和聽覺信息如何促進情緒識別,明確展示哪些模態信息對特定情緒的判斷起到關鍵作用。
在兩場演示視頻中,R1-Omni能推測視頻中人物的情緒狀態,並描述其服飾和周圍環境。這為所謂的計算機視覺增加新的理解層次。
讓人工智能解讀並回應人類情緒,早已成為科技行業的一個重要目標。目前能夠識別人類心理狀態和健康狀況的技術已被廣泛應用,如客户服務聊天機器人,或用於特斯拉等電動汽車以識別司機是否疲勞駕駛。
在DeepSeek-R1亮相震撼全球科技圈後,阿里巴巴也加快在AI領域爭取領先地位的步伐,其對標DeepSeek的模型“通義千問”成了蘋果在中國大陸市場的AI合作伙伴,為中國iPhone用户提供AI服務。
目前阿里似乎還打算與OpenAI一爭高下。今年早些時候,OpenAI推出GPT-4.5模型,據稱能更好地識別和響應用户書面提問中的微妙線索。但該模型價格不菲:最初僅向月費200美元(266新元)的付費用户開放。
而阿里巴巴則不收取任何費用,開放所有人使用R1-Omni模型,目前阿里已在Hugging Face平台上免費讓用户下載使用該模型。
儘管當前的演示僅展示R1-Omni模型識別“高興”或“憤怒”等基本情緒的能力,但能從視覺線索推導情緒的能力仍具有重要意義。阿里巴巴首席執行官吳泳銘在2月份告訴分析師,人工通用智能(AGI)已成為阿里巴巴的“首要目標”,而情緒智能是實現這一目標的重要一步。