阿里巴巴開源人工智能模型 可通過視頻解讀人類情緒 | 聯合早報
zaobao
(華盛頓/上海綜合訊)阿里巴巴旗下的通義千問實驗室星期二(3月11日)開源R1-Omni模型,提升了多模態情感識別性能,據説能通過視頻解讀人類情緒。
綜合彭博社與《科創板日報》報道,在兩場演示視頻中,通義千問實驗室研究員展示了R1-Omni模型,它可推斷視頻人物的情緒狀態,同時還可描述他們的衣服和環境。
R1-Omni是業界首個將具有可驗證獎勵的強化學習(Reinforcement Learning from Verifiable Rewards,簡稱RLVR)應用於全能多模態大語言模型。RLVR是深度求索(DeepSeek)模型R1的訓練模式。
開發團隊稱,研究人員利用RLVR對開源Omni模型HumanOmni-0.5B進行優化,在推理能力、情感識別準確性和泛化能力三個關鍵方面顯著提高了性能。
在DeepSeek-R1今年1月亮相併震撼科技圈後,阿里巴巴也加快人工智能(AI)領域的推進步伐,目前在多個領域推出新的AI工具和應用。
延伸閲讀
阿里發佈下一代推理模型 與DeepSeek等競爭 [阿里投入逾700億元在AI與雲計算
](https://www.bdggg.com/2025/zaobao/news_2025_02_25_741666)
阿里巴巴對標DeepSeek的模型通義千問,成為蘋果在中國大陸市場的合作伙伴,為中國iPhone用户提供AI服務。與此同時,阿里似乎也在與美國的OpenAI較量。
OpenAI今年早些時候推出GPT-4.5模型,稱它能更好地識別和響應用户書面提示的微妙線索,但這款模型價格不菲,最初只提供給每月支付200美元(266新元)的用户,而阿里免費將R1-Omni提供給用户下載。
阿里巴巴首席執行官吳泳銘2月稱,通用人工智能是阿里巴巴AI戰略的首要目標,即AI能完成80%以上的人類能力。