阿里巴巴開源人工智能模型可通過視頻解讀人類情緒 | 聯合早報

zaobao

2025-03-14

（華盛頓／上海綜合訊）阿里巴巴旗下的通義千問實驗室星期二（3月11日）開源R1-Omni模型，提升了多模態情感識別性能，據説能通過視頻解讀人類情緒。

綜合彭博社與《科創板日報》報道，在兩場演示視頻中，通義千問實驗室研究員展示了R1-Omni模型，它可推斷視頻人物的情緒狀態，同時還可描述他們的衣服和環境。

R1-Omni是業界首個將具有可驗證獎勵的強化學習（Reinforcement Learning from Verifiable Rewards，簡稱RLVR）應用於全能多模態大語言模型。RLVR是深度求索（DeepSeek）模型R1的訓練模式。

開發團隊稱，研究人員利用RLVR對開源Omni模型HumanOmni-0.5B進行優化，在推理能力、情感識別準確性和泛化能力三個關鍵方面顯著提高了性能。

在DeepSeek-R1今年1月亮相併震撼科技圈後，阿里巴巴也加快人工智能（AI）領域的推進步伐，目前在多個領域推出新的AI工具和應用。

延伸閲讀

](https://www.bdggg.com/2025/zaobao/news_2025_02_25_741666) 阿里巴巴對標DeepSeek的模型通義千問，成為蘋果在中國大陸市場的合作伙伴，為中國iPhone用户提供AI服務。與此同時，阿里似乎也在與美國的OpenAI較量。

OpenAI今年早些時候推出GPT-4.5模型，稱它能更好地識別和響應用户書面提示的微妙線索，但這款模型價格不菲，最初只提供給每月支付200美元（266新元）的用户，而阿里免費將R1-Omni提供給用户下載。

阿里巴巴首席執行官吳泳銘2月稱，通用人工智能是阿里巴巴AI戰略的首要目標，即AI能完成80%以上的人類能力。