首屆AI實盤投資大賽:阿里千問20%收益率奪冠,DeepSeek第二,美國四大模型均虧損
史岱君

北京時間11月4日消息,由第三方機構Nof1於10月18日發起的AI大模型即時投資比賽“Alpha Arena”,歷時17天,在今日落下帷幕。
阿里千問Qwen憑藉一波精準操盤,以超20%的收益率奪冠,拿下本輪AI實盤投資大賽冠軍。
DeepSeek位列第二,兩款中國模型包攬冠亞軍,成為全場唯二盈利的大模型。而美國四大頂尖模型全部虧損,GPT-5虧損超60%墊底。
該項投資比賽集合Qwen3-Max、DeepSeek v3.1、GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.5、Grok 4等全球六大頂尖模型。
AI大模型的綜合性能越來越強,如何評估大模型在真實、動態、競爭激烈的環境中的決策水平,是當下AI競技場最受人關注的領域。
美國人工智能研究實驗室nof1.ai發佈的“Alpha Arena”(阿爾法競技場),向六大頂尖模型提供1萬美元及金融市場的即時價格及各類指標數據,讓大模型在真實市場中用真金白銀進行投資比賽,全程沒有人工干預 ,模型進行自主決策和交易,是AI處理即時變動的現實世界任務的真實評測,也因此成為近期最火熱的AI大賽。
競賽採用統一輸入方式,所有模型接收相同的市場數據和提示詞,交易記錄、持倉和賬户價值即時公開,以保證比賽的公平性和透明度。此外,Nof1還允許AI模型“聊天互動”,讓它們在模擬對話中辯論市場走勢,展示決策邏輯,最終根據盈虧情況決出冠軍。
比賽一開始,六大模型還都表現得挺剋制,互相觀望、謹慎試水。
此後的初期階段,DeepSeek v3.1一直處於領先位置,也讓這場比賽廣受國際關注。曾經能夠與之“一戰”的是馬斯克旗下的Grok 4,其通過激進的投資策略,一度把與DeepSeek v3.1的差距縮短到1美元的位置。
不過,10月21日至22日成為了“轉折點”,這兩日裏,Grok 4和Claude Sonnet 4.5的收益大幅下滑,由盈轉虧,10月22日當日,六個大模型的收益率更是一度全部告負。

但此時,DeepSeek v3.1和Qwen3-Max自動改寫了投資策略,在其他4個大模型持續虧損的情況下脱穎而出,淨值曲線波動上漲,Qwen3-Max更是趁機一度超過DeepSeek v3.1。
截至北京時間11月4日早上比賽結束,阿里千問最後超越DeepSeek,Qwen以超20%的收益率獲勝;DeepSeek實現盈利,位列第二。

而美國的Claude 4.5 Sonnet、Grok 4、Gemini 2.5 Pro和GPT-5四大模型均虧損,Gemini 2.5 Pro和GPT-5虧損尤為明顯,截至最終持倉總市值僅為初始資金的三四成,GPT-5虧損超62%墊底。

賽後,賽事主辦方Alpha Arena的創辦人Jay Azhang忙着為阿里千問Qwen模型策略及表現打call點贊,並祝賀阿里千問最終贏得冠軍。

根據全球知名的大模型API三方聚合平台OpenRouter在7月公佈的榜單,來自中國的DeepSeek和阿里通義千問躋身全球前五。其中,通義千問以10.4%的市場份額,超越OpenAI的4.7%,位列第四。
OpenRouter推文顯示,當下成長最快前10大模型中,有9個是開源的。其中,Qwen3-Coder調用量以近500億Tokens高居第一,通義千問包攬前三,並在前十中佔據五席。
而在今年9月,零一萬物CEO李開復曾公開表示,DeepSeek對中國AI發展的核心貢獻在於推動了開源生態的形成。“如果十年後,我們回顧DeepSeek怎麼讓中國沒有落後於美國,答案並非其技術能力本身,而是它帶來了中國(大模型)開源時代。”
李開復提到,自DeepSeek開源以來,國內多家企業相繼開源大模型,形成了“既開源、又比拼速度”的良性競爭局面。他認為,開源模式高度契合中國企業的學習特性,有望助力中國在AI領域縮小與美國的差距。
有行業人士指出,阿里千問和DeepSeek在實戰中的優秀表現,證明了中國模型在解決實際問題的強大潛力,AI對於場景的深刻理解,將成為大模型落地和未來全球AI競賽的關鍵。