阿里巴巴的Qwen AI模型為斯坦福、伯克利提供低成本DeepSeek替代方案 | 南華早報

Ben Jiang

2025-02-11

生產最便宜高性能人工智能（AI）模型的競賽正在升温，美國計算機科學家（包括著名的華裔“AI教母”李飛飛）基於阿里巴巴集團開源技術開發的新型推理模型訓練成本不足50美元。此前中國深度求索（DeepSeek）已取得突破性成功。根據上週發表的研究論文，S1推理模型由李飛飛所在的斯坦福大學和華盛頓大學的研究人員，在中國電商巨頭阿里巴巴的Qwen2.5-32b-Instruct模型基礎上開發。

阿里巴巴模型的能力再次證明中國正在縮小與美國領先AI企業的差距。此前深度求索發佈的低成本、高性能開源模型已引發全球關注。阿里巴巴（《南華早報》母公司）港股股價週一上漲6%。論文顯示，S1模型經過1000道精選問題答案的訓練，並提煉了谷歌Gemini思維實驗模型的“思考過程”，其數學和編程能力已超越OpenAI的o1-preview模型。

05:00

中國低成本DeepSeek的問世是否意味着英偉達芯片統治地位的終結？

根據研究中提到的計算數據，僅運行圖形處理器（GPU）開發S1的成本可能低至14美元，該模型在16塊英偉達H100芯片上訓練了26分鐘。這些芯片每小時租金為2美元。