阿里巴巴的Qwen AI模型為斯坦福、伯克利提供低成本DeepSeek替代方案 | 南華早報
Ben Jiang
生產最便宜高性能人工智能(AI)模型的競賽正在升温,美國計算機科學家(包括著名的華裔“AI教母”李飛飛)基於阿里巴巴集團開源技術開發的新型推理模型訓練成本不足50美元。此前中國深度求索(DeepSeek)已取得突破性成功。根據上週發表的研究論文,S1推理模型由李飛飛所在的斯坦福大學和華盛頓大學的研究人員,在中國電商巨頭阿里巴巴的Qwen2.5-32b-Instruct模型基礎上開發。
阿里巴巴模型的能力再次證明中國正在縮小與美國領先AI企業的差距。此前深度求索發佈的低成本、高性能開源模型已引發全球關注。阿里巴巴(《南華早報》母公司)港股股價週一上漲6%。論文顯示,S1模型經過1000道精選問題答案的訓練,並提煉了谷歌Gemini思維實驗模型的“思考過程”,其數學和編程能力已超越OpenAI的o1-preview模型。
05:00
中國低成本DeepSeek的問世是否意味着英偉達芯片統治地位的終結?
中國低成本DeepSeek的問世是否意味着英偉達芯片統治地位的終結?
根據研究中提到的計算數據,僅運行圖形處理器(GPU)開發S1的成本可能低至14美元,該模型在16塊英偉達H100芯片上訓練了26分鐘。這些芯片每小時租金為2美元。