AI初創企業深度求索的真實成本與算力引發熱議 芯片股受挫 | 南華早報
Iris Deng
過去一週,深度求索(DeepSeek)訓練模型所耗費的算力規模成為人工智能專家和投資者高度關注的話題,這一答案可能對技術未來發展產生重大影響。這家中國初創公司在12月發佈的DeepSeek-V3大語言模型論文中宣稱,訓練僅消耗280萬"GPU小時",成本560萬美元,遠低於美國公司開發同類模型投入的時間和資金。
該公司1月20日開源的DeepSeek-R1推理模型已展現出與OpenAI、Anthropic和谷歌更先進模型相媲美的能力,同時訓練成本顯著降低。關於R1的論文未提及開發成本。
深度求索模型低成本、高性能的特點,令人們對美國科技巨頭在昂貴AI芯片上的驚人資本支出必要性產生質疑。這導致上週英偉達股票遭大規模拋售,單日市值蒸發6000億美元。
05:10
中國AI顛覆者深度求索登頂美國應用商店,取代ChatGPT
中國AI顛覆者深度求索登頂美國應用商店,取代ChatGPT
深度求索及其關聯對沖基金高飛量化的記錄顯示,該公司是訓練人工智能資源最豐富的實體之一。早在2019年,高飛與深度求索創始人梁文峯就斥資2億元人民幣(2780萬美元)購買了1100塊圖形處理器(GPU)用於訓練股票交易算法。公司文件顯示,高飛當時的數據中心面積相當於一個籃球場,約436.6平方米(4700平方英尺)。
2021年,該基金投入10億元開發超級計算機集羣"火螢2號"。據高飛官網介紹,其算力預計可達1550千萬億次浮點運算,性能可與全球頂級超級計算機比肩。