DeepSeek AI平台帶來1萬億美元市場的成本清算 - 彭博社
Shirin Ghaffary, Rachel Metz
DeepSeek在週一震撼了全球科技股。
攝影師:安德烈·魯達科夫/彭博社上週,最大的人工智能公司負責人聚集在瑞士阿爾卑斯山,所有目光都投向東方。在達沃斯世界經濟論壇的討論小組和私下交談中,科技高管們強調美國及其盟友需要建立更多的數據中心,並在監管上找到合適的平衡,以在人工智能發展上領先中國。
“我們在模型上可能領先一年以上,”Alphabet Inc.的總裁兼首席投資官露絲·波拉特在活動中告訴彭博新聞。但她補充説,“這並不是一個必然的結論”,美國是否能保持其優勢尚未確定。
即便如此,這可能也過於樂觀。在同一周,一家鮮為人知的中國人工智能初創公司DeepSeek發佈了一種新的開源人工智能模型R1,該模型能夠模仿人類的推理方式。該公司表示,R1在一系列行業基準測試中與領先的美國開發者相媲美或超越,包括數學任務和一般知識——而且其成本僅為一小部分。到週末,DeepSeek在Chatbot Arena上排名上升,這是一個備受關注的人工智能系統排行榜,科技界的知名人物如馬克·安德森稱該產品為“人工智能的斯普特尼克時刻。”
魯思·波拉特在達沃斯。攝影師:斯特凡·維爾穆斯/彭博社現在,R1發佈的後果正在迅速蔓延至美國,因為科技行業試圖理解DeepSeek是如何完成這一壯舉的,以及這家新興公司是否如其所聲稱的那樣以低成本實現了這一目標。已經有人懷疑這家中國新興公司是在西方技術的基礎上構建其聊天機器人,從而繞過了開發大型語言模型的巨大成本。
## 重大看法
DeepSeek的恐慌
17:26
在舊金山,人工智能高管和員工正在緊急分析DeepSeek的技術。根據知情人士的説法,一些OpenAI的員工正在試圖弄清楚DeepSeek是如何能夠發佈如此模型的。另一位人士表示,公司內部有一種感覺,即OpenAI需要非常認真地對待中國公司的發展,因為這為創新和改進現有模型提供了機會。OpenAI首席執行官山姆·阿爾特曼最近告訴員工,這次發佈標誌着這家初創公司的一次重大格局轉變,某位知情人士表示。
薩姆·阿爾特曼攝影師:安德魯·哈尼克/蓋蒂圖片社據知情人士透露,Meta也專注於開源AI模型,已成立一個內部團隊,專注於分析DeepSeek,以更好地理解它是如何構建的以及它能做什麼。該公司還組建了類似的工作組,以評估其他主要競爭對手,如OpenAI的GPT-4模型和谷歌的Gemini。
幾乎一夜之間,DeepSeek顛覆了硅谷內部關於構建AI經濟學的許多假設,以及開發該技術的最佳技術方法和美國在中國競爭對手面前的領先程度。在過去兩年多的時間裏,自從ChatGPT引發全球AI熱潮以來,行業一直認為,通往更好人工智能的道路在很大程度上依賴於對來自英偉達公司等公司的更先進芯片和日益龐大的數據中心的重金投入。閲讀更多: DeepSeek的迅速成名使其系統承壓,遭到攻擊
市場的後果令人震驚。對DeepSeek成就的炒作在週一導致美國和歐洲科技股幾乎蒸發了1萬億美元的市值,因為投資者質疑一些美國大公司的支出計劃。僅僅是AI芯片製造商英偉達的股價暴跌就抹去了大約5890億美元的市場價值,這是美國股市歷史上最大的損失。與此同時,在華盛頓,立法者們不得不想辦法遏制中國在一些人認為對其軍事和經濟至關重要的技術上的進展,因為拜登政府的芯片出口限制並不足夠。唐納德·特朗普總統的加密和AI專員大衞·薩克斯表示,DeepSeek表明全球AI競賽將非常激烈,同時指責拜登政府的監管“束縛”了AI的發展。
進一步複雜化的是,關於大型人工智能投資的重新不確定性恰逢特朗普幾天前倡導了一項1000億美元的合資企業,該企業由OpenAI、軟銀集團和甲骨文公司共同發起,旨在通過投資數據中心和其他實體基礎設施來提升美國的競爭力。現在,對於天文數字的人工智能預算的合理性出現了新的疑問。
“這是一個範式轉變,”Databricks Inc.的首席執行官Ali Ghodsi説。“這些能夠推理的模型生產成本低得多,因此你會看到它們的民主化。你會看到來自世界意想不到角落的創新。”
DeepSeek的崛起
對於梁文峯來説,DeepSeek最初是一個副項目。40歲的梁在2023年創建了DeepSeek,作為他對沖基金浙江高飛資產管理公司人工智能部門的一個分支。
梁能夠利用一些當地人才,關鍵是芯片。他在美國實施出口限制之前,已經開始囤積大約10,000個Nvidia A100 GPU——這是訓練人工智能系統的關鍵技術的一箇舊版本。他曾表示,他的大多數頂尖研究人員都是來自中國頂尖大學的應屆畢業生,強調中國需要發展自己的國內生態系統。
DeepSeek迅速發佈了一系列開源人工智能模型,首個模型DeepSeek LLM於2023年底發佈。兩個更先進的模型——V2和V3——分別在2024年中期和末期發佈。然而,真正引起共鳴的是DeepSeek的R1模型,該模型於1月中旬發佈。
DeepSeek 在 AI 模型競爭者中排名第三
社區評估的前 5 家公司的最佳模型得分
來源:聊天機器人競技場
與 OpenAI、Google 和 Anthropic 的一些最新模型一樣,R1 的目的是模仿人類在思考問題時有時會花時間計算答案,然後再回應用户查詢。然而,DeepSeek 的版本在效率上有所不同。其背後的團隊提出了一些簡單但關鍵的創新,例如尋找方法以更充分地利用他們所能接觸到的計算機芯片。另一個突破是:大量依賴一種稱為強化學習的技術,該技術對正確答案給予系統獎勵,而對錯誤答案進行懲罰。
DeepSeek 的應用在美國用户中頗受歡迎,部分原因是其友好且略顯笨拙的聊天機器人詳細展示了它計劃如何回應一個人的問題,然後再深入結果。這種方法包含的細節遠超過 OpenAI 最新的推理模型。而且與 OpenAI 不同的是,後者對其最先進的推理模型等功能收取 每月高達 200 美元 的無限制訪問費用,DeepSeek 目前則免費提供其服務。但 DeepSeek 也會審查在中國可能敏感的話題。例如,詢問中國文化大革命可能會引發這樣的回應:“抱歉,這超出了我當前的範圍。我們聊點別的吧。”
在 R1 發佈後的一個小時內,Ghodsi 説他收到了來自 DataBricks 客户的第一個請求,詢問如何使用它。自那時以來,需求只增不減。他特別提到,公司希望瞭解如何在 Databricks 現有的 AI 模型上添加 DeepSeek 的推理能力——他表示,DeepSeek 的努力表明這可以以低成本實現。
“這種速度和興趣水平對我們來説是前所未有的,”Ghodsi説。
DeepSeek的版本在效率上與競爭對手有所不同。攝影師:Andrey Rudakov/Bloomberg軟件公司OpenReplay的首席執行官Mehdi Osman表示,他的公司傳統上使用OpenAI、Anthropic和Mistral的服務,而DeepSeek的推理能力似乎與OpenAI相當。“如果OpenAI不降低價格,我認為許多開發者將在未來幾個月轉向DeepSeek,”Osman説。
OpenAI拒絕發表評論。DeepSeek沒有回應評論請求。
“這有點出乎意料,”谷歌DeepMind的首席執行官Demis Hassabis上週在達沃斯對彭博新聞説。“毫無疑問,這是一個令人印象深刻的系統。”但與行業中的其他人一樣,Hassabis對DeepSeek的模型如何運作表示不確定,包括它在多大程度上依賴於其他西方模型。
與此同時,Altman告訴OpenAI員工,他的初創公司正在試圖理解DeepSeek的表現是否以及在多大程度上是提煉OpenAI模型的結果——也就是説,使用該公司的AI輸出訓練一個具有類似能力的不同模型——還是代表了一項獨立的研究突破,依據一位熟悉此事的人士。
“即使那[提煉OpenAI模型]為他們節省了一點時間和一點錢——我並不是説他們這樣做了——顯然在論文中有很多真正的技術工作,大家可以自己查看並判斷,”最近離開OpenAI的獨立AI政策研究員Miles Brundage説。
一些美國科技創始人和風險投資家對DeepSeek技術的真實價格標籤也持懷疑態度。許多人,包括Brundage,質疑DeepSeek的560萬美元培訓估算是否包括先前研究實驗的成本以及對圖形處理單元的固定投資成本,例如建設數據中心。
梁則表示,成本和籌款並不是他主要的關注點。相反,梁在接受中國媒體36kr採訪時表示,進一步發展的瓶頸是美國對最佳芯片的訪問限制。
“更多的投資不一定會導致更多的創新,”梁説。“否則,大公司將壟斷所有的創新。”
新的競爭格局
在DeepSeek熱潮的幾周前,梁可能提到的一些大公司更加展示了他們的財力。
亞馬遜預計在2024年將花費約750億美元用於資本支出,並在今年增加支出,主要用於支持人工智能的技術基礎設施,如芯片和數據中心。Meta表示將在2025年投資 多達650億美元用於與人工智能相關的項目。微軟 表示將在本財年花費800億美元用於人工智能數據中心。
最大的雲計算公司大部分支出都用於Nvidia的圖形處理單元。亞馬遜、谷歌和微軟也在開發專為人工智能設計的定製芯片,如果開發者能夠在不太專業的硬件上構建和運行模型,這項工作在長期內可能會變得不那麼有用,BNP Paribas Exane的分析師Stefan Slowinski在週一的一份研究報告中寫道。
雲計算巨頭們已經在應對投資者關於其鉅額人工智能支出的回報的問題。以微軟為例,它在將Copilot聊天機器人融入其大部分產品線時,面臨着盈利的挑戰。與此同時,亞馬遜在開發自己的大型語言模型方面落後於主要競爭對手,即使它在零售和雲計算業務中注入了聊天機器人和其他人工智能工具。
亞馬遜的工程師們在奧斯汀的Annapurna實驗室致力於人工智能芯片的研發。攝影師:Sergio Flores/Bloomberg儘管如此,這兩家公司的鉅額投資可能會在未來獲得回報。亞馬遜押注於其作為最大租賃計算能力提供商的地位,將幫助其在其他公司在亞馬遜網絡服務的服務器上訓練和運行人工智能程序時蓬勃發展。根據Bernstein Societe Generale Group的分析師Mark Moerdler的説法,微軟更專注於構建運行人工智能模型的數據中心,而不是訓練它們,他預計該公司的支出將在明年早些時候放緩。“我們認為他們主要是在構建推理能力,而不是訓練,”他説。“如果這是正確的,我認為DeepSeek對微軟來説不是問題。”
一個大問題是,美國大型科技公司是否會採納DeepSeek的方法。一些人工智能開發者表示,這家中國新興公司的成功可能會加速向更便宜和更有利可圖的人工智能的轉變——啓動了一種自然進程,這種進程推動了幾乎每一個主要技術發展的進步,從芯片到智能手機。
“大型語言模型的未來屬於那些專注於更高效技術的人,而不是更多計算能力,”AI初創公司Cohere的首席執行官艾丹·戈麥斯説。“我們對此相信已久,但這終於在整個行業中得到了認可。”