中國的DeepSeek挑戰OpenAI和NVDA - 彭博社
Tracy Alloway, Joe Weisenthal
攝影師:安德烈·魯達科夫/彭博社 週一,股市暴跌,似乎是對中國開發的開源AI模型DeepSeek出現的反應。半導體巨頭英偉達作為AI熱潮中最大的贏家,市值蒸發了5890億美元,創下美國股市歷史上最大的一日損失。其他芯片製造商和大型科技巨頭也紛紛下跌。那麼,DeepSeek是如何做到的?它對像OpenAI和Anthropic這樣的美國AI巨頭構成了重大威脅嗎?這對美國芯片的出口限制意味着什麼?在這期特別緊急的播客中,我們與AI專家茲維·莫肖維茨進行了交談,他是優秀的Substack專欄作者,別擔心花瓶。他回答了我們所有的問題,幫助我們理解這意味着什麼。此轉錄經過輕微編輯以提高清晰度。
## 奇怪的交易:導致股市崩盤的AI模型
21:02
**播客的關鍵見解:**DeepSeek並不是為了500萬美元而構建的 — 3:08為什麼DeepSeek如此透明 — 6:35傑文斯悖論適用於AI — 8:58英偉達仍然掌握主動權 — 11:35每個人都忘記了谷歌 — 12:59為什麼Meta應該感到擔憂 — 14:15AI比以往的技術進步更具競爭力 — 17:18
---
**喬·韋森索爾 (00:18):**你好,歡迎收聽另一集 奇異的交易 播客。我是喬·韋森索爾。
**特雷西·阿洛威 (00:23):**我是特雷西·阿洛威。
**喬 (00:24):**特雷西,DeepSeek 的拋售。
**特雷西 (00:27):**沒錯,情況相當嚴重。有人開過這個玩笑嗎?
**茲維·莫肖維茨 (00:30):**我們在 DeepSeek 中。
**喬 (00:31):**是的,我覺得還沒有人開過這個玩笑。
**特雷西 (00:33):**我會説,當市場上所有的頭條新聞都在談論標準差時,你就知道情況很糟糕。
**喬 (00:39):**對吧?
**特雷西 (00:40):**然後你就知道情況真的很糟糕,當你看到人們開始説這不是崩盤,而是“健康的修正”。這才是真正的自我安慰。
**喬 (00:49):**但為了真實的場景設定,我們最近進行了一些關於市場中科技集中度的及時採訪,以及市場上有這麼多公司在押注 AI,等等。無論如何,在週一——我想人們會在週二收聽這個——市場遭受重創。英偉達,作為我在週一下午 3:30 討論這個時的一個大贏家,跌幅達到 17%。所以我們談論的是整個科技領域的重大損失。基本上,這似乎是由於引入了一個名為 DeepSeek 的高性能開源中國 AI 模型而引發的。根據我們所知,它是由一個對沖基金誕生的。顯然,訓練成本非常低,構建成本也很低。此時的技術限制似乎並不是太大問題。未來可能會有問題,但沒錯,這裏有一些,整個市場正在押注許多 AI 公司現在擔心的,當然是一個廉價的中國競爭者。
**特雷西 (01:45):**我剛意識到,喬,這實際上是你的錯,不是嗎?
**喬 (01:48):**是的。
**特雷西 (01:49):**因為上週你寫了你是一個 DeepSeek AI 兄弟,看看你做了什麼。你讓英偉達的市值蒸發了5600億美元。
**喬 (01:58):**是的,我的錯。我的錯。
**特雷西 (01:59):**那是你。
**喬 (02:00):**不過,有一個有趣的問題是,這在12月的白皮書中已經宣佈了。為什麼要等到1月27日才真正讓人們感到恐慌?大問題。無論如何,讓我們直接進入主題。我們確實有完美的嘉賓,他曾在我們的選舉前特別節目中出現過。一個瞭解數字、人工智能和量化內容的人。他寫的Substack對我來説每天都是必讀,我不知道他每天怎麼寫這麼多。我們將與茲維·莫肖維茨交談。他是 不要擔心花瓶博客,或者説Substack的作者。茲維,你也是一個DeepSeek AI 兄弟。你已經開始使用這個了。
**茲維 (02:42):**所以我使用各種不同的人工智能。我會使用來自Anthropic的Claude。我會使用來自OpenAI的ChatGPT的o1。我有時會使用Gemini,還會使用Perplexity進行網絡搜索。但我會使用R1,這個新的DeepSeek模型,用於某些類型的查詢,我想看看它是如何思考的,看看邏輯是如何展開的,然後我可以判斷。這有道理嗎?我同意嗎?
**特雷西 (03:08):**似乎讓人們和市場感到恐慌的事情之一是,這個模型據説是在非常低的成本下訓練的,大約是550萬美元用於DeepSeek-V3——儘管我看到有人錯誤地説550萬美元是用於它的所有R1模型,但技術論文中並沒有這樣説。這只是針對V3的。不過,我應該提到,它似乎有很大一部分是基於Llama構建的,所以他們在某種程度上是依賴於其他人的投資。不過,550萬美元用於訓練。這是否A) 現實?然後B) 我們是否知道他們是如何做到的?
**茲維 (03:53):**所以我們非常清楚他們到底做了什麼,因為他們異常開放,並且給我們提供了技術論文,告訴我們他們做了什麼。他們仍然隱藏了一些過程的部分,特別是從V3(以550萬美元訓練)到R1(這是推理模型,需要額外的數百萬美元),他們試圖讓我們更難以複製,因為沒有分享他們的強化學習技術。但我們不應該過於依賴或被550萬美元的數字所迷惑。並不是説它不真實,它非常真實。但為了獲得花費550萬美元並讓模型產生的能力,他們必須獲取數據,僱傭工程師,建立自己的集羣。他們必須對自己的集羣進行極度優化,因為由於出口管制,他們在芯片訪問方面遇到了問題。
他們正在使用[Nvidia] H800s進行訓練。他們這樣做的方式是進行了各種小型優化,包括完全整合硬件、軟件以及他們所做的一切,以便以儘可能低的成本在15萬億個標記上進行訓練,並獲得與其他公司在更高計算能力下獲得的相同或接近的性能水平。但這並不意味着你可以以550萬美元獲得自己的模型,即使他們告訴你很多信息。總的來説,他們花費了數億美元來獲得這個結果。
**喬 (05:11):**等一下,進一步解釋一下。為什麼仍然需要數億美元?這是否意味着如果需要數億美元,他們能夠做到的與美國實驗室之間的差距,可能沒有人們想象的那麼大?
**茲維 (05:24):**好吧,DeepSeek所做的是他們對芯片的訪問較少。他們不能像OpenAI、微軟或Anthropic那樣購買Nvidia芯片。因此,他們必須充分利用他們所擁有的芯片,進行非常高效的使用。因此,他們專注於所有這些優化以及節省計算成本的方法,但為了達到這一點,他們不得不花費大量資金來弄清楚如何做到這一點,並建立相應的基礎設施。一旦他們知道該怎麼做,花費他們550萬美元來實現。而且他們分享了很多信息。這大大降低了那些想要追隨他們腳步並訓練新模型的人的成本,因為他們展示了許多優化的方法,人們之前並沒有意識到他們可以這樣做或不知道如何做到。現在這些方法可以很容易地被複制,但這並不意味着你距離自己的V3只有550萬美元的差距。
**特雷西 (06:19):**讓人感到恐慌的另一件事是這是開源的。我們都記得OpenAI曾經更開放的日子,而現在它已經轉向閉源。你認為他們為什麼這樣做,這有多重要?
**茲維 (06:35):**所以這是其中一件事情,他們有一個故事,你可以相信他們的故事,也可以不相信,但他們的故事是,他們基本上在意識形態上支持每個人都應該有機會接觸到相同的人工智能;人工智能應該與世界分享。特別是中國應該幫助建立自己的生態系統,他們應該幫助發展所有的人工智能,以造福人類,他們將獲得人工通用智能,並且他們也會將其開源。這就是DeepSeek的主要點。這就是DeepSeek存在的原因。他們甚至不太承認有商業模式,他們… 他們是對沖基金的衍生物,對沖基金賺錢,也許他們可以選擇這樣做,或者也許他們會最終有不同的商業模式。
但從很多角度來看,如果你開源越來越強大的模型,這顯然是非常令人擔憂的,因為人工通用智能意味着:某種與我們人類一樣聰明和有能力的東西,甚至可能更聰明。如果你將其以開放的形式交給世界上任何想要做任何事情的人,那麼我們不知道這有多危險。但在某種程度上,釋放比我們更聰明、更有能力、更具競爭力的東西是存在風險的,這些東西將會自由地參與任何人類指揮他們去做的事情。
**特雷西 (07:58):**我有一個非常愚蠢的問題,但我聽到人們一直在説“人工通用智能”,AGI。這實際上是什麼意思?
**茲維 (08:07):**關於這到底意味着什麼有很多爭議。這些詞的使用並不一致,但它代表人工通用智能。一般來説,它被理解為你可以完成任何可以在計算機上完成的任務,這些任務只能通過認知完成,和人類一樣。
**喬 (08:26):**我的意思是,這些東西大多數情況下做得比我好。我不知道怎麼編碼,但我明白仍然有一些事情。也許它們在證明一些“你是人類嗎?”測試時不會那麼好。每個人都在談論傑文斯悖論。所以我們看到英偉達和博通的股票,這些芯片公司,今天都在崩潰。其中一個理論是,哦不,隨着所有這些優化等等,研究人員只會使用這些,他們仍然會對計算有最大的需求。因此,這實際上不會改變計算的最終需求。你是怎麼考慮這個問題的?
**茲維 (08:58):**所以從這個辯論的角度來看,我現在絕對是一個傑文斯悖論的支持者。
**喬 (09:03):**所以你認為這不會對計算需求產生負面影響。
**茲維 (09:08):**我今天早上發的推文是“英偉達在市場前下跌11%,因為它的芯片非常有用。”我相信我們已經證明,是的,從某種意義上説,你可以從每個英偉達芯片中獲得比預期更多的東西。你可以獲得更多的人工智能。如果與人工智能相關的事情是有限的,一旦你完成了那些事情你就完成了,那麼那將是另一個故事。但情況並非如此。
隨着我們朝着AGI的進一步發展,這些AI變得越來越強大,我們將希望將它們用於越來越多的事情,越來越頻繁。最重要的是,R1的整個革命以及OpenAI的o1都是推理時間計算。這意味着每次你問一個問題時,它將使用更多的計算資源,更多的GPU週期來思考更長時間,基本上使用更多的令牌或單詞來找出最佳答案。這是可擴展的,雖然不一定沒有限制,但它可以擴展得非常非常遠。因此,OpenAI的新o3能夠思考很多分鐘。它有可能在單個查詢上花費數百甚至理論上數千美元或更多。如果你將這個數字降低一個數量級,這幾乎肯定會讓你在獲得特定結果時使用它更多,而不是使用得更少。因為這實際上開始變得不可承受。
隨着時間的推移,如果你能夠花費極少的錢,然後獲得像虛擬員工和回答任何問題的能力,嗯,基本上對這樣做的需求是無限的,或者隨着價格下降,提升答案質量的需求也是無限的。因此,我基本上預期,只要Nvidia能夠快速製造芯片,我們就能將它們放入數據中心並提供電力,人們將樂於購買這些芯片。
**Tracy (10:54):**冒犯Jevons悖論兄弟的風險,稍微深入探討一下Nvidia的問題,我對DeepSeek的理解是,它特別的原因之一是因為它不依賴於專用組件、定製操作符,因此它可以在各種GPU上工作。是否存在一種情況,AI變得如此便宜和豐富,這在理論上可能對Nvidia有利,但與此同時,因為它可以在其他許多GPU上輕鬆運行,人們開始使用更多像ASIC(應用特定集成電路)這樣的芯片,即為特定目的定製的芯片?
**Zvi (11:35):**我的意思是,從長遠來看,我們幾乎可以肯定會看到專門的推理芯片,無論它們來自Nvidia還是其他公司,我們幾乎可以肯定會看到各種不同的進展。今天的芯片在幾年內將會過時。這就是AI的運作方式,對吧?有這麼多快速的進展。
但我認為Nvidia處於一個非常非常好的位置,可以利用這一切。我當然不認為你只會用你的筆記本電腦來運行最好的AGI,因此我們不必擔心購買GPU是一個糟糕的選擇。競爭對手可能會推出更優越的芯片,這始終是可能的。Nvidia並沒有壟斷,但Nvidia目前似乎確實處於主導地位。
**Joe (12:29):**在我看來,我知道還有其他公司,但在美國似乎有三個主要的AI模型生產商是人們所熟知的。分別是OpenAI、Claude,以及Meta的Llama。值得注意的是,Meta今天是綠色的,股票在我談論這個時實際上上漲了1.1%。快速瀏覽一下每一個,DeepSeek衝擊如何影響他們及其生存能力,以及他們今天的立場。
**Zvi (12:59):**我認為你問題中最驚人的事情是你忘記了Google。
**Joe (13:02):**哦,是的,對吧?這很有啓發性,不是嗎?
**Zvi (13:05):**但其他人也都忘記了。我從來沒有使用過Gemini。這並不令人驚訝。Gemini Flash Thinking,他們的o1和R1版本,幾天前進行了更新,許多報告稱它現在實際上非常好,並且可能具有競爭力。實際上,對於很多人來説,在AI Studio上使用是免費的。但我認識的沒有人花時間去檢查並發現它有多好,因為我們都太沉迷於成為DeepSeek兄弟了。
谷歌的修辭午餐一次又一次地被吃掉。十二月,OpenAI不斷推出一個又一個的進展,然後谷歌也會有一個又一個的進展,而谷歌似乎實際上,如果有什麼的話,更令人印象深刻。然而,大家總是隻談論OpenAI。所以這甚至不是新鮮事。那裏發生了一些事情。因此,就OpenAI而言,OpenAI在某種意義上應該非常緊張,因為他們擁有推理模型,而現在他們的推理模型被複製得比以前更有效。而且競爭對手的成本遠低於OpenAI的收費。所以這顯然對他們的商業模式構成了直接威脅。而且看起來他們在推理模型上的領先優勢比你預期的要小得多,也更容易被扭轉,因為如果DeepSeek可以做到,當然Anthropic和谷歌也可以做到,其他人也可以做到。
生產Claude的Anthropic尚未推出自己的推理模型。他們顯然在某種意義上面臨計算資源短缺。因此,他們完全有可能選擇不推出推理模型,即使他們可以,或者沒有專注於盡快訓練一個,直到他們解決了這個問題。他們持續獲得投資。我們應該期待他們隨着時間的推移解決他們的問題,但他們似乎應該直接感到擔憂,因為在某種意義上,他們的產品競爭力較弱,但他們的市場定位往往更有效地面向更有意識的人羣,因此他們的人也會了解DeepSeek,並會面臨選擇。如果我是Meta,我會更加擔心,特別是如果我在他們的Gen AI團隊中並想保住我的工作,因為Meta在這裏的損失是巨大的,對吧?
Meta與Llama擁有最好的開放模型,所有最好的開放模型實際上都是Llama的微調版本。而現在DeepSeek出現了,這絕對不是Llama的微調。這是他們自己的產品,而V3已經把Meta的所有東西都甩在了身後。R1,有報告稱它比他們現在正在訓練的新版本更好。它比Llama 4更好,我認為這應該是事實。因此,如果開放模型社區中的每個人都在想,為什麼我不直接使用DeepSeek,那發佈一個劣質的開放模型就沒有意義了。
**喬(15:38):**特雷西,有趣的是,正如茲維所説,應該感到緊張的人是Meta的員工,而不是Meta本身,因為Meta的股票在上漲。所以你不得不想,可能他們不需要在自己的開源AI上投資那麼多,如果外面有一個更好的,而現在股票反正也在上漲。
**茲維(15:57):**從我的角度來看,市場對Meta所做的不同事情的反應一直很奇怪。曾幾何時,Meta會宣佈我們在AI上花費更多,我們在投資所有這些數據中心,我們在訓練所有這些模型。市場會説,你在做什麼?這是另一個元宇宙之類的東西,我們要打壓你的股票,把你拖下水。然後在最近宣佈的650億美元支出後,Meta的股票上漲了。可以推測,他們主要會將其用於推理,因為他們在Facebook和Instagram上想要將AI應用到各個場景中,面臨着巨大的推理成本。因此,如果有什麼的話,我認為市場可能在推測這意味着他們將知道如何訓練更便宜的Llama,從而降低成本,進而處於更好的位置。而這個理論並不瘋狂。
**特雷西 (16:44):**既然我們都共同想起了谷歌。我有一個問題,這個問題在我腦海中一直縈繞,我想喬之前也提過,但當谷歌首次推出時,人們花了很多年才逐漸適應搜索功能。實際上,沒有人真的趕上,對吧?所以谷歌多年來一直佔據主導地位。為什麼在這些聊天機器人方面,這些企業周圍沒有更高、更廣的護城河呢?
**茲維 (17:18):**一個原因是每個人都在大致相同的數據上進行訓練,也就是説整個互聯網和人類所有的知識。因此,除非你基於自己的模型創建合成數據,否則很難在這方面獲得持久的數據優勢,這正是OpenAI現在可能正在做的。另一個原因是因為每個人都在儘可能快地擴展,並定期在一切上增加零。在日曆時間上,你的競爭對手很快就會擁有比你更多的計算能力,他們會更積極地複製你的技術。秘密成分少得多,算法也就那麼多。
從根本上説,每個人都依賴於擴展法則。這被稱為苦澀的教訓,意思是你只需更多擴展。你只需使用更多的計算,使用更多的數據,使用更多的參數。而DeepSeek則表示,也許你可以進行更多的優化,繞過這個問題,仍然獲得一個更優越的模型。但大多數情況下,是的,有很多我可以通過複製你所做的事情來趕上你,因為我可以看到輸出,對吧?我可以查詢你的模型,並利用你的模型的輸出來主動訓練我的模型。你在大多數被訓練的模型中看到這一點,你問他們是誰訓練你的,他們通常會説,哦,我來自OpenAI。
**喬 (18:33):**互聯網變得如此奇怪。互聯網真是太奇怪了。Zvi Mowshowitz,非常感謝你跑到 Odd Lots 幫我們錄製這個關於DeepSeek拋售的緊急播客。太棒了。
**Zvi (18:45):**好的,謝謝你。
**喬 (18:58):**Tracy。我喜歡和Zvi聊天。我們得讓他成為我們的AI專家。
**Tracy (19:04):**老實説,我們這周可能還可以請他回來。會有事情發生。
**喬 (19:09):**也許我們會。顯然我們可以聊得更久。這是一個非常激動人心的故事。這真是一個非常激動人心的故事,而這些天事情變得越來越奇怪。
**Tracy (19:19):**這一切發生得真是太快了,真有點瘋狂。然後我想説的另一件事就是,苦澀的教訓。這個名字真適合一個樂隊。
**喬 (19:29):**哦,完全是。絕對很棒。也許當我們組建一個以AI為主題的前衞搖滾樂隊時,Tracy,這可以是我們的名字。
**Tracy (19:36):**是的,咱們就這麼定了。好吧,我們就到這裏嗎?
**喬 (19:38):**就到這裏吧。
你可以在 @thezvi 上關注Zvi Mowshowitz。