國產大模型震驚海外，360周鴻禕怎麼看？_風聞

你相信光吗-爱比丽屋12分钟前

2025-01-06

來源：周鴻禕

前幾天中國六代戰機曝光，外網鬧翻天了。這還不夠，這兩天中國大模型又出了新版本，致使海外 AI 社區刷屏。國內AI 創業公司 DeepSeek發佈了新的開源大模型，其參數量為6000多億，性能趕上了 GPT - 4o和Facebook的羊駝，但訓練成本比它們降低了10倍，價格僅為它們的10%。**該模型推出後，明顯能感覺到海外 AI 技術人才對中國 AI 技術的進步，處於半震驚半懵狀態。**網友評論整齊劃一，都在問中國人是如何做到的？Meta 的一位科學家驚歎，DeepSeek 的訓練像是黑科技。OpenAI 的一位創始團隊成員稱，以前達到 DeepSeek 這種級別能力通常需16000個 GPU，而現在 DeepSeek 只用2000個 GPU，計算量減少了11倍，這證明 AI 算法還有很大優化空間。

大家可能不太瞭解 DeepSeek 這家公司，雖然我們有合作，但我對其瞭解不深，於是用納米 AI 搜索查詢了一下。DeepSeek 中文名為深度求索，如名字所示，該公司一直低調行事，卻早有名氣。**在硅谷，DeepSeek 被稱為來自東方的神秘力量。**其背後是量化私募的巨頭幻方公司，2021 年為做量化交易囤了一萬張英偉達 A100，當時 ChatGPT 尚未出現，大模型也未發佈，如同 Meta 為搞元宇宙囤卡一樣，都機緣巧合趕上了 AI 浪潮，所以在其他巨頭鬧卡荒時，DeepSeek 手中有卡心中不慌。這家公司首次被人記住是因其發佈 2.0 開源模型時提供了史無前例的性價比，模型推理成本降至每百萬個 token 約一元，約為 LLaMA的1/7、GPT 的1/70，故而 DeepSeek 被稱為 AI 界的拼多多，掀起國產大模型價格戰，字節跳動、騰訊、百度、阿里紛紛降價。如今開發者能享大模型福利，DeepSeek 功不可沒。

為何今日要提及此事？過去我常説中美 AI 核心差距不大，約半年左右，主要差距在算力。因核心算法公開，多為工程化方法，模型也是開源的，差距實則不大，可很多人不信，一些專家還帶節奏，稱論 AI 實力美國領先，中國最多第二梯隊，美國遙遙領先，我對此不敢苟同。**有人妄自菲薄還讓眾人灰心，長他人的志氣滅自己的威風，對中國 AI 產業發展無益。**如今 DeepSeek 發佈的模型有力回擊了這些言論。微軟、臉書、谷歌都在朝着10萬卡集羣做大模型訓練時，DeepSeek 僅用2000個 GPU，花費不到600萬美金和兩個月時間，就做出一個與全球頂尖大模型能力對齊的開源大模型。有人質疑説，新推的大模型是用國外模型知識蒸餾而來，但知識蒸餾方法人人可用，為何他人未做到？此次效率大幅提升，肯定是在底層架構上有不同於其他巨頭的創新，DeepSeek 定有不為人知的訓練方法和工程實踐方法。過去只有美國 AI 公司具備這種獨有能力，如今中國公司也逐漸掌握了。有人會説 DeepSeek 只是個例，缺乏説服力，能否説出更多先進國產大模型？當然可以。比如阿里的通義千問，其推出的千問2.5系列大模型，其中的700億參數版本，在視覺推理、數學和科學問題表現上與國外大模型相比毫不遜色，慢思考能力也逐漸提升。此外，王小川的百川智能近期推出的金融大模型在專業能力上超過了 GPT - 4o，這也證實了我之前對專業大模型的判斷，即在通用大模型基礎上結合專業領域知識訓練，專業大模型能力可超越通用大模型，我們稱之為領域增強。360 在o1出現前就實現了慢思考能力，只是實現方法略有不同，360 打造的安全行業大模型能力也遙遙領先於 GPT - 4o。總之，希望觀看這篇文章的各位相信中國 AI 發展並不弱，不要被某些專家言論誤導。過去我們是模仿者和追隨者，他人擅長從零到一，我們擅長從一到 n，如今情況正轉變，中國科技領域原發性創新已讓全世界看到，過去是 “Copy to China”，以後可能是 “Copy from China”。

DeepSeek 公司表現出色，開了個好頭，今後我國 AI 創新定會更加活躍。借 DeepSeek 這個版本，我談幾點大模型發展的看法。第一，無需再爭論開源與閉源好壞，DeepSeek 是開源的，開源模型正趕超閉源模型。在人類技術發展趨勢中，開源可使大模型技術不被少數巨頭壟斷，唯有開源才能讓大模型真正走入各行各業，讓各級政府和企業低成本在開源基座模型上打造行業應用，推動生產力飛躍。所以 DeepSeek 的進步對推動中國 AI 產業發展是極大利好。更令人振奮的是，中國正引領全球大模型開源浪潮，開源是互聯網精神的直接體現，也是美國科技發展的源泉與機制。然而，現在中國最強的兩個模型通義千問和DeepSeek 是開源的，美國最強的兩個模型Claude和GPT 卻是閉源的.可見美國走向閉源，中國走向開源，這預示着科技發展天平向中國傾斜，一旦中國開源生態建立，這種創新機制將助力中國加速 AI 科技發展，掌握先機，實現從追趕者到引領者的華麗轉身。第二，DeepSeek 3.0版本用2000塊卡做到了萬卡集羣才能做到的事，這表明我們在一定程度上打破了西方對我們的算力封鎖，堪稱奇蹟。當前美國想盡辦法對我們進行小院高牆式的封鎖，遏制中國 AI 產業發展，禁止高端算力芯片流入中國。只有強大對手才能逼出最強的自己，若針對中國 AI 芯片的禁令，最終使中國大模型在算力受限情況下找到更高效解決方案，那這種適得其反的結果影響將更廣泛。此外，用這種極致訓練方法訓練專業大模型，算力成本會進一步降低，促使中國 AI 在專業、垂直、場景、行業大模型上更快普及。第三，有人會問，如此一來我們是否還有必要建萬卡集羣？不要誤解，我並非説中國 AI 發展不需要高端算力芯片，巨頭們囤顯卡建算力集羣依舊必要，因為目前預訓練算力需求或許沒那麼大，但像慢思考這類複雜推理模型對推理算力需求大，文生圖、文生視頻的應用也需消耗大量算力資源，巨頭們提供 AI 雲服務，構建龐大算力基礎必不可少，這與 DeepSeek 降低訓練算力需求是兩回事，兩者並不矛盾。建萬卡集羣實際是個工程問題，做過一次便一通百通，所以馬斯克從 OpenAI 挖人建十萬卡集羣，小米挖 DeepSeek 的天才少女，都是為獲取工程化的萬卡集羣訓練訣竅。作為科技行業的從業者，看到 DeepSeek 推出如此厲害的模型，中國 AI 公司憑藉原發性技術創新震驚世界，讓曾經輕視我們的外國開發者同行驚愕，各位是否感到暢快、自豪與感動？這絕對是中國 AI 產業發展的里程碑事件，我相信以後中國 AI 發展此類新聞會越來越多。大家應對中國 AI 產業發展充滿信心。