所有人都在討論的“DeepSeek”，究竟是啥？_風聞

心之龙城飞将-昨天 22:46

2025-01-27

都市快報

2025年01月27日 15:27:08

今天“DeepSeek”登上了熱搜第一。

1月27日，DeepSeek應用登頂蘋果美國地區應用商店免費APP下載排行榜，在美區下載榜上超越了ChatGPT。

同日，蘋果中國區應用商店免費榜顯示，DeepSeek成為中國區第一。

馮驥：“震撼的突破”

1月26日，遊戲科學創始人、CEO，《黑神話：悟空》製作人馮驥評價DeepSeek：可能是個國運級別的科技成果。

馮驥表示：“希望DeepSeek R1會讓你對當前最先進的AI祛魅，讓AI逐漸變成你生活中的水和電。太幸運了！太開心了！這樣震撼的突破，來自一個純粹的中國公司。知識與信息平權，至此又往前邁出了堅實的一步。”

DeepSeek是啥？

DeepSeek，全稱杭州深度求索人工智能基礎技術研究有限公司，成立於2023年7月17日，是一家創新型科技公司，專注於開發先進的大語言模型（LLM）和相關技術。

去年12月DeepSeek-V3發佈後，AI數據服務公司Scale AI創始人Alexander Wang就發帖稱，DeepSeek-V3是中國科技界帶給美國的苦澀教訓。“當美國休息時，中國（科技界）在工作，以更低的成本、更快的速度和更強的實力趕上。”

不到一個月之後，今年1月20日，DeepSeek正式開源R1推理模型。

據DeepSeek介紹，其最新發布的模型DeepSeek-R1在後訓練階段大規模使用了強化學習技術，在僅有極少標註數據的情況下，極大提升了模型推理能力。在數學、代碼、自然語言推理等任務上，性能比肩OpenAI o1正式版。

這一模型發佈後，引發了海外AI圈眾多科技大佬的討論。例如，英偉達高級研究科學家Jim Fan就在個人社交平台上公開發表推文表示：“我們正身處這樣一個歷史時刻：一家非美國公司正在延續OpenAI最初的使命——通過真正開放的前沿研究賦能全人類。看似不合常理，但最有趣的結局往往最可能成真。”

DeepSeek寫春聯圖源：證券時報

為什麼DeepSeek能出圈？

在硅谷，DeepSeek很早就被稱作“來自東方的神秘力量”，也是網上熱議的“杭州六小龍”之一。

真正讓DeepSeek火出圈的是2024年12月26日，這家公司宣佈上線並同步開源的 DeepSeek-V3模型，並公佈了長達53頁的訓練和技術細節。

它以1/11的算力、僅2000個GPU芯片訓練出性能超越GPT-4o的大模型。其總訓練成本只有557.6萬美元，而GPT-4o的約為1億美元，使用25000個GPU芯片。雙方的成本至少是10倍的差距。

在性能上，DeepSeek-V3在數學、代碼能力和中文知識問答方面還超過了ChatGPT-4o。

國外獨立測評機構Artificial Analysis測試後，發出了“超越了迄今為止所有開源模型”的驚歎；Meta科學家田淵棟感慨：“這是非常偉大的工作。”

“性價比”是商業社會中的制勝法寶之一，DeepSeek也因創新的模型架構和史無前例的性價比被稱為“大模型界的拼多多”，引發字節、阿里、百度等大廠的大模型價格大戰。

與DeepSeek-V3低成本訓練一樣令人驚歎的是DeepSeek的員工規模。

在團隊配置上， DeepSeek團隊只有139名研發人員，相比OpenAI擁有1200名研究人員，團隊規模是DeepSeek的近乎9倍之多。

其中，算子、推理框架、多模態等研發工程師以及深度學習方面的研究人員共有約70人。比如前段時間的熱門話題“雷軍千萬年薪挖95後天才AI少女”，這位“95後AI天才少女”羅福莉，就是DeepSeek開源大模型DeepSeek-V2的關鍵開發者之一。

OpenAI前政策主管、Anthropic聯合創始人Jack Clark曾這樣評價DeepSeek：“僱用了一批高深莫測的奇才”，還認為中國製造的大模型，“將和無人機、電動汽車一樣，成為不容忽視的力量。”

2025年1月20日下午，中共中央政治局常委、國務院總理李強主持召開專家、企業家和教科文衞體等領域代表座談會，聽取對《政府工作報告（徵求意見稿）》的意見建議。

在此次座談會上，共有9人先後發言，其中就有深度求索（DeepSeek）創始人梁文鋒。

梁文鋒是誰？

低調的梁文鋒是個80後，出生在廣東的一個五線城市，父親是一名小學老師。他畢業於浙江大學，主修軟件工程，人工智能方向。

17歲時，梁文鋒考入浙大，讀的是電子工程系人工智能方向，畢業後在浙大攻讀碩士研究生，論文題目是《基於低成本PTZ攝像機的目標跟蹤算法研究》。

2015年，30歲的梁文鋒和朋友一起創辦了杭州幻方科技有限公司，立志成為世界頂級的量化對沖基金。2016年10月，幻方量化推出第一個AI模型，第一份由深度學習生成的交易倉位上線執行。到2017年底，幾乎所有的量化策略都採用AI模型計算。

2023年5月，38歲的梁文鋒宣佈做通用人工智能（AGI）。7月，他正式創辦杭州深度求索人工智能基礎技術研究有限公司，就是DeepSeek公司，專注於AI大模型的研究和開發，公司設在杭州。

有同事評價梁文鋒：完全不像一個老闆，而更像一個極客。因為作為老闆，他本人每天都在寫代碼、跑代碼，學習能力驚人。

從公開的工作經歷和職業生涯來看，梁文鋒在量化投資和高性能計算領域具有深厚的背景和豐富的經驗，創業範疇橫跨金融和人工智能領域。

“兩天兩崩” DeepSeek回應

26日，DeepSeek出現了短時閃崩現象。不少網友反映，使用時遇到 “服務器繁忙” 的提示。對此，DeepSeek回應稱，當天下午確實出現了局部服務波動，但問題在數分鐘內就得到了解決。此次事件可能是由於新模型發佈後，用户訪問量激增，服務器一時無法滿足大量用户的併發需求。不過，官方狀態頁並未將這一事件標記為事故。

今天也有消息稱DeepSeek服務狀態頁面顯示，DeepSeek網頁/API不可用，目前正在調查該問題。對於DeepSeek如何看待“兩天兩崩”，DeepSeek回覆稱，技術服務的穩定性受多重因素影響，可能涉及突發流量、系統升級適配或底層基礎設施的臨時波動等。我們的團隊始終將穩定性作為首要任務，並會在每次事件後徹底分析原因，持續優化系統韌性。