所有人都在討論的“DeepSeek”,究竟是啥?_風聞
心之龙城飞将-昨天 22:46
都市快報
2025年01月27日 15:27:08
今天“DeepSeek”登上了熱搜第一。

1月27日,DeepSeek應用登頂蘋果美國地區應用商店免費APP下載排行榜,在美區下載榜上超越了ChatGPT。

同日,蘋果中國區應用商店免費榜顯示,DeepSeek成為中國區第一。

馮驥:“震撼的突破”
1月26日,遊戲科學創始人、CEO,《黑神話:悟空》製作人馮驥評價DeepSeek:可能是個國運級別的科技成果。

馮驥表示:“希望DeepSeek R1會讓你對當前最先進的AI祛魅,讓AI逐漸變成你生活中的水和電。太幸運了!太開心了!這樣震撼的突破,來自一個純粹的中國公司。知識與信息平權,至此又往前邁出了堅實的一步。”
DeepSeek是啥?
DeepSeek,全稱杭州深度求索人工智能基礎技術研究有限公司,成立於2023年7月17日,是一家創新型科技公司,專注於開發先進的大語言模型(LLM)和相關技術。

去年12月DeepSeek-V3發佈後,AI數據服務公司Scale AI創始人Alexander Wang就發帖稱,DeepSeek-V3是中國科技界帶給美國的苦澀教訓。“當美國休息時,中國(科技界)在工作,以更低的成本、更快的速度和更強的實力趕上。”
不到一個月之後,今年1月20日,DeepSeek正式開源R1推理模型。

據DeepSeek介紹,其最新發布的模型DeepSeek-R1在後訓練階段大規模使用了強化學習技術,在僅有極少標註數據的情況下,極大提升了模型推理能力。在數學、代碼、自然語言推理等任務上,性能比肩OpenAI o1正式版。
這一模型發佈後,引發了海外AI圈眾多科技大佬的討論。例如,英偉達高級研究科學家Jim Fan就在個人社交平台上公開發表推文表示:“我們正身處這樣一個歷史時刻:一家非美國公司正在延續OpenAI最初的使命——通過真正開放的前沿研究賦能全人類。看似不合常理,但最有趣的結局往往最可能成真。”

DeepSeek寫春聯 圖源:證券時報
為什麼DeepSeek能出圈?
在硅谷,DeepSeek很早就被稱作“來自東方的神秘力量”,也是網上熱議的“杭州六小龍”之一。
真正讓DeepSeek火出圈的是2024年12月26日,這家公司宣佈上線並同步開源的 DeepSeek-V3模型,並公佈了長達53頁的訓練和技術細節。
它以1/11的算力、僅2000個GPU芯片訓練出性能超越GPT-4o的大模型。其總訓練成本只有557.6萬美元,而GPT-4o的約為1億美元,使用25000個GPU芯片。雙方的成本至少是10倍的差距。
在性能上,DeepSeek-V3在數學、代碼能力和中文知識問答方面還超過了ChatGPT-4o。

國外獨立測評機構Artificial Analysis測試後,發出了“超越了迄今為止所有開源模型”的驚歎;Meta科學家田淵棟感慨:“這是非常偉大的工作。”
“性價比”是商業社會中的制勝法寶之一,DeepSeek也因創新的模型架構和史無前例的性價比被稱為“大模型界的拼多多”,引發字節、阿里、百度等大廠的大模型價格大戰。
與DeepSeek-V3低成本訓練一樣令人驚歎的是DeepSeek的員工規模。
在團隊配置上, DeepSeek團隊只有139名研發人員,相比OpenAI擁有1200名研究人員,團隊規模是DeepSeek的近乎9倍之多。
其中,算子、推理框架、多模態等研發工程師以及深度學習方面的研究人員共有約70人。比如前段時間的熱門話題“雷軍千萬年薪挖95後天才AI少女”,這位“95後AI天才少女”羅福莉,就是DeepSeek開源大模型DeepSeek-V2的關鍵開發者之一。
OpenAI前政策主管、Anthropic聯合創始人Jack Clark曾這樣評價DeepSeek:“僱用了一批高深莫測的奇才”,還認為中國製造的大模型,“將和無人機、電動汽車一樣,成為不容忽視的力量。”

2025年1月20日下午,中共中央政治局常委、國務院總理李強主持召開專家、企業家和教科文衞體等領域代表座談會,聽取對《政府工作報告(徵求意見稿)》的意見建議。
在此次座談會上,共有9人先後發言,其中就有深度求索(DeepSeek)創始人梁文鋒。

梁文鋒是誰?
低調的梁文鋒是個80後,出生在廣東的一個五線城市,父親是一名小學老師。他畢業於浙江大學,主修軟件工程,人工智能方向。
17歲時,梁文鋒考入浙大,讀的是電子工程系人工智能方向,畢業後在浙大攻讀碩士研究生,論文題目是《基於低成本PTZ攝像機的目標跟蹤算法研究》。
2015年,30歲的梁文鋒和朋友一起創辦了杭州幻方科技有限公司,立志成為世界頂級的量化對沖基金。2016年10月,幻方量化推出第一個AI模型,第一份由深度學習生成的交易倉位上線執行。到2017年底,幾乎所有的量化策略都採用AI模型計算。
2023年5月,38歲的梁文鋒宣佈做通用人工智能(AGI)。7月,他正式創辦杭州深度求索人工智能基礎技術研究有限公司,就是DeepSeek公司,專注於AI大模型的研究和開發,公司設在杭州。
有同事評價梁文鋒:完全不像一個老闆,而更像一個極客。因為作為老闆,他本人每天都在寫代碼、跑代碼,學習能力驚人。
從公開的工作經歷和職業生涯來看,梁文鋒在量化投資和高性能計算領域具有深厚的背景和豐富的經驗,創業範疇橫跨金融和人工智能領域。
“兩天兩崩” DeepSeek回應
26日,DeepSeek出現了短時閃崩現象。不少網友反映,使用時遇到 “服務器繁忙” 的提示。對此,DeepSeek回應稱,當天下午確實出現了局部服務波動,但問題在數分鐘內就得到了解決。此次事件可能是由於新模型發佈後,用户訪問量激增,服務器一時無法滿足大量用户的併發需求。不過,官方狀態頁並未將這一事件標記為事故。
今天也有消息稱DeepSeek服務狀態頁面顯示,DeepSeek網頁/API不可用,目前正在調查該問題。對於DeepSeek如何看待“兩天兩崩”,DeepSeek回覆稱,技術服務的穩定性受多重因素影響,可能涉及突發流量、系統升級適配或底層基礎設施的臨時波動等。我們的團隊始終將穩定性作為首要任務,並會在每次事件後徹底分析原因,持續優化系統韌性。