DeepSeek團隊中的部分清華人（轉載）_風聞

guan_15631596462191-1小时前

2025-02-04

在過去的一週，來自杭州的初創公司“深度搜索”推出的一系列AI大模型引發了國內外科技界的廣泛關注和震撼。DeepSeek的核心開發團隊中不乏清華大學的校友，我們作了初步搜索，本文所有資料均來源於公開網絡，並經過仔細查證。我們特別強調，DeepSeek的成就是集體的勝利，本文僅作為資料的收集與整理。

DeepSeek-V2涉及到一個關鍵算法GRPO。DeepSeek-Math問世，其中提出了GRPO（Group Relative Policy Optimization）。GRPO是PPO的一種變體RL算法，放棄了critic模型，而是從羣體得分中估算baseline，顯著減少了訓練資源的需求。該論文有三個共同第一作者，其中排第一位的是邵智宏，其介紹如下：

邵智宏，清華大學計算機系交互式人工智能課題組博士，導師為黃民烈教授。曾在微軟研究院工作。加入DeepSeek後參與了 DeepSeek-Prover、DeepSeek-Coder-v2 等多個重要項目，也是DeepSeek R1的核心作者。

此外還有：

趙成鋼，分別於2021、2024年獲清華大學計算機系學士、碩士學位。他曾在衡水中學信息學競賽班深造，並在CCF NOI（全國青少年信息學奧林匹克競賽）2016中獲得銀牌。進入清華大學後，他大二時便加入了清華學生超算團隊，並三次助力團隊奪得世界大學生超算競賽冠軍。在DeepSeek，趙成鋼擔任訓練/推理基礎架構工程師的角色。值得一提的是，他曾在英偉達北京公司實習長達八個月，這段經歷無疑為他在DeepSeek的工作奠定了堅實的基礎。

2025年1月22日，DeepSeek在預印本平台發佈了推理模型DeepSeek-R1的論文，題為“DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning”（DeepSeek-R1：通過強化學習激勵大模型的推理能力），有18位核心貢獻者（Core Contributors），其中4位來自清華，在高校中並列第一。他們是邵智宏、苟志斌、吳作凡和馬仕鎔（排名不分先後）。除了上面已介紹的邵智宏，其他多位團隊成員如下（不僅僅是DeepSeek R1的貢獻者）：

苟志斌（音），清華大學信息科學與工程研究所三年級碩士生，他優化了DeepSeek-R1的強化學習框架，降低了訓練能耗，積極推動開源生態建設。是DeepSeek-R1算法的核心作者之一。

吳作凡（部分網絡資料稱其為中山大學博士生，但未查到），2021年清華大學交叉信息學院（姚班）學士，高中畢業自安徽師大附中，曾獲第28屆國際信息學奧林匹克競賽（IOI2016）的金牌。他是DeepSeek-R1算法的核心作者之一。

任之洲（部分網絡資料誤稱其為中山大學博士生，實為美國伊利諾伊大學香檳分校博士），2020年清華大學交叉信息學院（姚班）學士，高中畢業於紹興一中，曾獲第28屆國際信息學奧林匹克競賽（IOI2016）的金牌。中學期間還曾獲得NOIP普及組一等獎、NOIP提高組一等獎、NOI2014金牌等大量榮譽。

馬仕鎔，2021年清華大學計算機系學士，後就讀於清華大學深圳國際研究生院。他是DeepSeek-R1算法的核心作者之一。阿里巴巴達摩院暑期實習生。主要研究方向為NLP，具體包括文本糾錯、文本生成等，在EMNLP、ICASSP等NLP相關會議上發表若干篇文章，在CCL等國際和國內NLP算法競賽上多次獲獎。

“半個清華人”：郭達雅，2023年從中山大學博士畢業。博士期間在清華大學聯合培養。在NeurIPS、ICLR、AAAI、ACL、EMNLP等頂會發表了多篇論文，2021年入圍全球AI華人新星百強，2020年還獲得微軟學者稱號。

不完全統計其他還有：

解振達（音），2023年清華大學高等研究院博士。

遊凱超，2020年清華大學軟件學院學士，現清華大學博士生，vLLM的核心貢獻者。

還沒有評論，發表第一個評論吧推薦閲讀