DeepSeek何以震撼全球? | 聯合早報
zaobao
中國企業深度求索(DeepSeek)的生成式人工智能(generative AI)推出後迅速火爆全球,以極低的成本實現了與ChatGPT等西方頂尖模型媲美的性能,讓原本遙遙領先的美國AI企業深感危機重重。
DeepSeek相比美國生成式AI的優勢是什麼?
DeepSeek的大型語言模型V3完整版本有近700吉字節(gigabytes),大到只能在專業硬件上運行,參數量多達6850億個,比以往任何供免費下載的模型都要大。相較之下,臉書母公司Meta的Llama 3.1模型只有4050億個參數。人工智能編碼平台Aider的測試結果顯示,DeepSeek表現僅次於OpenAI的o1模型。
更令人驚豔的是,DeepSeek是以極低的成本,實現頂級的性能。獨立研究公司Melius Research指出,DeepSeek很可能掌握了利用更高效內存和學習策略,來降低模型訓練成本的方法,它的模型生成信息的成本僅為OpenAI的ChatGPT模型的十分之一。
DeepSeek的優勢也在於它的算法改進和優化,它在算力上得到了節省,在輸入數據和語料庫上,不像以前要求那麼大的數據量和大的算力。
據估計,西方主要AI模型使用了1萬6000個專用晶片。DeepSeek的文件則顯示,它僅用了約2048塊英偉達H800晶片,這款晶片原本是針對中國市場的特供版,在某些性能參數上有所降低,以符合美國2022年對華出口管制。2023年10月,H800也納入美國對中國出口禁令中。
延伸閲讀
[DeepSeek或引發新一輪關税壁壘出口管制 學者:AI競爭新常態
](https://www.bdggg.com/2025/zaobao/news_2025_01_31_736324)
[DeepSeek或引發科技股重估潮 數據中心領域也受衝擊
](https://www.bdggg.com/2025/zaobao/news_2025_01_29_736109)
DeepSeek的劣勢是什麼?
受中國的審查政策影響,DeepSeek並非總是知無不言。《經濟學人》嘗試向它詢問台灣時,它生成幾句就停下來,還刪除之前的回答,要求用户“聊點別的”。
目前,美國的人工智能也仍然具備中國對手尚無法匹敵的能力。例如,谷歌的一項研究項目能讓用户的網絡瀏覽器與聊天機器人Gemini對話,這或有助於實現人工智能“代理”(agent)與互聯網互動的前景。OpenAI的聊天機器人則不僅會幫用户編寫代碼,還會幫助他們運行代碼。
OpenAI還在醖釀多項創新技術,包括據説能力堪比人類專家的“博士級超級代理”。
梁文鋒為何平地一聲雷?
DeepSeek創始人梁文峯1985年出生於廣東省湛江市,2010年獲得信息與通信工程碩士學位,畢業後先後創立杭州雅克比投資管理有限公司,以及杭州幻方科技有限公司,致力於通過數學和人工智能進行量化投資。2023年,梁文峯創辦DeepSeek,進軍通用人工智能領域。
中國媒體指出,DeepSeek的成功與梁文鋒在團隊管理和技術研發上的獨特策略有着密切關係。梁文鋒曾説,他的團隊“沒有什麼高深莫測的奇才”,都是沒多少經驗的年輕人。他認為,“創新須要擺脱慣性,經驗有時會成為包袱”。