中國官媒：大模型創新不一定要依賴最先進硬件 | 聯合早報

zaobao

2025-01-26

中國初創公司深度求索（DeepSeek）發佈廉價大模型，性能可比肩美國OpenAI最新模型，引起國際媒體關注。中國官媒發文稱DeepSeek的成功證明，大模型創新不一定要依賴最先進的硬件，而是可以通過聰明的工程設計和高效的訓練方法實現。

中國官媒《經濟日報》星期天（1月26日）發表以《大模型身廋路更寬》為題的文章提出上述觀點，指這種技術突破不僅降低了AI大模型的硬件門檻和能源消耗，更重要的是為人工智能（AI）技術普惠化鋪平了道路。因為更小的模型意味着更低的部署成本、更快的響應速度和更廣泛的應用場景。在醫療、教育、製造等諸多領域，輕量級AI模型都將帶來革命性的轉變。

文章也稱，模型並非越大越好，而是越精越妙。大模型“瘦身”促進了AI技術的創新和突破。為了在減少參數的同時保持甚至提升模型性能，研究人員不得不深入挖掘模型架構的優化空間，探索更高效的算法和訓練方法。這一過程推動了人工智能基礎理論的發展，也為相關技術的跨領域應用開創了新局面。

不過文章也指出，大模型“瘦身”沒到終點站，仍面臨諸多挑戰。如何在保證模型性能的前提下實現最大程度的“瘦身”，是當前需要解決的關鍵問題。同時，“瘦身”後的模型如何在不同場景下保證適應性和穩定性，也需要進一步驗證和優化。

中國對沖基金幻方量化旗下的子公司深度求索星期一（1月20日）發佈推理模型DeepSeek-R1，在第三方多個項目的基準測試中均超越美國OpenAI開發的最新模型o1。讓西方科技界讚歎的是，深度求索在受美國限制先進科技輸華的背景下，依然開發出新穎模型。

延伸閲讀

中國DeepSeek發佈廉價大模型性能比肩美OpenAI最新模型據美國消費者新聞與商業頻道（CNBC）報道，美國微軟首席執行官納德拉星期三（1月22日）在達沃斯世界經濟論壇上説，深度求索的新模型令人印象深刻，不僅因為他們有效地構建一個開源模型，還因為它的推理計算效率極高。“我們應該非常嚴肅地看待中國人工智能的發展”。