中國官媒:大模型創新不一定要依賴最先進硬件 | 聯合早報
zaobao
中國初創公司深度求索(DeepSeek)發佈廉價大模型,性能可比肩美國OpenAI最新模型,引起國際媒體關注。中國官媒發文稱DeepSeek的成功證明,大模型創新不一定要依賴最先進的硬件,而是可以通過聰明的工程設計和高效的訓練方法實現。
中國官媒《經濟日報》星期天(1月26日)發表以《大模型身廋路更寬》為題的文章提出上述觀點,指這種技術突破不僅降低了AI大模型的硬件門檻和能源消耗,更重要的是為人工智能(AI)技術普惠化鋪平了道路。因為更小的模型意味着更低的部署成本、更快的響應速度和更廣泛的應用場景。在醫療、教育、製造等諸多領域,輕量級AI模型都將帶來革命性的轉變。
文章也稱,模型並非越大越好,而是越精越妙。大模型“瘦身”促進了AI技術的創新和突破。為了在減少參數的同時保持甚至提升模型性能,研究人員不得不深入挖掘模型架構的優化空間,探索更高效的算法和訓練方法。這一過程推動了人工智能基礎理論的發展,也為相關技術的跨領域應用開創了新局面。
不過文章也指出,大模型“瘦身”沒到終點站,仍面臨諸多挑戰。如何在保證模型性能的前提下實現最大程度的“瘦身”,是當前需要解決的關鍵問題。同時,“瘦身”後的模型如何在不同場景下保證適應性和穩定性,也需要進一步驗證和優化。
中國對沖基金幻方量化旗下的子公司深度求索星期一(1月20日)發佈推理模型DeepSeek-R1,在第三方多個項目的基準測試中均超越美國OpenAI開發的最新模型o1。讓西方科技界讚歎的是,深度求索在受美國限制先進科技輸華的背景下,依然開發出新穎模型。
延伸閲讀
中國DeepSeek發佈廉價大模型 性能比肩美OpenAI最新模型 據美國消費者新聞與商業頻道(CNBC)報道,美國微軟首席執行官納德拉星期三(1月22日)在達沃斯世界經濟論壇上説,深度求索的新模型令人印象深刻,不僅因為他們有效地構建一個開源模型,還因為它的推理計算效率極高。“我們應該非常嚴肅地看待中國人工智能的發展”。